数据挖掘前的数据准备工作.ppt
《数据挖掘前的数据准备工作.ppt》由会员分享,可在线阅读,更多相关《数据挖掘前的数据准备工作.ppt(26页珍藏版)》请在装配图网上搜索。
数据挖掘前的数据准备,数据准备的重要性数据准备技术数据导入数据的过滤和采样清洗数据派生数据将数据准备应用到产品中,数据准备的重要性,数据挖掘和预测分析在已有的数据中找到数据间的模式和关系利用找到的模式和关系进行预测垃圾进/垃圾出分析的结果是基于数据质量的不可能发现数据中没有的内容我们需要的是高质量的正确的数据,高质量的正确的数据,完整性实时性准确性,对与错,demonstration,数据准备技术,Transact-SQL(T-SQL)利用高性能的T-SQL语句在数据源处进行数据准备工作SQLServer2005IntegrationServices(SSIS)连接多种不同的数据源获取数据MicrosoftOfficeExcel2007友好、通俗易懂,尤其适合非专业人员第三方工具,数据导入,数据挖掘引擎中使用OLEDB和ADO.NET根据具体情况配置数据导入环境使用BusinessIntelligenceDevelopmentStudio(BIDS)使用DataMiningClientforExceladd-inforExcel2007插件,BIDS中的数据导入,数据源OLEDB或ADO.NET数据源视图源数据的元数据视图计算列命名查询虚拟关系,Excel中的数据导入,Excel表使用Exceladd-in插件中的分析工具Excelranges导入数据MicrosoftQueryAdd-ins不适用于数据透视表动态的视图外部数据源创建新数据源使用来自SQLServer2005AnalysisServices中一个实例的数据源,数据导入的例子,demonstration,过滤和采样(1),过滤或移除没有用的数据例如,只有男性或女性两种性别的顾客对案例采样以减少案例数据的数量减少训练时间注意使用正确的键进行采样例如:customers,transactions,orlineitems过采样保证采样数据的平衡例如:使用更大的采样范围来平衡采样中的男女比例当一些案例的数据很少的时候时用此方法,过滤和采样(2),在SQLServer2005数据挖掘中在数据源视图中进行过滤工作在数据源视图中进行采样工作在SQLServer2008数据挖掘中在挖掘结构中进行过滤工作在ExcelAdd-in插件中准备样本Preparingsamples过采样Oversampling过滤表,在SSIS中进行过滤和采样工作,在数据源出进行过滤使用“条件分支”控件进行过滤采样技术随机采样行计数采样过采样,过滤和采样操作,demonstration,清洗数据,检测和修改错误了解错误的情况在数据源处修改错误使用SQLServerIntegrationServices修改错误检测和修改异常了解异常情况使用SQLServerDataMiningAdd-inforthe2007Officesystem插件解决使用SQLServerIntegrationServices解决处理空值处理重复的记录和模糊匹配,清洗数据,demonstration,派生数据,离散的列例如:性别离散化列例如:将年龄分组(年轻,年老)优于连续的年龄值(16,18,72,75)计算出新的列从其他列中的值派生,离散化列,说明将一个连续列中的值分成多个组或桶,并生成新的列。这些桶中的值是有序的、离散的。例如:年龄组比连续的年龄更好自动创建确定桶的数量确定方法自动,群组,等面积,创建自己的桶,使用T-SQLCase语句使用SSIS派生列使用SQLServerDataMiningAdd-inforthe2007OfficesystemExploringandpreparingdata,派生列,一些例子两个日期间的时间间隔货到时间下单时间距离某件事情的时间感恩节前的几天,距离退休的年份比率体质指数总计每年支持电话的数量,创建新的派生列,使用T-SQL在数据源视图中命名计算命名查询在SSIS中派生列在Excel中使用公式,数据离散化,demonstration,将数据准备应用到项目中,数据挖掘是一个迭代过程不要期望首次就能够成功尝试各种不同的假设和技术测试并且确认这些尝试决定何时在那里准备数据在源头自动地准备在规定的时间执行SSIS包在Excel中根据需要随时准备,下一步,1)访问MicrosoftDataMiningWebsiteat:,获得更多信息,访问TechNet:,谢谢大家!,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 准备工作
装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文