数据挖掘项目实施概述

上传人:痛*** 文档编号:182784052 上传时间:2023-01-28 格式:PPT 页数:42 大小:1.02MB
收藏 版权申诉 举报 下载
数据挖掘项目实施概述_第1页
第1页 / 共42页
数据挖掘项目实施概述_第2页
第2页 / 共42页
数据挖掘项目实施概述_第3页
第3页 / 共42页
资源描述:

《数据挖掘项目实施概述》由会员分享,可在线阅读,更多相关《数据挖掘项目实施概述(42页珍藏版)》请在装配图网上搜索。

1、2023-1-28数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社2023-1-28 2023-1-28本章包括:本章包括:数据挖掘数据挖掘项目实施项目实施步骤步骤123数据挖数据挖掘项目掘项目周期周期单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容建立项目建立项目和报告和报告处理缺处理缺失值失值导入和导入和导出导出PMML模型模型3452023-1-2823.123.1数据挖掘

2、项目实施步骤数据挖掘项目实施步骤2323.1.1.1.1一般实施步骤一般实施步骤一般而言,数据挖掘项目要经历的过程包括:一般而言,数据挖掘项目要经历的过程包括:问题理解和提出、问题理解和提出、数据准备、数据整理数据准备、数据整理、建、建立模型、评价和解释等一系列任务立模型、评价和解释等一系列任务,其流程如,其流程如图图23231 1所示所示 。2023-1-2823.1.223.1.2企业解决方案企业解决方案23.1.2.1 SEMMA23.1.2.1 SEMMA模式模式2023-1-2823.1.2.2 SPSS5A模型2023-1-2823.1.323.1.3标准过程模型标准过程模型 商业

3、理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布2023-1-2823.223.2数据挖掘项目周期数据挖掘项目周期2023-1-2823.323.3建立项目和报告建立项目和报告23.3.123.3.1项目概述项目概述表面上,Clementine项目只是一种组织输出的简单方式,但实际上它能做更多的工作,主要包括以下工作:(1 1)注释项目文件中的每个对象。(2 2)使用CRISP-DM方法指导数据挖掘工作。项目还包含CRISP-DM帮助系统,该系统针对使用CRISP-DM进行的数据挖掘提供详细信息以及现实示例。(3 3)将非Clementin

4、e项目添加到Clementine项目,如用于展现数据挖掘目标的PowerPoint幻灯片或与计划使用的算法相关的文档等。(4 4)根据注解生成全面更新报告和简单更新报告。为了便于在局域网上发布,可以用HTML的形式生成这些报告。2023-1-2823.3.1.1CRISP-DM23.3.1.1CRISP-DM视图视图2023-1-2823.3.1.223.3.1.2类视图类视图2023-1-2823.3.223.3.2建立项目建立项目23.3.2.123.3.2.1新建项目新建项目在Clementine窗口中新建项目非常简单。可以从构建新项目开始(如果没有项目打开),也可以关闭现有项目并重新开

5、始。从流工作区菜单中,选择从流工作区菜单中,选择“文件文件”“”“工工程程”“”“新建工程新建工程.”.”命令。命令。2023-1-2823.3.2.2添加到项目创建或打开项目后,便可以使用多种方法来添加对象,如数据流、节点和报告等。(1 1)用管理器添加对象)用管理器添加对象使用Clementine窗口右上角的管理器,可以添加流或输出。从其中一个管理器选项卡中选择一个对象(如表或流)。右键单击,然后选择“添加到工程”命令。如果以前保存过该对象,则会自动将它添加到适当的对象文件夹(在类视图中)或默认的阶段文件夹(在CRISP-DM 视图中)。或者,可以将对象从管理器拖放到项目工作区中。将项目添

6、加到项目工程中,如图237从项目管理器中加入项目项到工程中所示。2023-1-28(2 2)从工作区添加节点)从工作区添加节点可以使用“保存”对话框从流工作区添加单个节点。在工作区中选择一个节点。单击右键,然后选择“保存节点”命令;或者,从菜单中选择“编辑”“节点”“保存节点.”命令。在“保存”对话框中,选中“将文件添加到工程”命令。为节点创建名称,然后单击“保存”命令。从流工作区中加入节点的主要操作对话框如图238从流工作区中加入节点所示,这样会保存文件并将其添加到项目中,同时节点会被添加到类视图中的Nodes文件夹以及CRISP-DM视图中的默认阶段文件夹。2023-1-28(3 3)添加

7、外部文件)添加外部文件将外部文件添加到项目的一般步骤如下:Step1.将文件从桌面上直接拖到项目中;或右键单击CRISP-DM视图或类视图中的目标文件夹。Step2.从菜单中,选择“添加到文件夹”命令。Step3.在对话框中选择一个文件,然后单击“打开”命令。这将会在Clementine项目内添加对所选对象的引用。2023-1-2823.3.2.323.3.2.3设置项目属性设置项目属性可以使用项目属性对话框来自定义项目的内容和文档。要访问项目属性,一般执行以下操作:Step1.Step1.右键单击项目工具中的根文件夹,然后选择“工程属性”命令;或者右键单击项目工具中的非根文件夹,然后选择“工

8、程”“工程属性”命令。工程选项卡对话框如图239工程选项卡对话框所示。Step2.Step2.单击“工程”选项卡以指定项目的相关信息。2023-1-28在工程选项卡中包含下列信息,如图239工程选项卡对话框所示。创建时间:创建时间:显示项目的创建时间(此项内容不可编辑)。摘要摘要:可以输入将在项目报告中显示的数据挖掘项目的摘要。内容:内容:列出项目文件引用的组成文件的类型和数量(此项内容不可编辑)。将未保存的对象保将未保存的对象保另另存为单选项:存为单选项:指定是应将未保存的对象保存到本地文件系统还是存储在Predictive Enterprise Repository 中。载入项目时更新对象

9、引用复选框:载入项目时更新对象引用复选框:选中此选项可更新项目对其组成文件的引用。2023-1-2823.3.2.4注解项目项目工具提供了多种方式来注解数据挖掘工作。项目级注解常用于跟踪宏观目标和决策,而文件夹或节点注解提供其他详细信息。“注解”选项卡提供了足够空间记录项目级详细信息,比如具有不可恢复丢失数据的数据排除、数据探索过程中形成的可能假设等。2023-1-2823.3.2.5对象属性可以查看对象属性并选择是否在项目报告中纳入单个对象。要访问对象属性,需要执行以下操作:Step1.右键单击项目窗口中的对象。Step2.从菜单中,选择“对象属性”命令。对象属性的设置,如图23-12对象属

10、性对话框所示。2023-1-2823.3.2.623.3.2.6关闭项目关闭项目关闭项目文件的操作步骤一般如下:关闭项目文件的操作步骤一般如下:Step1.从“文件”菜单中,选择关闭项目。Step2.如果系统询问是关闭所有与项目关联的文件还是让其保持打开,请单击“保持打开”命令,将关闭工程文件(.cpj)本身而让所有关联文件(如流、节点或图形等)保持打开。2023-1-2823.3.323.3.3建立报告建立报告项目最有用的一项功能是能够根据项目项和注解生成报告。可以直接生成若干种文件类型的报告,也可以直接输出到屏幕窗口以便立即查看。从输出窗口中,可以打印、保存或查看Web 浏览器中的报告。还

11、可以将保存的报告分发给组织中的其他人。2023-1-2823.3.3.123.3.3.1设置报告选项设置报告选项2023-1-2823.3.3.223.3.3.2生成报告生成报告2023-1-2823.3.3.2保存和输出报告在屏幕上生成的报告显示在新输出窗口中,此报告中包括的所有图形都会显示为内嵌图像。保存报告的一般步骤如下:保存报告的一般步骤如下:Step1.从“文件”菜单中,选择“保存”命令。Step2.指定文件名。导出报告的一般步骤如下:导出报告的一般步骤如下:Step1.从“文件”菜单中,选择导出以及要导出为的文件类型。Step2.指定文件名。可以将报告导出为如下类型的文件:可以将报

12、告导出为如下类型的文件:HTML文本Microsoft WordMicrosoft ExcelMicrosoft PowerPoint2023-1-2823.423.4处理缺失值处理缺失值 23.4.123.4.1指定缺失值指定缺失值用户可以用类型节点或者来源节点的类型选项卡来指定某个特定的值为缺失值,也可以决定是否把系统的缺失值或空白看作空格。在“缺失”栏上,从下拉菜单中选择“指定”来打开一个对话框,然后确定缺失值选项。如图23-16确定连续变量的缺失值所示。2023-1-28图23-16 确定连续变量的缺失值2023-1-2823.4.2处理缺失值用户应根据所从事的专业领域知识来确定如何处

13、理缺失值。为了减少训练时间以及提高精度,可能需要除去数据集中的空值。此外,空值的出现还可能会带来新的业务机会或其他灵感。在在ClementineClementine中有许多技巧来处理缺失值,可以根据数据的以中有许多技巧来处理缺失值,可以根据数据的以下特征来选择最佳方法:下特征来选择最佳方法:数据集的大小包含空值的字段数缺失信息量一旦分析了上述因素,就可以选择下述两种方法来处理:忽略带有缺失值的字段或记录可以使用各种方法归因、替换或强制赋值缺失值2023-1-2823.4.2.1处理带缺失值的记录如果大部分缺失值都集中在少量记录中,只需排除这些记录即可。例如,银行通常会保存详细而完整的贷款客户的

14、记录。但是,如果银行在审批内部职员的贷款时管制不严,则所收集的员工贷款数据可能会存在空白字段。此种情况下,有两种方法两种方法可以处理缺失值:可以使用选择节点删除员工记录。可以使用选择节点删除员工记录。如果数据集很大,使用者可以在一个选择节点上,使用如果数据集很大,使用者可以在一个选择节点上,使用BLANKBLANK和和NULLNULL函数函数来剔除带有空格的所有记录。来剔除带有空格的所有记录。2023-1-2823.4.2.2处理带缺失值的字段如大部分缺失值都集中在少量字段中,可通过字段而不是记录查找如大部分缺失值都集中在少量字段中,可通过字段而不是记录查找这些缺失值。这些缺失值。确定要采用的

15、方法时,还应考虑带有缺失值的字段类型。确定要采用的方法时,还应考虑带有缺失值的字段类型。数值字段对于数值字段类型(如范围),应在构建模型前清除所有非数字值,因为如果数值字段中包含空值,很多模型将无效。分类字段对于分类字段(如集合和标志),虽然不必更改缺失值,但更改后可以提高模型的精度。2023-1-28要筛选或删除带有大量缺失值的字段,可以采用以下要筛选或删除带有大量缺失值的字段,可以采用以下几种方法:几种方法:使用数据审核节点根据质量过滤字段。可以使用特征选择节点来筛选缺失值超过指定百分比的字段,并根据相对于特定目标的重要性来对字段进行排序。除删除字段以外,还可以使用类型节点将字段方向设置为

16、无。此操作可将字段保留在数据集中,但不会对其进行建模操作。2023-1-2823.4.2.3归因或填充缺失值在仅有少量缺失值的情况下,可以用插入值来替换空值。下列方在仅有少量缺失值的情况下,可以用插入值来替换空值。下列方法可用于输入缺失值:法可用于输入缺失值:替换为固定值(可以选用字段平均值、范围中间值或者指定的常数)。替换为基于正态分布或均匀分布产生的随机值。用于指定定制表达式。例如,可以使用设置全局量节点创建的全局变量进行替换。基于C&RT算法替换为模型预测的值。对于使用此方法输入的每个字段,都会有一个单独的C&RT模型,还有一个填充节点会使用该模型预测的值替换空白值和Null值。然后使用

17、过滤节点删除该模型生成的预测字段。如果还要为特定字段强制赋值,则可以使用类型节点来确保字段类型仅包含合法值,然后将需要替换空值字段的检查列设置为强制。2023-1-2823.4.3用CLEM函数处理缺失值表达式操作语言CLEM全名为Clementine Language for Expression Manipulation,是在Clementine中执行函数运算时的专用语法,用于分析和操纵在Clementine流中流动的数据,是一个功能强大的语言。2023-1-28有多个有多个CLEMCLEM函数可用于处理缺失值。选择节点和填充节点中经常会用以下函数来删除或填充缺失函数可用于处理缺失值。选择

18、节点和填充节点中经常会用以下函数来删除或填充缺失值:值:count_nulls(LIST)BLANK(FIELD)NULL(FIELD)undef函数可以与FIELD函数一起使用,来识别一个或多个字段中是否存在空值或非Null值。当出现空值或非Null值时,一般会对此类字段进行标记,也可以用替换值填充或者在各种其他操作中使用此类字段。如下所示,可以计算字段列表中的非如下所示,可以计算字段列表中的非NullNull值的数量:值的数量:count_nulls(cardtenurecard2tenurecard3tenure)如果要使用接受输入类型的字段列表的函数,则可以使用特定的FIELDS_BE

19、TWEEN和FIELDS_MATCHING函数,如下所示:count_nulls(FIELDS_MATCHING(card*)在选择字段中用填充节点把缺失值替换成0,如图2318用填充节点将选定字段中的非Null值替换为0所示。2023-1-2823.523.5导入和导出导入和导出PMMLPMML模型模型PMML(predictive model markup language,称为预测模型标记语言)是一个XML基础的标准,以XML文件类型定义DTD形式,用于描述数据挖掘和统计模型,包括模型的输入、用于为数据挖掘准备数据的变换、以及定义模型自身的参数。Clementine可导入和导出PMML模

20、型,使其能够与其他支持此格式的应用程序(例如,SPSS、SPSS Categorize)共享模型。2023-1-2823.5.1支持PMML的模型类型23.5.1.1 PMML 3.123.5.1.1 PMML 3.1导入导入Clementine可以导入并评分由SPSS所有产品生成的PMML 3.1模型,包括从Clementine导出的模型和由SPSS 15.0生成的模型或变换PMML模型。实质上,这包括了实质上,这包括了SPSS SmartscoreSPSS Smartscore组件可组件可以评分的所有以评分的所有PMMLPMML模型,但以下几种情况例外:模型,但以下几种情况例外:(1)无法

21、导入Apriori、CARMA及异常检测模型。(2)将PMML模型导入到Clementine后,虽然可以对其进行评分,但不能进行浏览。(3)不能导入无法评分的模型。(4)以PMML格式导出的IBM Intelligent Miner模型,无法重新导入到Clementine中。2023-1-2823.5.1.2导入PMML的较早版本对于从Clementine较早版本(11.0之前版本)中导出的遗存模型,只有某些模型类型(而不是所有类型)支持PMML导入,模型支持PMML导入关系如表231所示:模型类型模型类型PMMLPMML导入(导入(2.12.1或或3.03.0)神经网络不可用不可用C&R树是

22、是CHAID树是是QUEST树是是C5.0树不可用不可用规则集不可用不可用Kohonen网络不可用不可用K-Means不可用不可用两步是是线性回归是是Logistic回归是是因子/主成分分析不可用不可用序列不可用不可用CARMA不可用不可用Apriori不可用不可用文本提取不可用不可用特征选择不可用不可用异常检测不可用不可用非精练(GRI,CEMI)不可用不可用2023-1-2823.5.1.3 Clementine23.5.1.3 Clementine模型模型PMMLPMML导导出出Clementine中的所有模型,除了CHAID、Anomaly、GRI、Factor/PCA、特征选择等少数

23、几个模型以外,都可以用PMML编码的XML文件的方式输出。对于PMML模型输出,应该选择一个XML文件名。Clementine中的模型是否支持PMML输出类型,模型支持PMML输出关系如表232所示.模型类型支持PMML输出类型神经网络是是建立C5.0是是Kohonen是是线性回归是是GRI否否Apriori是是K-Means是是逻辑回归是是两步是是分类和回归(C&R)树是是序列探测是是QUEST是是CHAID否否Anomaly否否Carma是是特征选择否否因子分析/主成分分析否否文本提取否否2023-1-2823.5.1.4数据库本地模型PMML导出对于使用数据库本地算法生成的模型,仅在IB

24、M Intelligent Miner模型中可使用PMML导出,无法导出使用Microsoft的Analysis Services或Oracle Data Miner创建的模型。此外,以PMML格式导出的IBM模型无法重新导入到Clementine中 2023-1-2823.5.223.5.2导入导入PMMLPMML模型模型2023-1-2823.5.3导出PMML模型在Clementine中生成模型后,可按以下的步骤用PMML代码输出:Step1.在管理窗口中的“模型”选项卡,用右键点单击一个模型。Step2.从内容菜单中,选择“导出PMML”命令。Step3.给模型命名,然后点击“保存”命

25、令即可。2023-1-2823.6 23.6 小结小结根据本章讲述的数据挖掘项目实施的方法论和生命周期、SPSS Clementine的项目管理、数据挖掘项目的建立和报告的生成、缺失值的处理和PMML模型的导入导出等内容,将数据挖掘项目实施的理论与SPSS Clementine数据挖掘软件结合,能够完成数据挖掘项目的一般实施过程。而更为详细的数据挖掘项目实施的内容,可以参考下一章的SPSS Clementine典型案例分析,通过更多具体的数据挖掘的实践才能更好地把握数据挖掘项目的实施。9、静夜四无邻,荒居旧业贫。2023-1-282023-1-28Saturday,January 28,202

26、310、雨中黄叶树,灯下白头人。2023-1-282023-1-282023-1-281/28/2023 8:50:05 AM11、以我独沈久,愧君相见频。2023-1-282023-1-282023-1-28Jan-2328-Jan-2312、故人江海别,几度隔山川。2023-1-282023-1-282023-1-28Saturday,January 28,202313、乍见翻疑梦,相悲各问年。2023-1-282023-1-282023-1-282023-1-281/28/202314、他乡生白发,旧国见青山。2023年1月28日星期六2023-1-282023-1-282023-1-2

27、815、比不了得就不比,得不到的就不要。2023年1月2023-1-282023-1-282023-1-281/28/202316、行动出成果,工作出财富。2023-1-282023-1-28January 28,202317、做前,能够环视四周;做时,你只能或者最好沿着以脚为起点的射线向前。2023-1-282023-1-282023-1-282023-1-289、没有失败,只有暂时停止成功!。2023-1-282023-1-28Saturday,January 28,202310、很多事情努力了未必有结果,但是不努力却什么改变也没有。2023-1-282023-1-282023-1-281

28、/28/2023 8:50:05 AM11、成功就是日复一日那一点点小小努力的积累。2023-1-282023-1-282023-1-28Jan-2328-Jan-2312、世间成事,不求其绝对圆满,留一份不足,可得无限完美。2023-1-282023-1-282023-1-28Saturday,January 28,202313、不知香积寺,数里入云峰。2023-1-282023-1-282023-1-282023-1-281/28/202314、意志坚强的人能把世界放在手中像泥块一样任意揉捏。2023年1月28日星期六2023-1-282023-1-282023-1-2815、楚塞三湘接,

29、荆门九派通。2023年1月2023-1-282023-1-282023-1-281/28/202316、少年十五二十时,步行夺得胡马骑。2023-1-282023-1-28January 28,202317、空山新雨后,天气晚来秋。2023-1-282023-1-282023-1-282023-1-289、杨柳散和风,青山澹吾虑。2023-1-282023-1-28Saturday,January 28,202310、阅读一切好书如同和过去最杰出的人谈话。2023-1-282023-1-282023-1-281/28/2023 8:50:05 AM11、越是没有本领的就越加自命不凡。2023-

30、1-282023-1-282023-1-28Jan-2328-Jan-2312、越是无能的人,越喜欢挑剔别人的错儿。2023-1-282023-1-282023-1-28Saturday,January 28,202313、知人者智,自知者明。胜人者有力,自胜者强。2023-1-282023-1-282023-1-282023-1-281/28/202314、意志坚强的人能把世界放在手中像泥块一样任意揉捏。2023年1月28日星期六2023-1-282023-1-282023-1-2815、最具挑战性的挑战莫过于提升自我。2023年1月2023-1-282023-1-282023-1-281/28/202316、业余生活要有意义,不要越轨。2023-1-282023-1-28January 28,202317、一个人即使已登上顶峰,也仍要自强不息。2023-1-282023-1-282023-1-282023-1-28MOMODA POWERPOINTLorem ipsum dolor sit,eleifend nulla ac,fringilla purus.Nulla iaculis tempor felis amet,consectetur adipiscing elit.Fusce id urna blanditut cursus.感谢您的下载观看感谢您的下载观看专家告诉

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!