数据挖掘与Clementine使用培训电信课件

上传人:沈*** 文档编号:182079342 上传时间:2023-01-20 格式:PPT 页数:306 大小:3.41MB
收藏 版权申诉 举报 下载
数据挖掘与Clementine使用培训电信课件_第1页
第1页 / 共306页
数据挖掘与Clementine使用培训电信课件_第2页
第2页 / 共306页
数据挖掘与Clementine使用培训电信课件_第3页
第3页 / 共306页
资源描述:

《数据挖掘与Clementine使用培训电信课件》由会员分享,可在线阅读,更多相关《数据挖掘与Clementine使用培训电信课件(306页珍藏版)》请在装配图网上搜索。

1、数据挖掘与Clementine使用培训电信0数据挖掘与数据挖掘与Clementine使用培训使用培训北京瑞斯泰得数据技术开发有限公司北京瑞斯泰得数据技术开发有限公司2023-1-19Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信1一、数据挖掘概述 什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DMBeijing Stats Data Mining Co.Ltd.Beijing

2、 (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信2为什么进行数据挖掘?商业观点 业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38

3、240385数据挖掘与Clementine使用培训电信3为什么进行数据挖掘?技术观点 业务中的数据量呈现指数增长(GB/小时)传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中发现有价值的规律0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999The Data GapTotal new disk(TB)since 1995Number of analysts From:R.Grossman,C.Kamath,V.Kumar,“Data M

4、ining for Scientific and Engineering Applications”Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信4一个市场营销的例子在数据中发现有价值的规则或者模式在数据中发现有价值的规则或者模式女性对市场活动做出女性对市场活动做出回应,男性对市场活回应,男性对市场活动不做出回应,和年动不做出回应,和年龄无关龄无关Beijing Stats Data Mining

5、 Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信5一个市场营销的例子数据变的复杂会如何?数据变的复杂会如何?女性对市场活动做出回应,女性对市场活动做出回应,老年男性也可能对市场活动老年男性也可能对市场活动做出回应做出回应Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementin

6、e使用培训电信6一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发通过数据挖掘发现回应的现回应的5 5条规条规则:则:1 1、如果收入大、如果收入大于于2962229622,有孩,有孩子,并且孩子的子,并且孩子的数量小于等于数量小于等于2 2,那么对市场活,那么对市场活动会回应动会回应通过数据挖掘发通过数据挖掘发现不回应的现不回应的5 5条条规则:规则:1 1、如果收入小、如果收入小于于12640.312640.3,并,并且有一个孩子,且有一个孩子,那么对市场活动那么对市场活动不会回应不会回应Beijing Stats Data Min

7、ing Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信7数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信8利润分析图Beijing Stats Data Mining Co.Ltd.Be

8、ijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信9数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$25

9、0,000$335,000$85,000目的:发现新客户目的:发现新客户(使响应率从使响应率从1%1%提高到提高到1.2%)1.2%)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信10什么是数据挖掘?不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD-Knowledge di

10、scovery in databases)数据/模式分析 商业智能 人工智能 Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信11数据挖掘的起源 来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想机器学习/模式识别统计学数据挖掘数据挖掘数据库系统Beijing Stats Data Mining Co.Ltd.Beijing (8610)517

11、22052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信12数据挖掘面临的挑战 海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信13数据挖掘方法论项目顺利实施的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模

12、型评估模型评估 模型发布模型发布Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信14商业理解商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估Beijing Stats Data

13、Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信15数据理解商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8

14、620)38240385数据挖掘与Clementine使用培训电信16数据准备商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信17建立模型商业商

15、业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信18模型评估商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布结果评估数据挖掘过程回顾确定下一步的工作评

16、估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信19结果发布商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结Beijing Stats Data Minin

17、g Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信20商业理解是数据挖掘的起点C2C1解决方案解决方案商业价值商业价值商业需要商业需要Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信21商业理解的内容 数据挖掘能解决什么样的商业问题?数据挖掘能解决什么样

18、的商业问题?数据挖掘得到的结果,是否可以采取相应数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?的行动以提高利润或降低成本?我们期望模型能够给我们怎样的精确率?我们期望模型能够给我们怎样的精确率?有那些前提假定?有那些前提假定?Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信22约束分析 时间约束分析时间约束分析 资源约束分析资源约束分析人力资源人力资源数据资源数据资源软件资源软件资

19、源硬件资源硬件资源Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信23制定特定的数据挖掘目标制定的数据挖掘目标应具有:制定的数据挖掘目标应具有:可评估性(可评估性(assessable)assessable)可实现性(可实现性(attainableattainable)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8

20、621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信24如何给定一个数据挖掘问题 是检验性数据挖掘还是探索性数据挖掘?是检验性数据挖掘还是探索性数据挖掘?确定哪些是可以实现的数据挖掘问题确定哪些是可以实现的数据挖掘问题 结果可测度性结果可测度性 信息(数据)的可获得性信息(数据)的可获得性 评估和控制其他相关因素的影响评估和控制其他相关因素的影响Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)3

21、8240385数据挖掘与Clementine使用培训电信25数据来源与数据之间的关系Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信26使数据适合数据挖掘 对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到)Beijing

22、Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信27检查数据质量 影响数据质量的几个主要问题缺失值缺失值不合理值不合理值不同数据源的不一致不同数据源的不一致异常值异常值Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信28

23、对数据进行适当的变换 数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信29数据挖掘模型的分类 数据描述和汇总(Data description and summarization)细分(Segmentation)概念描述(Concept descriptions)分类(Classification)预测(Predict

24、ion)相关分析(Dependency analysis)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信30数据挖掘技术的分类数据挖掘数据挖掘描述描述预测预测统计回归统计回归关联规则关联规则决策树决策树可视化可视化聚类聚类顺序关联顺序关联汇总汇总神经网络神经网络分类分类时间序列预测时间序列预测Beijing Stats Data Mining Co.Ltd.Beijing (8610)517220

25、52 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信31数据挖掘的典型结果金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信32数据挖掘的典型结果电信

26、 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络)输 入流失概率(0.87)输 出男293000元/月套餐A130元/月Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信33数据挖掘的典型结果零售 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Sha

27、nghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信34数据挖掘的典型结果制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信35数据挖掘的典型结果政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络)Bei

28、jing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信36检验的形式 方法层面的检验方法层面的检验 训练集和检验集训练集和检验集 不同方法的互相印证和比较不同方法的互相印证和比较 模型准确性的检验模型准确性的检验:商业层面上的检验商业层面上的检验 利润率的检验利润率的检验 模型结果可操作性的检验模型结果可操作性的检验 其他检验其他检验Beijing Stats Data Mining Co.Ltd.Beijin

29、g (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信37关注那些错误的预测Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信38数据挖掘不成功的几种可能性 糟糕的数据糟糕的数据 组织抵制组织抵制 结果没有被有效的发布结果没有被有效的发布 得到了无用的结果得到了无用的结果Beijing S

30、tats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信39模型发布的形式 书面报告书面报告 数据库更新数据库更新 针对特定主题的应用系统针对特定主题的应用系统Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信40数据挖掘的体系结构

31、用户界面SPSS Data Access PackClementine Solutions Publisher RuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员ClementineSPSS Data Access PackBeijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信41Beijing Stats Data Mining Co.Ltd.Beijing

32、 (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信42二、Clementine概述 Clementine在数据挖掘中的地位 Clementine发展历史 Clementine的配置 Clementine操作基础Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信43数据挖掘的一般流程及数据

33、挖掘软件在数据挖掘过程中的地位!?Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信44数据挖掘方法论项目顺利实施的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou

34、(8620)38240385数据挖掘与Clementine使用培训电信45Clementine发展历程 Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台 1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点1994:Clementine V1.0发布发布1998:被被SPSS收购收购1999:Clementine ServerClementine Solution Publisher2000:Clementine V6.02002年年9月月:Cl

35、ementine 7.02003年年9月月:Clementine 7.1中文版中文版2003年年4季度季度Clementine 8.01998-20072004年年1季度季度Clementine 8.1中文版中文版2006年年12月月Clementine 10.0中文版中文版Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信46Clementine的软件构成 Clementine Client;Cle

36、mentine Server;Clementine Batch;SPSS Data Access Pack;Clementine Solution Publisher(Optional)。Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信47Clementine的两种运行方式单机版运行单机版运行以下情况必须使用单机版运行:以下情况必须使用单机版运行:数据存储在本机,且不能在网络数据存储在本机,且不能在

37、网络上共享;上共享;机器不联网;机器不联网;无无Clementine Server可供使用。可供使用。以下情况可以使用单机版运行:以下情况可以使用单机版运行:要处理的数据量很小(比如:小要处理的数据量很小(比如:小于于2M)并且数据存储在单机或可)并且数据存储在单机或可到达局域网处;到达局域网处;单机内存、硬盘相对要处理的数单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满据量来说足够大,并且速度也满足要求。足要求。C/SC/S结构运行结构运行以下情况必须使用以下情况必须使用C/SC/S结构运行:结构运行:单机内存或者硬盘不够大,难以单机内存或者硬盘不够大,难以运行大量数据;运行大量数据

38、;单机上没有或者无法配置数据连单机上没有或者无法配置数据连结,无法从数据库中获取数据;结,无法从数据库中获取数据;组织规则不允许下载大量数据到组织规则不允许下载大量数据到单机。单机。以下情况可以使用以下情况可以使用C/SC/S结构运行:结构运行:要处理的数据量很大,并且存储要处理的数据量很大,并且存储在可以通过在可以通过SPSS Data AccessSPSS Data Access技技术可到达的数据库处;术可到达的数据库处;单机速度慢,单机速度慢,Clementine Clementine ServerServer运行的机器配置高。运行的机器配置高。Beijing Stats Data Mi

39、ning Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信48Clementine的系统结构Clementine的三层结构的三层结构:1、数据库层;、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。、客户端。在三层结构下通过Clementine

40、 Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。Clementine ClientClementine Client和和Clementine ServerClementine Server通过通过SDLSDL(Stream Stream Description LanguageDescription Language)之间进行信息交换,)之间进行信息交换,Clementine ServerClementine Server和和DatabaseDatabase通过通过SQLSQL语句进行信息交换。语句进行信息交换。Beijing Stats Data Min

41、ing Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信49Clementine运行的两种方式 图形界面方式图形界面方式 适用操作系统适用操作系统 Windows系列系列 特点:特点:图形化界面图形化界面 与客户直接交互与客户直接交互 适合交互式分析过程适合交互式分析过程命令行方式命令行方式使用操作系统使用操作系统 WindowsWindows系列系列 UnixUnix系列系列特点:特点:命令行操作命令行操作不能生成图形,所有结果保存在不能生成图形,

42、所有结果保存在文件里或者数据库中文件里或者数据库中适合于以下情况使用:适合于以下情况使用:运行耗时较长的建模过程运行耗时较长的建模过程希望在后台运行一些耗时较长的希望在后台运行一些耗时较长的数据准备数据准备过程希望按照一定的时间定期运过程希望按照一定的时间定期运行(比如每周、每月等)行(比如每周、每月等)希望把希望把ClementineClementine(数据挖掘过(数据挖掘过程)运行过程嵌入应用系统中程)运行过程嵌入应用系统中Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guan

43、gzhou(8620)38240385数据挖掘与Clementine使用培训电信50Clementine的界面和设计思路 可视化界面可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理四个区域分别是建模区、结点区、模型描述区、项目管理区区 通过连接结点构成数据流建立模型通过连接结点构成数据流建立模型 ClementineClementine通过通过6 6类结点的连接完成数据挖掘工作,它们类结点的连接完成数据挖掘工作,它们是:是:Source(源结点):Database、Var.Files等Record Ops(记录处理结点):Select、Sample等Field Ops(字段处理结

44、点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):Neural Net、C5.0等Output(输出结点):Table、Matrix等Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信51Clementine操作基本知识 鼠标应用鼠标应用三键与双键鼠标三键与双键鼠标左键左键 选择节点或图标置于建模区选择节点或图标置于建模区右键右键 激

45、活浮动菜单激活浮动菜单中键中键 连接或断开两个节点连接或断开两个节点 帮助帮助Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信52Clementine操作基本知识 节点的增加,以节点的增加,以 为例为例Click“Sources”Click“Sources”,Click Click ,Click“Click“流区域流区域”Click“Sources”Click“Sources”,Double Cli

46、ck Double Click Click“Sources”Click“Sources”,Drag to“Drag to“流区域流区域”节点的删除节点的删除Click Click ,DeleteDeleteRight Click Right Click ,Click“Delete”Click“Delete”节点的移动:节点的移动:DragDragBeijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信53C

47、lementine操作基本知识 节点的编辑节点的编辑Double ClickDouble ClickRight Click Right Click ,Click“Edit”Click“Edit”节点的重命名和解释节点的重命名和解释Right Click Right Click ,Click“Edit”Click“Edit”,Click“Annotations”Click“Annotations”Double Click Double Click ,Click Click“Annotations”“Annotations”Right Click Right Click ,Click“Rename

48、 Click“Rename and Annotations”and Annotations”拷贝、粘贴拷贝、粘贴Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信54Clementine操作基本知识 构建流时节点的连接构建流时节点的连接Highlight Highlight ,Add to the CanvasAdd to the CanvasRight Click Right Click ,Clic

49、k“Connect”Click“Connect”,Click Click Drag the middle mutton from to Drag the middle mutton from to 构建流时节点连接的删除构建流时节点连接的删除Right Click or Right Click or ,Click Click“Disconnect”“Disconnect”Right Click“Connection”Right Click“Connection”,Click“Delete Click“Delete Connection”Connection”Double Click orDou

50、ble Click or Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信55Clementine操作基本知识 流的执行流的执行Highlight“Stream”Highlight“Stream”,ClickClickRight Click Right Click ,Click“Execute”Click“Execute”In the Edit Window of the In the Edit W

51、indow of the ,Click Click“Execute”“Execute”流的保存流的保存 帮助帮助Help MenuHelp MenuDialogue WindowDialogue WindowBeijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信56一个例子罗斯文商贸公司 商业问题:商业问题:微软公司提供的案例数据库微软公司提供的案例数据库罗斯文商贸公司,罗斯文商贸公司,如何对客户价值进行

52、评估如何对客户价值进行评估 背景介绍:背景介绍:1.1.罗斯文商贸公司是罗斯文商贸公司是MicrosoftMicrosoft数据库产品(数据库产品(Access,Access,SQL ServerSQL Server等等)中的一个示例数据库;中的一个示例数据库;2.2.它虚拟了一家经销日用品的商贸公司的情况;它虚拟了一家经销日用品的商贸公司的情况;3.3.目前该公司保存的历史数据资料,见下页;目前该公司保存的历史数据资料,见下页;4.4.我们需要对客户的价值进行评估,以便采取有效的我们需要对客户的价值进行评估,以便采取有效的市场销售策略。市场销售策略。Beijing Stats Data Mi

53、ning Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信57罗斯林商贸公司数据Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信58罗斯文商贸公司统计问题 数据挖掘问题:数据挖掘问题:(1 1)如何描述客户价值?)如何描述客户价值?购买总金额?购买购买总金

54、额?购买频次?平均每次购买金额?最近购买金额?它们的频次?平均每次购买金额?最近购买金额?它们的线性组合?线性组合?使用最简单的购买总金额使用最简单的购买总金额 (2 2)需要什么样的数据挖掘方法?)需要什么样的数据挖掘方法?描述汇总?描述汇总?分类?预测?概念描述?细分?相关分析?分类?预测?概念描述?细分?相关分析?使使用最简单的描述汇总用最简单的描述汇总 (3 3)需要的数据从哪里来?)需要的数据从哪里来?从以下几个来源:从以下几个来源:客户订单订单明细Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(862

55、1)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信59罗斯文商贸公司商业问题解决方案 商业问题解决方案商业问题解决方案 从所有客户中找出最有价值的从所有客户中找出最有价值的1010个客户,将个客户,将名单发给市场部门,让其对这些客户进行更多名单发给市场部门,让其对这些客户进行更多的关注的关注Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信6

56、0Clementine的优化包括两个方面的优化 结构优化 用户优化Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信61结构优化 把中间结果存储在Server上(尽量使用server版处理)从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行)减少数据的迁移(数据提前进行规划)Beijing Stats Data Mining Co.Ltd.Beijing (8610)5172205

57、2 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信62用户优化自动优化数据流:当使用这一选项时,自动优化数据流:当使用这一选项时,ClementineClementine将重写数据流以使效率最高(可以通将重写数据流以使效率最高(可以通过过Clementine ServerClementine Server中的中的sql_rewriting_enabledsql_rewriting_enabled来调整是否可以使用)来调整是否可以使用)优化的SQL生成。使尽可能的操作在数据库内进行。优化Clementine执

58、行。调整数据降维的操作尽可能接近数据源完成。手动优化数据流手动优化数据流操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信63一个数据挖掘的实例客户信用级别判断系统Beijing Stats Data Mining

59、 Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信64问题的提出 如何通过数据挖掘实现小灵通信用级别的如何通过数据挖掘实现小灵通信用级别的判断系统判断系统 某电信公司按照某种标准将小灵通客户信某电信公司按照某种标准将小灵通客户信用等级分为用等级分为5 5类,分别是类,分别是gradeAgradeA、gradeB gradeB、gradeCgradeC、gradeXgradeX、gradeYgradeY。现在希望建立。现在希望建立一套系统,能够使得市场

60、部人员根据用户一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同信用级别,从而有针对性地对其采用不同的市场营销策略。的市场营销策略。Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信65数据描述变量名称变量含义备注Age年龄Sex性别Value消费水平分为高(high)、低(low)和一般(normal)三种

61、Range联系范围分为高(high)、低(low)和一般(normal)三种WorkRatio工作时段比例0-1之间DistanceRatio 长话比例0-1之间Credit信用级别以下五种之一:gradeA、gradeB、gradeC、gradeX、gradeYBeijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信66遵循CRISP-DM的数据挖掘过程数据理解(数据流)数据理解(数据流)数据准备(数据流

62、)数据准备(数据流)建立模型(数据流)建立模型(数据流)模型评估(数据流)模型评估(数据流)结果发布(数据流)结果发布(数据流)商业理解(文档)商业理解(文档)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信67在进行数据挖掘过程中应该注意的几个问题 商业经验的作用商业经验的作用 数据的拆分数据的拆分训练集与检验集训练集与检验集 不同模型的印证与比较不同模型的印证与比较Beijing Stats D

63、ata Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信68结果发布 信用级别静态列表信用级别静态列表 信用级别写回数据库信用级别写回数据库 实时判断信用级别的分析应用实时判断信用级别的分析应用Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信

64、69Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信70三、数据理解:数据的可视化和报告 数据组织形式 数据图形展现 数据表格展现Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信71数据挖掘要求的数据格式

65、变量1变量2变量3记录1记录2记录3l 变量变量l 记录记录(行代表记录,列代表变量行代表记录,列代表变量)Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信72数据尺度 根据数据的不同,可以把变量分为以下一些类型 定类变量 例如:客户编号、性别、邮编等 不能比较大小 定序变量 产品等级、信用级别、客户收入水平分类等 可以比较大小、不能进行加减运算 定距变量 出生日期、温度等 可以进行加减运算、不能进

66、行乘除运算 定比变量 收入、长度等 可以进行乘除运算Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)38240385数据挖掘与Clementine使用培训电信73各类变量尺度比较变量尺度变量尺度描述描述例子例子可进行的运算可进行的运算定类定类变量是离散变量,为了反映一个事物区别于其他事物的特征。只能进行等于或者不等于的比较。邮编、客户编号、性别众数、列联相关、2 检验定序定序变量是离散变量,可以比较大小。客户等级、信用级别、收入水平分类中位数、累计百分比、秩相关、游程检验定距定距变量是连续变量,可以比较大小,并且进行加减运算。日期、利润平均值、标准差、皮尔逊相关、t检验和F检验定比定比变量是连续变量,可以进行加减乘除各类运算。年龄、收入、长度几何平均数、比例指标Beijing Stats Data Mining Co.Ltd.Beijing (8610)51722052 Shanghai(8621)53060345 Guangzhou(8620)3

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!