培训数据挖掘副本

上传人：1777****777 文档编号：48109602 上传时间：2022-01-01 格式：PPT 页数：93 大小：11.54MB

收藏版权申诉举报下载

第1页 / 共93页

第2页 / 共93页

第3页 / 共93页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《培训数据挖掘副本》由会员分享，可在线阅读，更多相关《培训数据挖掘副本（93页珍藏版）》请在装配图网上搜索。

1、版权所有严禁拷贝BIhuman培训中心培训中心数据挖掘数据仓库培训中国中国杭州杭州2010-07-版权所有严禁拷贝数据挖掘基本概念与应用分类数据挖掘基本概念与应用分类不同类型的数据挖掘流失预测交易量/业务量预测序列模式提取客户欺诈识别业务量收入量预测数据探索客户分群套餐交叉销售文本分析.探索验证获取内容的不同，可分为获取内容的不同，可分为分析对象的不同，可分为分析对象的不同，可分为结构化数据挖掘文本挖掘图像挖掘空间数据挖掘Web 数据挖掘多媒体挖掘生物医学数据挖掘流数据的挖掘数据挖掘是 “从数据中获取不平凡的、隐含的、预先未知的,、具有潜在价值的信息G. Piatetsky-Sha

2、piro, W. J. Frawley首次出现在1989年数据挖掘是多学科交叉研究的领域 Data MiningDatabase SystemsStatisticsOtherDisciplinesAlgorithmMachineLearningVisualization.数据挖掘在很多领域得到很好的应用大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合2004 美国联邦政府会计总署报告显示，美国政府部门积极参与或正在筹划的数据挖掘项目为199个采用链路分析方法，分析特定的行为特征和恐怖犯罪之间的联系FBI对联邦探员提交的情报进行分析，

3、寻找和爆炸事件的关联+啤酒尿布捆绑销售 NBANBA赛场背后的数据挖掘赛场背后的数据挖掘. 反恐领域的数据挖掘反恐领域的数据挖掘营销领域的数据挖掘营销领域的数据挖掘7关联关联 AssociationAssociation我的数据中存在哪种项关系（“规则”）？Beer = Diapers 单一事务 Apriori/FreqTree序列序列 SequenceSequence 序列模式序列模式 sequence patternsequence pattern我的数据中存在哪种连续模式？ Love = Marriage = Baby Products 连续事务时间序列时间序列 time serie

4、stime series和时间相关的，周期性变化值已知2000-2008年数据，预测2009年交易量 Arima/指数平滑聚类聚类 clusteringclustering我的数据中存在哪些群组？客户资源集、存储资源源人口统计学Demographic/神经元Neural (Kohonen)分类分类 classficationclassfication如何预测我的数据中各个类别的值？病人是否受到粗鲁的对待、是否受到伤害、是否感受不到关爱？Classification (决策树)/贝叶斯算法Bayes/RBF算法预测预测 regressionregression 如何预测我的数据中的数值？客户对

5、改进做出反应的可能性有多大？每个客户本年度的消费是多少？转换回归/线性回归多项式回归SelectTransform MineAssimilateExtracted InformationAssimilated InformationSelected DataData Warehouse数据挖掘数据挖掘工作台工作台挖掘模式库挖掘模式库业务分析业务分析扩展的洞察力扩展的洞察力数据挖掘的常见模式（函数）Clustering分群u最常用的聚类算法 K平均值算法，初始给定k个类, 按照四步完成:4任意选择k个对象作为初始的分区4计算当前簇的重心点，即当前簇中所有点的平均值4将其他数据对象赋给最近似的簇

6、集 4重复第二步操作，直到不在发生变化.典型的分群算法Kmeans4 从数据集中寻找有趣的、关联和相关性、频繁出现的模式4 电信应用上两种不同类型的关联规则Association Rule关联规则挖掘产品的正关联与负关联产品的正关联与负关联用户产品关联模型用户产品关联模型客户-渠道-产品适配模型规则 Item A = Item D， A为规则体，D为规则头支持度支持度Support 代表规则出现频繁程度supp(A)=p(A)=0.75 supp(B)=p(B)= 0.67 置信度置信度Confidence代表规则出现强度.conf(A=D)=p(D|A)=0.67 提升值提升值Lift 反

7、映规则中个要素之间的附加信息. Lift(A=D)=p(B|A)/p(B)=0.89 Lift 1 (“complementary items”). 互补关系Lift 1 (“substitute items”) 替换关系Lift = 1 (“no relationship”). 没有联系RuleA DC AA CB & C DSupport2/52/52/51/5Confidence2/32/42/31/3ABCACDBCDADEBCE LIFT0.89.。决策树模型决策树模型 “buys_computer”Age?overcastStudent?Credit rating?noye

8、sfairexcellent40nonoyesyesyes30.40Decision Tree 决策树分类信息熵增益Information Entropy 决策树选取节点的规则选取节点评分 (预测)理想模型该模型随机评级字段重要性 (对预测目标字段的相对贡献度)PhotoTV 手机电视潜在客户预测重要字段列表建立流失预测模型建立流失预测模型数据ETL流程（数据取样、合并、过滤、随机分割等）；预测建模流程（采用CART决策树算法）测试流程（对未知流失状态的客户进行预测，输出结果到表）客户流失的决策规则分析例如，通过挖掘得到如下的决策规则：如果客户如果客户ARPUARPU值在值在40406060

9、之间，在网时长小于之间，在网时长小于3 3年，且年，且IPIP费用小于费用小于1010，那么这个客户下月流失的可能性为那么这个客户下月流失的可能性为9090。同样条件，如果使用了同样条件，如果使用了1180811808业务则流失的可能性为业务则流失的可能性为1010。根据这条信息，我们可以搜索数据集中的所有满足这几条特性的客户，进行针对性地营销策略，如推销 IP，以及11808业务，进行挽留。挖掘时间序列数据时间序列数据有序列值或者随时间交替变化的时间组成数据每隔一定的时间间隔建立时间序列数据的主要特征趋势，周期，季节，反常（Trend, cycle, seasonal, irreg

10、ular）应用场景金融：股票价格, 通货膨胀/紧缩 Industry: 电力消耗power consumption Scientific: 实验结果 Meteorological: 气象预报时间序列分析时间序列运动的归类长期或者趋势运动（Long-term or Trend movements ）在一段长期的时间范围内，运动大的走向，趋势。周期性运动或周期性波动（Cyclic movements or cycle variations): l围绕趋势线/曲线长期摆动，如业务周期，交易量等随着时间周期性波动。季节性运动或者季节性波动(Seasonal movements or sea

11、sonal variations)在连续个年份，每月的数字呈现季节性变动。不规则运动或者随即运动Irregular movements 时间序列分析:分解一个时间序列为一下四种运动加法模型 Additive Modal: TS=T+C+S+I 乘法模型 Multiplicative Modal: TS=TC S I时间序列挖掘 Airline 航空公司旅客流量分析航空公司旅客流量分析欧洲一家航空公司，利用2000年-2008年间每月旅客数，预测下一个月的旅客数量。ARIMA Autoregressive Integrated Moving AverageExponential Smoot

12、hingSeasonal Trend Decomposition 数据挖掘基本概念常见的几种挖掘模式文本挖掘介绍社会网络及其在垃圾短信监控中的应用 IBM Infosphere Warehouse/Intelligent Miner 介绍内容提纲内容提纲大量保存的非结构化信息大量保存的非结构化信息 (文本文本) 呼叫中心问题报告修理报告保险单病历信息产品介绍案件登记信息问题.解决方法将非结构化的数据转化为结构化的数据，利用这些数据和已经存在在数据仓库与中的结构化数据一起进行分析，辅助我们决策不能直接采用现有的BI工具进行分析，提取其中有用的信息，并且实现业务上对各种非结构化信息的需求.

13、网站访问记录电子邮件留言信箱短信文本事件处理说明调查问卷数据客户投诉记录文本分析/文本挖掘文本分析或文本挖掘覆盖如下内容文本分析或文本挖掘覆盖如下内容:文档归类 clustering，自动归类具有相似性的文档，文档聚类或者无监督归类unsupervised categorization 自动文档分类classfication分类文档到预先定义好的类别中，有监督的归类 supervised categorization信息抽取Information extraction从文档中抽取结构化的信息，辅助结构化数据进行分析与挖掘信息提取信息提取Information Extraction (I

14、E) 实体或者关系的抽取 Entity & Relationship extraction从人员，组织，电话号码，电子邮件，网址，地址等实体解析Entity resolutionGeorge W. Bush mentioned in line 14 of doc 5 same as President Bush mentioned in line 10 of doc 15 语义识别从文本中提取意见Opinions, 观点Reviews, 时间Time, 事件Events, 情绪Sentiments, . 术语抽取到的结构化数据注解 Annotations 信息提取程序注解器

15、Annotators结构化的实体抽取种类基于规则的实体抽取Rule based正则表达式模式抽取电话号码，身份证，网址，电子邮件地址，手机号码等基于字典的实体抽取List/dictionary based采用公司的 LDAP 目录去查找相应的人名字，从产品介绍材料中抽取产品实体，从客服信息中提取意义一致，但表述不一致的实体，如客户投诉信息中“信号不好”、“信号差”、“经常掉线”等表达的是同一信息频繁模式搜索抽取频繁出现的模式，基于频繁出现模式构建字典，如从流失客户的客服记录中提取“信号差”、“费用高”、“服务不及时”等文本，以及这些频繁出现的模式之间的关联复杂的方法Advanced自然

16、语言处理Natural Language Processing，机器学习Machine learning，统计方法Statistical approaches文本数据分析引擎非结构化数据结构化数据词频统计规则查询字典查找文本挖掘其他文本数据结构化数据分析数据 UIMA是一个开放的，面向行业的,可扩展的文本分析开放平台, 用于构建/集成/发布文本分析应用. UIMA是一个免费的平台，InfoSphere Warehouse中采用UIMA来进行实现文本分析中的信息抽取为集成的文本分析模块定义一个通用的接口,使得不同分析方案和企业应用之间协同工作提供文本分析的SDK ,用于构建，

17、组织文本分析应用, 利用现有的分析组件，开发新的，可重用的文本分析组件UIMA: UIMA: 一个新的内容处理和分析的标准一个新的内容处理和分析的标准 Unstructured Information Management Architecture IBM Internal Component Repository 80+ Analysis Components and 23+ UIMA-based systems/solutions E.g., Deep and Shallow Parsing深浅解析, Categorization归类, Summarization摘要, Semantic

18、Class Detection语义分类, POS, English/Chinese/Japanese NE 实体解析, Classifier Trainers分类, Machine Translation机器翻译, Video and Speech Analytics视频音频分析, BioInformatics生物智能分析基于基于UIMA实现的产品实现的产品Lotus Workplace, Websphere Portal Server, OmniFind IBM 基于基于UIMA 上的一些研究项目上的一些研究项目Open-Domain Question Answering (ARDA/AQ

19、UAINT) Life Sciences/BioInformatics (Joint Program with Mayo Clinic, Sloan Kettering Cancer Center) Search and Categorization (IBM websites) Machine Translation (DARPA)Multi-Lingual/Multi-Modal Search (DARPA/TALES) Automatic Content Extraction (DARPA/ACE)Knowledge Integration and Knowledgebase Popul

20、ation (ARDA(DTO)/NIMD)Video Analysis (ARDA(DTO)/VACE, Marvel)Standard Analysis Component Plug-in Architecture in Streaming Analytic projectCustomer Relationship ManagementUIMA in IBM ，2002年发布文本分析辅助客户流失预测挖掘Volumes of structured, well-organized demographic and transactional dataVolumes of unorganized,

21、 unstructured data from call-center notesVolumes of unorganized, unstructured data from call-center notes文本分析与挖掘1.字典查找2.频繁模式搜索3.正则表达式规则查找 4.文档分类文本分析辅助客户流失预测挖掘文本分析提高客户流失预测模型的精度22. 引入文本分析后模型的lift 值增量11. 传统客户流失预测模型的lift 值正则表达式规则抽取regular expression 电话号码 (0086)21-23063185网址：CIA book 数据集，提取国家的地理数据，经纬度，面

22、积等正则表达式规则抽取-规则定义正则表达式规则抽取-挖掘流程定义字典查找 Dictionary lookupJK supermark公司，为了提高人员的IT技能水平，从全球500强企业的招聘网站，job description信息中提取目前最常用的IT技能字典查找 dictionary lookup字典定义- C# , c#, C #, c # - C/C+, C, C+, c+, c +, C + - Database skills, Database, RBDMS, DB - DB2, DB/2, db/2, IBM DB2, IBM db2, db2 - Java, J2EE, j2ee

23、, JSP, Java Server Pages - JavaScript, Javascript, javascript - Mac OS, MAC OS, MAC Os, Mac Os - MS SQL Server, Microsoft SQL Server - MySQL, MYSQL, MySql - Network, TCP/IP, TCP, IP, DNS - Oracle, oracle - Others OS, Solaris - Perl - PL/SQL, PL, SQL, Sql, sql - Python - Script, scripting languages,

24、scripting, bash, ch, Ch, csh, sh, shell, tcsh - Unix/Linux, Unix, Linux, Debian, FreeBSD, GNU, gnu, GNU/Linux, Madriva, RedHat,AIX - Visual Basic, VB, VisualBasic - Web Services, SOA, WSDL, CORBA, SOAP - Web skills, Ajax, ajax, ASP, asp, html, HTML, php, PHP, XML, XSLT - Windows 字典查找 dictionary look

25、up挖掘流程构建37年龄性别疼痛类型血压胆固醇心电图心率是否绞痛疾病史不良习惯家族史完整的例子：贝叶斯/文本分析辅助病人心脏病诊断38Volumes of structured, well-organized demographic and transactional data来自于电子病历中的非结构化的数据3-5年吸烟史，过度饮酒缺乏锻炼，轻微肥胖呼吸急促，曾经有过糖尿病其他不良习惯。贝叶斯/文本分析辅助病人心脏病诊断语义文本分析方法:1.语义分析2.频繁模式搜索3.字典查找贝叶斯/文本分析辅助病人心脏病诊断文本分析辅助数据挖掘频繁模式查找Smokes and smokes for the

26、keyword smoke语义分析 obesity, adiposity, adiposeness and alimentary obesity 文本分析辅助数据挖掘构建字典文本分析辅助数据挖掘字典查找构建挖掘模型采用文本分析后的模型精度比较基于文本挖掘结果的关联规则挖掘highlighted factor physical inactivity increases the mortality risk by 1.82 or 82%. Furthermore, you learn that the factor was found with 23.75% of the patients, an

27、d 78.08% of these patients actually died. 分析结果在Cognos中的展现-心脏病风险报告根据分析结果，确定是否需要做进一步的诊疗数据挖掘实施方法论数据挖掘实施方法论挖掘挖掘- -技术技术oror艺术艺术? ?方法论方法论数据挖掘方法论实际工程中指导项目实施的方法实际工程中指导项目实施的方法4 每一阶段的目标、采用方法、输出结果形式4 人员安排、方法、时间进度安排等实施数据挖掘方法论所要达到的目的实施数据挖掘方法论所要达到的目的4 针对不同行业的数据挖掘方法论是挖掘项目开展的标准和指南指南4 控制数据挖掘工程项目中的风险，确保项目的成功实施，提供了

28、保障u CRISP-DM 方法论方法论u SEMMA 数据挖掘方法论数据挖掘方法论目前业界公认的两种方法论：目前业界公认的两种方法论：http:/ 的数据挖掘多阶段处理过程模型的数据挖掘多阶段处理过程模型数据挖掘方法论由由SPSS、NCR、Daimler-Benz在在1996年制定年制定 CRISP-DM是当今数据挖掘业界通用流行的标准之一是当今数据挖掘业界通用流行的标准之一它强调数据挖掘在商业中的应用，解决商业中存在的问题，而不是它强调数据挖掘在商业中的应用，解决商业中存在的问题，而不是把数据挖掘局限在研究领域把数据挖掘局限在研究领域 CRISP-DM(CRoss-Industry S

29、tandard ProcessData Mining) Chapman,1996 数据挖掘方法论DataUnderstandingDataPreparationModellingDataDataDataBusinessUnderstandingDeploymentEvaluationDataUnderstandingData PreparationModellingDataDataDataDeploymentEvaluationBusinessUnderstandingNCR,ISL, Daimler-Benz, OHRACRISP-DMCRoss-Industry Standard Proc

30、ess-Data Mining数据挖掘方法论SEMMA数据挖掘系统模型数据挖掘系统模型 SAS,1998 u Sample-数据取样u Explore-数据特征探索、分析和预处理u Modify-数据调整和技术选择u Model-模型的研发和知识的发现u Assess-模型和知识的综合解释和评价数据挖掘方法论数据挖掘方法论IBM 闭环数据挖掘数据仓库选择的数据选择转换挖掘理解转换后的数据可理解的信息抽取的信息一个过程，从大型数据库中抽取以前没有发现，可理解的，可操作的信息，用以支持企业关键性决策。数据挖掘数据挖掘- -技术技术or or 艺术艺术算法及其展望算法及其展望常见的挖掘算法过拟合局部

31、极值u 孤立点影响u 局部极值u 过拟合u 欠学习u “维度灾难“u “黑箱模型”u 传统的数据挖掘方法面临的挑战传统算法的弊端的根源：传统算法的弊端的根源：传统的数据挖掘算法都是以经典统计学中的大数定理为基础，算法的结论都是在训练样本趋于无穷的假设下得到的, 然而在实际中训练样本总是有限。传统的算法(如神经网络等）往往会出现如下弊端：u 过拟合用一个复杂的模型代表一个简单的规律；u 局部极值得到的结果不是全局最优；u 推广能力差训练时效果好，预测时精度差；u Support Vector Machine,最早由Vapnik教授1995年提出，最初用于求解两类样本的最优分类面；后被应用与分类、

32、回归、聚类等数据挖掘领域。u 同时控制模型的结构风险（复杂度）和经验风险（准确度），避免过学习。211min |2s.t. ()1,1,2,., .liiiiiCybil ww x结构风险经验风险两类样本最优分类面面数据挖掘中的新方法SVM具有以下独有的特点：u解决局部极值问题求解二次优化，得到全局最优解，u解决非线性难题将复杂的非线性问题转变为线性求解；u解决小样本学习难题基于小样本统计学习理论；u解决海量数据难题理论上复杂度与样本维数无关；u解决欠学习、过学习难题同时优化算法复杂性和学习精度；坚实的数学基础，良好的推广能力，处理海量数据的高效率，非常适合用于海量数据挖掘中，数据挖掘中一个热

33、点。数据挖掘中的新方法两个有价值的方向：SVM聚类、SVM规则挖掘。u用于发现任意空间分布形状的类别u自动决定类别数u高维数据的高速聚类u避免类别之间相互重叠数据挖掘中的新方法SVM聚类聚类 SVM关联规则挖掘u消除孤立点对关联规则的影响u处理海量数据非常有效数据挖掘中的新方法核系列方法(Kernel methods)：传统的方法是将高维的问题映射到低维的空间，但是Kernel method,刚好相反。事实上SVM就是kernel method中的一种，还有很多种核方法u 核主元分析Kernel PCA-用于数据挖掘中的数据预处理中；u 核逻辑回归Kernel Logistic Regress

34、ion-用于海量数据的回归分析u 核聚类分析 Kernel clustering;u 核（偏）最小二乘Kernel Least Squaresu .数据挖掘中的新方法但一切不是绝对的！数据挖掘数据挖掘- -技术技术oror艺术艺术? ?挖掘调优挖掘调优数据挖掘项目的调优数据挖掘项目的成功需要不断地优化挖掘流程数据挖掘项目的成功需要不断地优化挖掘流程4 营销流程调优4 挖掘建模流程调优4 数据准备流程调优数据挖掘项目的调优营销流程的调优营销流程的调优4 目标客户群的调整4 套餐定价/组合的更改4 更改营销渠道与流程4 根据不同生活习惯的人群选择外呼的时段挖掘建模流程调优挖掘建模数据集的划分挖

35、掘建模数据集的划分4合理的数据采样、分层采样、随即采样、顺序采样，处理小概率事件4训练集、测试集、校验集合4模型训练数据、测试数据采用相同的尺度变换Historical DataTrain SetTest Set训练测试预测Random SampleRandom Sample - Mutally Exclusive from Train SetEvaluate AccuracyCurrentData挖掘建模流程调优算法调优算法调优4根据数据分布特性选择不同的算法4避免盲目追求算法精度、选择合适学习率、避免模型过拟合4模型校验集用于最大化模型泛化能力4不平衡样本的算法及类别权值确定，必要时改变

36、挖掘模式挖掘建模流程调优两个定理两个定理4“奥卡姆剃刀”定理简单就是最好的4“没有免费午餐”定理，“丑小鸭”定理没有一种算法会在任何方面都占优分群过程中的建模流程调优群体数目确定群体数目确定4群体数目奇数为佳，一般为5-9个左右，加减2进行调整4如需减少群体数目，加入总量变量，减少分量变量，减少相似度阈值4增加群体数目，减少总量变量，增加分量变量，加大相似度阈值4如果某类包含个体数量超过50，考虑进行迭代分群分群过程中的建模流程调优输入变量的调整输入变量的调整4变量取值大部分为0或其他固定值的变量不建议使用4多个聪明变量之间相互重叠导致类别相互重叠时，增加变量个数4排除业务上有重叠的变量

37、，如夜间通话时长和打折时段通话时长分群过程中的建模流程调优算法调优算法调优4K-Means 孤立点敏感、群体重叠、差别大时效果差；局部最优；可扩展性好，大数据集4Kohonan 结果对样本次序有关、初始参数值的选择4DBSCAN 可以发现任意形状边界，处理孤立点、需要更多的内存、I/O消耗4Distribution-Based Cluster 可以自动发现群体个数，孤立点不敏感4Neural Cluster 有时候会陷入局部最优解4SVC可以自动确定群体个数，任意形状边界群，复杂性和字段数无关数据准备流程调优数据调优增加数据质量数据调优增加数据质量4数据探索：发现数据中的异常点，了解数据分

38、别模式4处理缺失值，属性变换，离散值变连续值4 解决数据分布不一致的问题，0-1变换、Z变换4从业务角度看，无意义的变量不建议做挖掘模型的输入变量数据准备流程调优变量之间的相关性变量之间的相关性4发现输入样本的变量之间的相关性4变量之间耦合性强的变量不建议选取数据准备流程调优设计派生变量设计派生变量4尽量反映动态的特性，加入时长、趋势、占比、集中度4派生变量要适当，总量和分量、占比变量不宜同时出现 1 取景（寻找业务问题寻找业务增长空间） 2 构建画面的背景（定义业务问题） 4 根据天气和光线的情况调整曝光程度等（调整建模方法和参数） 5 冲洗选择一张最佳的照片（选择一个最佳的模型） 6

39、后期美化处理（业务含义解释和建议） 7 装裱起来，挂在该挂的位置例如床边，书桌或者客厅什么的（模型部署，用于改善实际的业务）数据挖掘-技术or艺术数据挖掘-技术or艺术更多的参考：http:/www.dmg.org (关于 PMML)http:/www.crisp-dm.org (关于CRISP-DM)http:/www.acm.org/sigs/sigkdd(关于KDD)http:/(数据挖掘论坛）http:/www.kernel-machines.org(Kernel Method与SVM)数据挖掘技巧会找：发现问题，以及解决问题的数据挖掘方法会用：处理数据，操作软件会说：对挖掘结

40、果给出解释分析会试：需要不断的调优，改进挖掘效果电信数据挖掘应用电信数据挖掘应用n电信运营商面临巨大客户群，每个客户需求不一样；n“一对一”营销模式；n最大化组间差异性，最小化组内差异性；n了解客户的构成，发现客户的需求，提高营销的针对性。客户分群客户流失预测模型客户流失预测背景u 客户流失率高，移动每月2.2%, 每年损失将近27客户；u 吸引新客户成本高，吸引新客户/保留现有客户6-8倍。客户流失预测内容u 明确哪些客户近期内最有可能流失；u 确定可能流失的客户中公司需要保留那些客户；u 哪些因素造成了客户的流失； u 开发客户保持策略防止这些客户的流失。客户欺诈预测模型为了减少

41、因电信欺诈和恶意欠费造成的巨大损失，大多采取行政防范和技术防范两大类防范措施。行政防范：电信运营商采用行政手段进行清缴用户欠费的做法。这在一定程度上起到了积极的作用，具体的做法有：u通过客户的详细资料来盯住客户; u采用预付费的方式; u通过法律措施; u采用舆论手段来监督。技术防范：行政防范不能做到及时防范，往往在损失出现后才进行清缴，清缴工作量大, 对忠诚用户的感情是一种伤害。国内外许多通信运营商开始关注采用技术手段防范电信欺诈问题。客户欺诈预测模型消费行为异常监控平时话费正常，突然变成低话费或0次户；话费波动异常，话费突然大量增加；话务量上升、收入反而下降；不法行为的监控

42、同一身份证开通多个号码，长时间拨打国外声讯台；使用200卡长时间、大量拨打他网用户；群发短信诈骗；采用数据挖掘防欺诈技术，建立实时的监控模型，最大限度防止欺诈行为发生。客户欺诈预测模型客户欺诈识别的数据挖掘主题: 超额长途费用欺诈他网结算欺诈非法提供公话服务盗打声讯电话欺诈后付费小灵通欺诈欠费分析。u 客户对企业的价值是不尽相同的，帕累托的80/20法则：公司80%的赢利只来自其20%的客户。u 客户价值分析：评估客户的价值，使得企业能够找到最为宝贵的客户资源，发现最具价值的客户，以便于能够有的放矢的开展营销，有效利用定价策略，针对性地实施战略。客户价值分析模型客户价值分析模

43、型客户收益客户忠诚度客户成本客户价值客户信用度呼入通话比例忙时集中度历史欠费的次数57.4%42.6%100%当前价值潜在价值ARPU值61.2%呼出通话时长20.9%长话的呼出通话时长10.8%网外呼入时长7.1%在网时长36.6%离网概率19.0%新业务的费用比例16.2%业务的开通数量15.1%异网IP呼出时长6.0%呼入的不同号码数7.1%80.419.680.719.374.625.4交叉销售模型A：区间通话B：宽带C：彩铃D：一号双机E：小灵通关联规则挖掘：从数据集中寻找有趣的、关联和相关性、频繁出现的模式;交叉销售模型产品产品的正关联与负关联七彩铃音11808一号通来电显示一号双机星级家庭ADSL交叉销售模型交叉销售模型用户产品关联七彩铃音ADSL一号双机11808星级家庭一号通来电显示事件监控和事件营销数据挖掘中经常为找不到合适的对象而烦恼，经常打进10000的客户也许就是最佳的营销对象套餐到期等能够自动去触发营销事务比如套餐续约提示，适合该用户的其他业务用户取消某些业务，触发营销事务，自动推荐其他替代产品客户来电抱怨信号不好，经常错过一些关键电话，根据挖掘预先设定的规则，推荐来电助手业务谢谢谢谢！

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

培训数据挖掘副本

最新文档

相关资源

相关搜索