SPSS大数据挖掘方法概述

上传人:无*** 文档编号:86931721 上传时间:2022-05-08 格式:DOC 页数:28 大小:788KB
收藏 版权申诉 举报 下载
SPSS大数据挖掘方法概述_第1页
第1页 / 共28页
SPSS大数据挖掘方法概述_第2页
第2页 / 共28页
SPSS大数据挖掘方法概述_第3页
第3页 / 共28页
资源描述:

《SPSS大数据挖掘方法概述》由会员分享,可在线阅读,更多相关《SPSS大数据挖掘方法概述(28页珍藏版)》请在装配图网上搜索。

1、word数据挖掘方法概述一、主要概念1二、主要方法概述11、神经网络方法概述12、聚类方法概述93、主成分分析144、决策树概述175、关联分析216、遗传算法概述23一、主要概念1、数据挖掘data mining,简记DM:采取专门算法对数据库中潜在的、不明显的数据关系进展分析与建模。2、CRISP-DM(CRoss-Industry Standard Process for Data Mining):各企业中被广泛采用的数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。3、Clementine:SPSS公司推出的企业级数据挖掘软件产品,其包括的数据

2、挖掘主要方法为:神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。二、主要方法概述1、神经网络方法概述 主要问题:1什么是神经网络? 2神经网络有什么用? 3如何建立神经网络? 4如何应用神经网络?1人工神经网络“人工神经网络(ARTIFICIAL NEURAL NETWORK,简称A.N.N.)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。神经网络在一定学习规如此下,对提供的学习样本进展学习,从中获取特征信息,并存储记忆在相应的权值与参数上。学习后,对于新的输入数据,网络可通过已获取的权值与参数,计算网络的输出。神经网络具有高度的非线性、容错性与自学习、自适应更新等

3、功能,能够进展复杂的逻辑操作和非线性关系实现。目前神经网络模型在辅助管理与决策中,应用广泛。2神经网络的作用已证明结论:对于函数,在满足一定条件下,可以找到函数和实常数和,构造函数:使对于任意小的,满足 3简单神经网络模型感知机模型的建立问题引入:设想对购置手机的顾客制定销售方案,用购置量与购置频率两个指标来判别,即: 购置量大, 购置频率大,如此给予优惠折扣 ; 购置量大, 购置频率小,如此给予优惠折扣 ; 购置量小, 购置频率大,如此给予优惠折扣 ; 购置量小, 购置频率小,如此不给予优惠折扣 问题:这样的销售方案判别是否可以建立模型表示?设想:分别对购置量、购置频率以与是否优惠的两种取值

4、定义为1,0,如此上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y: 样本号 X1, X2 Y 1 1 1 1 2 1 0 1 3 0 1 1 4 0 0 0构造两个输入节点、一个输出节点、二层结构的神经网络模型:* O1=f( xj取值1或0, w1jj=1,2待求 作用函数:f(x)= 1 x0 0 x0结构:X1 W11 X1 Y X2 W12 X2学习样本:( x1(k),x2(k), Y1(k) ) , k是样本数, k=1,2,3,4关键问题:如何获取模型*中的权数w1j,使计算结果与样本的评价结果的误差最小?计算w1j方法:随机赋予w1j初始值

5、,通过对每一样本的学习,获取计算结果与样本评价结果的误差,修正w1j的取值,使经过一定次数的学习后,总误差能达到期望值,此时修正得到的w1j就是所要获取的权数,即设(k)=Y k -O k, Y k是第k个样本评价结果称期望输出或实际输出,O k是计算结果。通过第k个样本的输出误差修正权数的公式为:k +1=k+( k), =(k)Xj 其中, 0 , 称收敛因子。 第k个样本的误差为: 误差 ek=|(k) |, 总误差 E(k)=E(k-1)+ ek计算过程:1设=1,随机赋予w1j的初始值为0,即w11k=1=0,w12k=1=02 对第一个样本进展学习:把X1=1,X2=1代入*,有O

6、= f(w11X1+ w12X2)=f(01+01)= f(0)=0 (k=1)= Y k -O k=1修正权数:w1j= (k) X j= (k=1) X 1=11=1w12 = (k=1) X 2=11=1k=2=k=1+=0+1=1, w12k=2= w12k=1+w12=0+1=1总误差 E(K=1)= E(K=0)+ek=0+(k=1)=13对第2个样本:X1=1 ,X2=0, O=f(11+10)= f(1)=1 (k=2)= Y k -O k=0修正权数:w1j= (k) X j= (k=2) X 1=01=0w12 = (k=2) X 2=00=0k=2=k=1+=1+0=1,

7、 w12k=2= w12k=1+w12=1+0=1总误差 E(K=2)= E(K=1)+ek=1+(k=2)=14对于获取的权数 =1,w12=1,有对第3个样本:X1=0,X2=1, O=f(10+11)= f(1)=1=Y对第4个样本:X1=0,X2=0, O=f(10+10)= f(0)=0=Y5结论:=1,w12=1是使计算结果与样本的评价结果误差最小的权数。将=1,w12=代入模型*,如此模型建立完毕。可以利用这个建立的模型,对任一组输入的X1,X2,在未知其输出评价结果时,通过*计算得到结果。4误差逆传播神经网络模型Error Back-Propagation ,简记BP模型 在简

8、单神经网络的根底上,进展形式推广,对多个输入、多个输出、多层结构,不同作用函数的情况进展建模分析。最常用的是BP神经网络。BP神经网络根本原理 BP神经网络模型是一种具有三层或三层以上的前馈型的、按梯度算法使计算输出与实际输出的误差沿逆传播修正各连接权的神经网络模型。网络按有教师示教的方式进展学习,当一对学习模式提供应网络后,神经元的激活值,从输入层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应,并按减少希望输出与实际输出偏差的方向,从输出层经各中间层逐层修正各连接权,最后回到输入层,随着这种误差逆传播修正的不断进展,网络对输入模式响应的正确率不断上升。x1 wi1 1 vtix

9、2 wi2 it 节点x3 节点 vtmwin Mxn输入信息 正向传播反向传播 实际输出与网络输出误差BP网络模型的特点:模型表示:Yi=f(i=1,2,3,m,xi取值(,)Ot= f ( t=1,2,3,q, Ot取值(0,1)模型结构:至少三层至少有一隐层,多个输入,一个或多个输出 作用函数(Sigmoid型函数) :f(x)= 1/1+e x-,+ fx0,1学习样本:( x1(k),x2(k),x3(k),xm(k), D1(k), D2(k), D3(k), Dq(k) ) , k是样本数, k=1,2,3,P权值修正公式:设i=Di-Oi , Di是期望输出实际输出,Oi是网络

10、计算输出1) 隐层与输出层连接权的修正:K+1=K+, 是隐节点输出2) 输入层与输出层连接权的修正:K+1=K+, ,是输入节点输入。 3) 第K个样本误差 总误差 E=5基于神经网络辅助医疗绩效的评定案例:为了对城市医疗能力进展评价,收集一批有代表性的城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家的评价结果,旨在建立评价城市的医疗建设绩效的模型,应用于评价任意城市的医疗建设绩效。收集数据见表1.1单位:万人。表1.1样本病床数医生数工作人员数诊所数死亡率专家评价的医疗能力gvvvbvavvvgvbbbagbgggabavgabaaggbbbbaggaaav

11、gagvvgbvvaggaabvg其中,v非常好, g好, a一般, b差需要评价的城市数据见表1.2。 表1.2样本病床数医生数工作人员数诊所数死亡率专家评价的医疗能力bgbgaagggabgggbggagggggagvgggvbabagvvvgagbbbg建立评价的BP神经网络模型:1将取得的10个样本分别量化:定义v、g、a、b的取值为v=1.5,g=0.5,a=-0.5,b=-1.5 1也可以定义: v=3,g=1,a= -1,b= -3 v=6,g=2,a=-2,b=-6 v=10,g=7,a=4,b=1由 1定义可得等10个城市样本取值见表1.3。 表1.3样本病床数医生数工作人员

12、数诊所数死亡率专家评价的医疗能力转换值网络输出0.51.51.51.5-1.51.50.90.8885-0.51.51.51.50.51.50.90.9581-1.5-1.5-1.5-0.50.5-1.50.10.12150.50.50.5-0.5-1.5-0.50.370.382661.50.5-0.5-1.5-0.5-0.50.370.3690.50.5-1.5-1.5-1.5-1.50.10.1168-0.50.50.5-0.5-0.5-0.50.370.346971.50.5-0.50.51.51.50.90.89980.5-1.51.51.5-0.50.50.6330.64190.5

13、-0.5-0.5-1.51.50.50.6330.65602设计具有三层、五个输入节点、8个隐节点、一个输出节点的BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输出为评价的医疗能力。3由于选择的映射函数是S型函数:f(x)= 1/1+e , x-,+ , fx0,1需要把样本输出转换为0,1之间的值。定义:输出转换值=0.1+0.8(样本输出值-最小值)/最大值-最小值), 其中,这里最大值=1.5,最小值=-1.5, 转换后的样本输出见表1.3. 4)网络学习35万次后,网络收敛,总误差为0.16,网络输出见表1.3所示,存储网络学习后的有关权数与参数。5)用学习后的网

14、络,建立的城市医疗能力评价模型:Yi=f(, i=1,2,3,8 xi取值(,),j=1,25Ot=f( , t=1 , Ot取值(0,1)其中,wij、Vti、rt已在学习中获取,评价表2城市的医疗能力,评价结果见表1.4。 表1.4样本病床数医生数工作人员数诊所数死亡率网络输出网络评价的医疗能力-1.50.5-1.50.5-0.50.122b-0.50.50.50.5-0.50.6687g-1.50.50.50.5-0.50.6423g0.50.5-0.50.50.50.6011g0.50.50.5-0.50.50.6333g1.50.50.50.51.50.8851v-1.5-0.5-1

15、.5-0.50.50.1134b1.51.51.50.5-0.50.8996v0.5-1.5-1.5-1.50.50.3869a思考问题:1如何利用神经网络辅助客户分类,以制定相应的促销或销售策略?2如何利用神经网络对客户信誉等级进展评价?3在城市医疗能力评价中,直接用收集的五个指标的定量数据作为神经网络输入,是否可以?4在城市医疗能力评价中,评价结果有四个可能的取值,可否设计四个节点的输出?如何定义?作业: 拟建立神经网络进展肺病诊断,设每个病例有有五种症状:发烧无、低、中度、高,咳嗽轻微、中度、剧烈,X光所见阴影点状、索条状、片状、空洞,血沉正常、快,听诊正常、干鸣音、水泡音,肺炎和肺结合

16、饿局部病例集见下表: 肺病实示例集 病状病例号发烧咳嗽 X光所见血沉听诊肺炎1高剧烈片状正常水泡音2中度剧烈片状正常水泡音3低轻微点状正常干鸣音4高中度片状正常水泡音5中度轻微片状正常水泡音肺结核1无轻微索条状正常正常2高剧烈空洞快干鸣音3低轻微索条状正常正常4无轻微点状快干鸣音5低中度片状快正常2、聚类方法概述 主要问题:1如何定义两类之间的距离? 2如何进展类归并? 3如何表出谱系图? 4聚类分析的应用? 聚类:按照事物的某些属性,把事物聚集成类,使类间相似性尽量少,类相似性尽量大。问题引入:1四个学生要分成两类,如何分? 2设想对优势股进展投资,问优势股如何选择? 一般地,按属性对样品或

17、对元素进展归并,称为分类,未知属性没有先验知识按距离大小对样品或元素进展归并称为聚类。常用聚类方法1、系统聚类法:先将n个样本各自看成一类,规定样本之间和类与类之间的距离,选择距离最近的一对合并为一个新类,再将距离最近的两类合并,直至所有的样本都归为一类为止。聚类既可对样品进展聚类,也可以对变量进展聚类。假如对样品的进展聚类,设第i样品表示为,如此第A类与第B类的距离可以定义为:最常用的距离有:1最小距离:用两类中样品之间的距离最短者作为两类的距离。2最大距离:用两类中样品之间的距离最长者作为两类的距离。3重心距离:用两类的重心之间的距离作为两类的距离。4类平均距离:用两类中所有两两样品之间的

18、平均距离作为两类的距离。案例应用:设有5个股票,每个股票有8个指标X1,X2,X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率、经营杠杆系数、财务杠杆系数、投资报酬率,用xit表示第i个股票的第t个指标的值,如此可得到股票样品的数据矩阵:变量样品 x1 x2 x8 1 x11 x12 x18 2 x21 x22 x28 . . . . . . . . . . . . . . . 5 x51 x52 x58将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中的一个点,5个样品就是8维空间中的5个点,然后用欧氏距离度量样品点的相似性:两样品点间距离越大,其相

19、似性越小。下面给出5个样品两两之间的欧氏距离阵D0:0 4 0D0: 6 9 01 7 10 0 6 3 5 8 0采用最小的距离法,将样品1与样品4合并成新类=,如此得到类之类的距离阵D1:0 4 0D1: 6 9 0 6 3 5 0合并类与成一新类7。下面计算类6,7,3之间的距离阵 0 D2: 4 0560 合并类与成一新类=,最后计算与的距离为5,并合并为一大类。并化出相应的谱系图:1 2 3 4 5 1 4 2 5 3 五个样品的最小距离的谱系图5个股票样品的聚类顺序表合并次序 合并的类 合并后类的元素 合并水平距离 1 1,4 6=1,4 1 2 2,57=2,5 3 3 6,78

20、=1,2,4,5 4 4 3,89=1,2,3,4,5 5最小距离法也可以对变量进展系统聚类,仍通过例子来说明案例2:对某地超基性岩的一批样品,测试六个与矿化有关的元素:x1=镍,x2=钴,x3=铜,x4=铬,x5=硫,x6=砷,并假设它们的相关系数如矩阵R0所示。相关系数定义:设有n个个体,每个个体测量了p个变量,第i个变量x1与第k个变量xk的相关系数为: rik=/第A类与第B类的距离可以定义为: 1 0.8462 1 0.7579 0.9802 1 0.6431 0.2419 0.1811 1 0.5039 0.7370 0.7210 -0.3075 10.5603 0.4241 0.

21、3920 0.1998 0.6802 1其中,i=1,2,6,试用系统聚类的最大距离法对六个变量进展聚类负相关系数采用绝对值。由于采用的是相关系数矩阵,所以应找最大元素并类。其中最大的元素为0.9802,因此将与合并为。计算它与其它剩下的类的相关系数,相应地得到R1: 1 0.7579 10.1811 0.6431 10.7210 0.5039 -0.3057 1 0.3920 0.5603 0.1998 0.6802 1R1中最大的元素为0.7579,因此将与合并为,并计算它与其它剩下的类的相关系数,相应的得到R(2): 1 0.1811 10.5039 -0.3075 1 0.3920 0

22、.1998 0.6802 1R2中的最大的元素为0.6802,因此将与合并为,并计算它与其它剩下的类的相关系数,相应地得到R(3): 1 0.3920 1 -0.3075 0.1811 1R(3)中最大的元素为0.3920,因此将与合并为。六个变量的并类顺序表并次序 合并的类 合并后类的元素合并的水平相关系数 1 2,37=x2,x3 0.9802 2 1,78=x2,x3,x1 0.7579 3 5,69=x5,x6 0.6802 4 8,910=x2,x3,x1,x5,x6 0.3930 5 10,411=x2,x3,x1,x5,x6,x4 0.1811 1 0.8 0.6 0.4 0.2

23、 0 x2 x3 x1 x5 x6 x4横坐标是并类的相关系数。2K均值聚类法 K均值聚类法是一种类数的数据聚类和分类方法。过程如下: 选取聚类数K; 从训练样本中任意选择K个向量C1,C2,CK作为聚类中心,Ci=Ci1,Ci2Cin; 将每个样本Xl=(Xl1,Xl2, ,Xln)按距离:P=1,2,3k, 归入距离最小的中心为Ci的类; 设属于Ci类的样本为Xj(j=1,2, q),计算新的聚类中心Ci=Ci1,Ci2Cin其中: 假如中的聚类中心不再变化,就终止,否如此转。 思考问题:1如果分两类,谱系图如何? 2如果分三类,谱系图如何?3如何确定适合的聚类数? 4分析客户购置手机的数

24、据,通过聚类分析客户流失情况。作业: 在城市医疗能力评价中,评价指标为五个,即X=X1,X2,X3,X4,X5,每一指标取值四个v,g,a,b,如此Xi取值的各种可能为45,如此可能有45的评价指标情况,要求通过聚类,从中选出15个有代表性的样本,比拟聚类辅助建立神经网络与专家经验辅助建立神经网络的不同。3、主成分分析主成分分析是一种多变量分析方法,通过变量变换把相关的变量变为不相关的、比原来少的假如干个新变量。问题引入:为了找出影响顾客购置手机的主要因素,抽查一局部人按性别和年龄分成10个小组,分别对100种手机类型进展打分评价,最受欢迎的手机给予9分,最不受欢迎的手机给1分。设10组顾客对

25、100类手机的评分数据为:指标样本手机1 手机2 手机100X1男20岁以下 X11 X21 X1001X2男2130岁 X12 X22 X1002X3男3140岁 X4男4150岁X5男50岁以上X6女20岁以下X7女2130岁X8女3140岁X9女4150岁X10女50岁以上 X110 X2 10 X 100 10Xij表示第j个顾客对第i款手机的偏好评分,记A=Xij。设想通过主成分分析确定手机类型的主要影响因素。主成分分析步骤:1) 求A的相关系数矩阵R,R=R, 的定义为: ,=2) 求特征方程det(R-)=0的特征根i(i =1,2,n);3) 通过非零向量B满足(R-)B=0,

26、计算相应的特征向量Bi=Bi1,B i2, Bin;4) 从大到小排列i,不妨设12 n ,由累计贡献率95%确定m个特征根12 m,对应的特征向量为Bi=Bi1,B i2, Bin,i=1,2,m;5) 计算主分量Z k,Z k=k=1,2, m mn,即Z k是原影响因素Xi的线性组合。Z k 的应用:1通过Zi与Zj的对应取值变化,了解主要影响因素之间的关系和变化趋势;2可以通过Z k对X1,X2,X100的贡献率,找出最大的指标Xi,视Xi为Z k影响最大的指标。的定义:令Xij 与 Zij的关系为:组号指标 X1,X2, X n Z 1,Z 2 Z m 1 X11 X21 X n 1

27、 Z11 Z21 Z m1 2 X12 X22 X n 2 Z12 Z22 Z m2 10 X110 X210 X n 10 Z110 Z210 Z m10i=1,2, m, j=1,2, n案例分析:1:AXij的相关系数矩阵R为:X1 X2 X3 X10X1 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33X2 1 0.7 0.64 0.4 0.8211 1 1 1 11 1X10 12用计算机求解特征方程 det(R-)=0的特征根i,其中累计贡献率达到93.4%的前三个特征根为:1=6.83,2=1.76,3=0.75;3计算三个特

28、征值的特征向量与累计贡献率见下表:评价组特征向量B1特征向量B2特征向量B3 X1026804460194 X203110240336 X30323-01660442 X40229-03590375 X40261-05070128 X603090408-0084 X703440235-0171 X803480032-029 X90346-0164-0322 X100303-0267-0522 特征值i683176075 有效率i/10683%01760075累计贡献率683%859%934%4计算主分量Z k,Z k=,即 Z1=0268X1+0311X2+0323X3+030X10Z2=04

29、46X1+024X2 01663X3+0267X10Z3=0194X1+0336X2 +0442X3+0522X10 5分析各特征向量的各分量的取值对B1,各分量取值差异不大,符号一样都是正号,明确对哪一评价组合都是喜欢的,或者都是不喜欢的,因此可以把新的综合指标Z1定义为偏好指标;对B2,从第1组到第5组,从第6组到第10组,有从大到小的变化一样的趋势,即随年龄的增长而取值由正变负,表示了年龄对偏好喜欢程度的影响,因此可以把综合指标Z2定义为年龄指标。对B3,各分量对于1到5组男性取正值,对于女性取负值,表示由于性别的不同而产生的偏好上的不同,所以可以把综合指标Z3定义为性别指标。可以归纳为

30、:影响手机购置的主要因素是:偏好、年龄、性别。6 可以通过X1X10的取值,获取Zk的取值,分析偏好与年龄的变化关系;7可以通过计算Zk对Xi的贡献率,确定贡献率最大的相应的评价组合,由此确定销售主要的对象策略。如计算得到的为:Xi 10.910.320.010.93 * 20.70.230.080.55 30.62-0.530.180.7 40.910.290.040.92 * 50.860.320.040.85 * 60.760.44-0.030.77 * 70.780.310.030.71 80.5-0.6-0.190.65 90.230.110.80.7 100.42-0.23-0.6

31、70.7把大于0.75的用*表出,可见偏好、年龄以与性别对20岁以下的男、女组合、40岁以上的男性组合影响较大。思考问题:如何通过收集的客户有关数据,分析客户流失的主要因素?作业: 用随机赋分形式形成各年龄层的调查分数,借助SPSS,求出各年龄层最感兴趣的三款手机。4、决策树概述决策树:一种以实例为根底的归纳学习算法,它从一组无次序、无规如此的实例中推理出树表示形式的分类规如此。问题引入:设想影响气候的主要指标有四个: 天气:晴、多云、下雨;分别记为0,1,2温度:寒冷,温暖,热,分别记为0,1,2湿度:潮湿、正常,分别记为0,1, 风力:有风,没风,分别记为0,1。将气候分为两个级别:P,N

32、,分别记为0,1。如果某一天的气候为多云,寒冷,湿度正常,没风,问气候是哪一级别? 思路:1建立判别实例集; 2由实例集建立一棵判别的决策树; 3由决策树对任何组合气候特征进展判断。关键问题:如何建立决策树,树的属性判别次序如何选择?C5.0系统决策树的算法ID3特点:首先找出最有判别力的因素,把数据分成两个子集,每个子集又选择最有判别力的因素进展划分,一直进展到所有子集仅包含同一类型的数据为止。决策树建立过程:设收集的气候实例集为:样本号天气温度湿度风力分类1晴热潮湿没风N2晴热潮湿有风N3多云热潮湿没风P4有雨温暖潮湿没风P5有雨寒冷正常没风P6有雨寒冷正常有风N7多云寒冷正常有风P8晴温

33、暖潮湿没风N9晴寒冷正常没风P10有雨温暖正常没风P11晴温暖正常有风P12多云温暖潮湿有风P13多云热正常没风P14有雨温暖潮湿有风N设想用获得信息量最大的特征作为决策树判别的标准。假如U表示信息源,V表示收到的信息,IU,V表示收到信息V后获得关于U的信息量,定义IU,V=HUHUV 对于一样的U与不同的V,当IU,V最大时,将属性V即收到的信息作为决策树的判断点。 关于HU、HUV的计算,用上述实例说明。设Uj表示输出类别(j=1,2),即U1=P,U2=N;Vk表示判别特征,即V1=天气,V2=温度,V3=湿度,V4=风力,k=1,2,3,4,Vkj表示第K个判别特征的第j个取值,如V

34、1=天气的取值为:V11=晴,V12=多云,V13=有雨。为了选择最有判别力的特征,需要分别计算IU,Vk,从中取最大IU,Vk0,相应的Vk0就是判别特征。1) HU的计算:根据输出类别Uj的概率进展计算,即由于 PU1=9/14, PU2=5/14 = 9/14log2(9/14)+ 5/14log2(5/14) =0.94 2) 计算HUV1:,1由于PV11=5/14, PV12=4/14, PV13=5/14,PU1V11=2/5,PU2V11=3/5PU1V12=1,PU2V11=0PU1V13=3/5,PU2V13=2/5代入1得: =5/142/5 log2(5/2)+ 3/5

35、 log2(5/3)+ 4/14log2(1)+ 0+ 5/143/5 log2(5/3)+ 2/5 log2(5/2) =0.694,3) 计算IU,V1:IU,V1=HUHUV1=0.94-0.694=0.2464) 同理计算IU,Vk(k=2,3,4),并求出最大IU,Vk:可以计算得到:IU,V2=0.029,IU,V3=0.159,IU,V4=0.048与IU,V1=0.246相比,IU,V1最大,所以第一选择判别特征为V1=天气,作为决策树树根。5) 建立树根的分支:树根对应的三个属性值晴、多云,有雨作为分支,分别有相应晴的子集样本为F1=1,2,8,9,11,相应多云的子集样本为

36、F2=3,7,12,13,相应有雨的子集样本为F3=4,5,6,10,14,其中F1中2个取P,3个取N, F2中全部取N,F3中3个取P,2个取N。所以仅需对F1、F3进一步判别,对F2不需再判别。6) 递归建树:分别利用上述算法ID3对子集F1、F3继续判别,即对子集Fi(i=1,3)个特征求平均互信息最大的特征。可以得到:对F1,IU,V3最大,以其为该分支的结点再分支,由于取V3=湿度时,潮湿对应的类全是N类,正常对应的类全是P类,因而已有判别结果,不需继续再分。对F3,计算得到平均互信息最大的为IU,V4,V4=风力,以其为结点再分枝,此时有风对应的是N类,无风对应的是P类,所以也有

37、判别结果,不许继续再分。见图所示。天气风力湿度 晴 有雨 多云 P 潮湿 正常 有风 无风 N P N P7) 利用建立的决策树,对问题“某天气候为有雨,寒冷,湿度正常,没风,进展判别,判别结果为“气候为P类。8) 利用决策树,可以写出判别规如此: IF “天气是晴 and “湿度潮湿T hen“气候是N类 IF “天气是晴 and “湿度正常T hen“气候是P类 IF “天气是多云 T hen“气候是P类 IF “天气是有雨 and “有风T hen“气候是N类 IF “天气是有雨 and “无风T hen“气候是P类9) 决策树的存在问题:1依赖于特征取值较多的特征;2依赖于正、反例取值

38、个数;3当正、反例个数变化时,平均互信息也变化,决策树变化。思考问题:如何对顾客的数据进展判别,以作出最优销售策略? 如何从一个决策树,转换为一个神经网络?5、关联分析关联分析:对事务中物品之间同时出现的规律知识模式进展分析的方法。关联规如此:通过量化的数字描述事务中物品之间同时出现的规律的关联表示。问题引入:1事务1中出现了手机,事务2中出现了电池、储值卡,事务3中出现了手机和电池,问手机、电池、储值卡在事务中出现,其相互之间有没规律可循? 2开通的手机业务中,如语音信箱,移动秘书,信息点播,呼叫转移等,相互之间是否有关联关系?主要概念:1可信度:confidence设W是一组事务集,每个事

39、务T是一组物品。假如W中支持物品集A的事务中,有C%的事务也支持物品集B,如此C%称为关联规如此A B的可信度,其中, A B表示A出现如此B也出现,且AB=。可信度表示为PB/A。2支持度Support:设W中有S%的事务同时支持物品集A和B,如此S%称为关联规如此A B的支持度。支持度表示为PAB。3期望可信度(expected confidence):设W中有E%的事务支持物品集B,如此E%称为关联规如此A B期望可信度。期望可信度表示为PB。4作用度lift:作用度是可信度与期望可信度的比值。表示为PB/A/ PB。 关联规如此挖掘算法常用的有apriori算法。apriori算法的主

40、要思想是找出存在于事务数据库中的所有大物品集也称频繁集,利用获取的大物品集生成关联规如此。其中,大物品集是指支持度不少于用户给定支持度的物品集。案例: 设通过统计用户主叫的业务使用情况,进展业务的关联分析。设有10项业务,记0语音信箱,5移动秘书,6信息点播,9呼叫转移,统计的10个主叫与使用业务如下所示: 主叫 使用的业务类型 0,5,6,7 1,5,6,7, 1,4,7 8,7,9 0,1,2,5,6 1 1,2,3,6 4,5,6,9 0,2,3 4,5,7,8 3,6,7记A为业务5,B为业务6,T为事务总数主叫统计数,如此有: 规如此A B的支持度为0.4,可信度为0.8。 规如此B

41、 A的支持度为0.4,可信度为0.67。假如用户给出的最小可信度为0.3,支持度为0.3,如此这两条规如此满足条件,形成关联规如此。问题:如何确定那些业务可以生成不少于用户支持度与可信度的关联规如此? apriori算法特点:设物品集I含有N个项,T是事务,用户给定的最少支持度为P。1) 计算所有的1-项集K项集表示元素只含K项,记为C1;2) 用给定最少支持度用户给定支持度对C1进展过滤,选出满足最少支持度的项, 记为L1;3) 由L1通过L1*L1生成2-项集C2,其中C2为C2=L1*L1=XY,XL1,YL1,XYTi, Ti是某一事务,XY 是2-项元素;4) 用给定最少支持度用户给

42、定支持度对C2进展过滤,选出满足最少支持度的项,记为L2;5) 由L2通过L2*L1生成3-项集C3,其中C3为C3=L2*L1=ZY,ZL2,YL1,ZYTi, Ti是某一事务,ZY 是3-项元素,且ZY 的任一子集的最少支持度仍大于P ;6) 用给定最少支持度用户给定支持度对C3进展过滤,选出满足最少支持度的项,记为L3;7) 以此类推,可以选出K项集Ck,Ck为Ck=Lk-1*L1=GY,GLk-1,YL1,GYTi, Ti是某一事务,GY 是k-项元素,且GY 的任一子集的最少支持度仍大于P;当用给定最少支持度对Ck进展过滤不能选出更大项的元素时,Ck就是最大物品集。例:设有四项业务,

43、用T-ID表示,用户的最少支持度和可信度均为0.4 ,如下所示:T-ID 项 100 ACD 200 BCE 300 ABCE 400 BC 通过apriori算法,可以找出BCE是大物品集,可以生成关联规如此:B BCE-B 即B C conf=2/3, Sup=2/4,B E conf=1, Sup=3/4 CB conf=2/3, Sup=2/4 CE conf=2/3, Sup=2/4 EB conf=1, Sup=3/4 EC conf=2/3, Sup=2/4思考问题:1如何利用关联分析,挖掘手机销售中的零配件业务关系,从而制定有利的销售策略? 2如果以利润最大为目标,如何从关联业

44、务中,形成利润最大的促销套餐,如买一送一,或买十送一策略?6、遗传算法概述遗传算法主要思想:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。该算法从一组随机产生的初始解,称为“种群,开始搜索过程。种群中的每个个体是问题的一个解,称为染色体。染色体在后续迭代中不断进化,称为遗传。在每一代中用“适值来测量染色体的好坏。生成的下一代染色体,称为后代。后代是由前一代染色体通过交叉或变异运算形成。新一代染色体形成中,根据适值大小选择局部后代,淘汰局部后代,从而保持种群大小是常数。适值高的染色体被选中的概率较高。这样,经过假如干代之后,算法收敛于最好的染色体,这很可能就是问题的最优解或次优解。根本

45、概念(1) 基因链码生物的形状是由生物的遗传基因的链码所决定的。使用遗传算法时,需要把问题的每一解编码成为一个基因链码,称为个体或染色体,每一基因链码的位称为基因。(2) 群体群体种群是假如干个个体的集合。由于每个个体代表了问题的一个解,所以一个群体就是问题的一些解的集合。例如,P1=x1,x2,x100就是由100个解个体构成的群体。(3) 交叉两个染色体某些基因的交换。交叉的作用在于使新的群体中的个体具有多样性,由此扩大解的搜索空间。(4) 变异通过在染色体上的某些基因位置产生突变使得新产生的个体与其它个体有所不同。变异的作用在于提供初始群体中不含有的基因,为种群提供新的容。(5) 适应度

46、表示染色体对环境的适应程度。适应度越大,染色体越好,对应的解越好。(6) 选择根据染色体的适应性,选择适应度大的染色体而淘汰适应度小的染色体。遗传算法的流程:1 令进化代数g=0,随机给出初始化群体P(g);2 对P(g)中每个个体估值;3 根据估值进展个体选择复制;4 对已选择个体,进展交叉和变异操作,得到新一代群体P(g+1)。令g=g+1。5 如果终止条件满足,如此算法完毕。否如此,转到2。随机产生初始种群对每一个体计算适应值满足终止条件 Y N对个体进展选择复制按一定概率和定义进展交叉显示适应值或最优解按一定概率和定义进展变异遗传算法的实现1编码方法 1二进制编码:把问题解用01串的编

47、码形式表示。如整数1552是问题的一个解,如此可以用1552的二进制形式1100001000来表示这个解所对应的基因链码染色体。二进制、十进制相互转换方法:例:二进制数110010012转换为十进制:110010012=127+126+025+024+123+022+021+120+ =128+64+8+1=20110十进制数N10转换为二进制数 (除2取余):N10=bm2m+ bm-12m-1+ b121+ b020由十进制数与二进制数的转换规律, bi 由2除N10的余数决定。例:将15710转换为二进制数: 余数 2 157 1=b0 2 78 0= b1 2 39 1= b2 2 19

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!