几种多元统计分析方法及其在生活中的应用1

上传人:仙*** 文档编号:69510862 上传时间:2022-04-05 格式:DOC 页数:50 大小:126KB
收藏 版权申诉 举报 下载
几种多元统计分析方法及其在生活中的应用1_第1页
第1页 / 共50页
几种多元统计分析方法及其在生活中的应用1_第2页
第2页 / 共50页
几种多元统计分析方法及其在生活中的应用1_第3页
第3页 / 共50页
资源描述:

《几种多元统计分析方法及其在生活中的应用1》由会员分享,可在线阅读,更多相关《几种多元统计分析方法及其在生活中的应用1(50页珍藏版)》请在装配图网上搜索。

1、第2章聚类分析及其应用实例2. 1聚类分析简介聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性來进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类分析方法有很多,按不同的分类方式,有不同的分类。按聚类方法的不同可分为以下几种:(1)系统聚类法:对所在的指标进行分类,每一次将最相似的两个数据合并成一类,合并之后和其他数据的距离会重新计算,这个步骤会不断重复下去直至所有指标合并成一类,并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法):所谓调优法,从表面意思就可以看出是在对n

2、个对象初步分类后,根据分类后的信息损失尽可能小的原则对分类进行择优调整,直到分类合理为止.(3)有序样品聚类法:在很多实际问题中,所谓的样品都是相互独立的个体,因此可以平等的划分。但是有序样品聚类法的存在就是因为在另外一些实际问题中,样品之间是存在着某种联系而在分类中是不允许打乱顺序的。有序样品聚类法开始时将所有样品归为一类,然后根据某种分类准则将其分为二类等等,一直往下分类下去直至满足分类要求。它的思想正好与系统聚类法的相反。(4)模糊聚类法:利用模糊聚集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法:在处理分类问题中独创性的引入了图论

3、中最小支撑树的概推荐精选念。(6)聚类预报法:顾名思义,就是用聚类分析的方法来在各个领域中进行预报。在多元统计分析中,判别分析、回归分析等方法都可以用来做预报,但是在一些异常数据面前,这些方法做的预报都不是很准确,方法也不好准确的实施,而聚类预报则很好的解决了这一点。可以预见,聚类预报法经过更深入的研究后,一定会得到更加广泛的应用。按聚类对象的不同,聚类分析可分为2型对样品(CASES)聚类与型对变量(VARIABLE)聚类,两种聚类在方法和步骤上都基本相同.2. 2聚类分析方法介绍数学方法在实际应用中是否受欢迎,最主要的一点就是它能不能适用于大型6第2章聚类分析及.11;应用实例计算的问题。

4、图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中难以快速有效处理数据而应用甚少。基于目标函数的聚类方法因其设计简单,在实际生活中被广泛运用,其主要思想是将问题转换为带约束条件的非线性优化,这样就可以运用完备的线性最优化知识解决问题,而且这种方法也易于在计算机上实现。而伴随着计算机技术的突飞猛进,基于目标函数的聚类方法必定会成为研究的热点。2. 2. 1谱系聚类方法在待分析样本数较小时,通常采用谱系聚类方法(系统聚类法)。谱系聚类法是按距离准则来对样本进行分类的,例如我们要将样本集X中的个样本划分为C推荐精选类。那么算法的实现过程如下:首先令这个样本各自为一个类,此时,总的类数为;其次

5、,计算这/7个类别之间的相互距离,合并距离最小的两个样本,这样总得分类数就只有个;然后计算新形成的个类别之间的距离,同样合并最小的两个类,使类别减少为n-2个,依此原则,继续合并;最后,当总的类别只剩下C类时,停止计算,分类结束,此时的C类就是聚类的结果。需要注意的是,在此过程中,计算类与类之间的距离的方法有很多种,具体选择什么方法,需要视具体情况而定。计算类间距离的方法,后续也会有比较详细的介绍。根据上述聚类原则,我们很快可以知道,对于样本集里的任意两个样本X和Xj它们总是可以聚类到一个类别中去。“上述所介绍的,只是谱系聚类算法中的一种,这种算法一般称为聚集法,它比较适合于类别比较多的时候,

6、当类别较少时,用此种方法就显得计算量非常的大,使得分类效率不高;另一种谱系聚类算法叫做分裂法,它与聚集法初始时将所有样本卑独分成一类刚好相反,它是将所有样本当成一类,然后在将某些样本分离出去,形成其他的类别,这样就节省了相当一部分的计算量。在实际运用中,具体选择哪种方法来聚类就得以具体情况为准。上述算法中的分类仅仅依靠样本间的距离或者类间距离,因而,距离的计算决定了分类结果。距离的计算种类有:闽可夫斯基距离(包括街区距离、欧氏距离和切比雪夫距离等),也可以选择马氏距离、角度相似性函数或者Taniraoto测度。其中马氏距离定义DI = - m) C - m)(21)推荐精选这里X为模式向量,w

7、为均值向量,C为模式总体的协方差矩阵.马氏距离的优点k是排除了模式样本之间的相关性影响.比如,我们取一个模式特征向量,可能有九7第2章聚类分析及用实例如果B类是由E和F两类合并而成的,则有2.最长距离法9】与上述相似,两个聚类A和B间的最长距离定义为=maxi/J a e e 5(25)同样地,如果B类是由E和F两类合并而成的,贝max3.中间距离法9如果B类是由E和F两类合并而成的,则A类和B类之间的距离为(2-6)它介于最长距离和最短距离之间.4.重心法上述定义的类间距离没有考虑每一类中包含的样本数目,如果E类中有个样本,F类中有个样本,则E和F两类合并后共有+?,.个样本.用”)fP/工

8、、代替中_距离、法中的系数,即得:重心、法的类与类之间的距离递推公/l?A- +?/;式为D,. ?推荐精选(2-7)V n, + n,n, +n,(?/:.+?,)5.类平均距离法9如果采用类间所有距离的平均距离,则有Da,B =Yj Ih(2-8)VoA,heB不难得到类平均距离的递推公式为D,、b =(2-9)V ?/ + nn,. + n,-由于定义类间距离的方法不同,使分类结果不太一致.实际问题中常用几种不同地方法进行计算,比较其分类结果,选择一个比较切合实际的分类.对于上述五种定义类间距离的方法,可采用统一的递推公式: EAJi + FAJ七 PD丨“1: + 7DJ; -(2-1

9、0)由此,我们可以得到五种类间距离递推公式中的权系数,如表1所示,其中9第2章聚类分析及ji;应用实例n, n, +n,即B类样本数目是E和F类样本的合并。表2-1统一类间距离递推公式中的权系数Table2-1 The Weight Coefficient in The Recurrence Formula of Distance Between theUnified Class推荐精选方法a、: a,.P7空间性质最短距离法 0. 5 0.50 -0.5HI缩最长距离法 0.5 0.500.5扩张类间平均距离法 nJriB ?/./00保持重心法/;/?- n,:/1, / nl 0保持中间

10、距离法 0.5 0.5 -0.25 02. 2. 2基于等价关系的聚类方法由离散数学中关于关系的描述我们知道,定义在集合Z = ;c,,x,上的关系如果具有自反性、对称性和传递性则被称为等价关系.设义是一给定集合,尤,是它的子集,如果满足9】:X! nXj 二 (j), V/,7 = 1,2,?;,/ 半 jXyjXKj-KjX=X则集合尸=, ,,X被称为集合的一个划分,而,被叫做这个划分的块.若是集合上的等价关系,对于任意一个元素X, 可以构造一个X 的子集,叫做X,对于的等价类,x, = e X,Kx.RXj.对于这种集合,它具有下列性质:(1)x, ex丄;(2)如果Xy e x, ,

11、则必有xy. = x, L ;推荐精选(3)若X广x L,但?生 V. L,则必有 k r。L = .由此可知,集合Z上的等价关系7?所构成的类,两两互不相交,而且覆盖整个集合JT .我们得到如下定理:集合X上的等价关系R所构成的类产生集合X的10个分量是反映同一特征A,而只有一个分量反映另一特征B,欧氏距离计算出來的结果将绝大部分反应特征A,而弱化了特征B,而马氏距离去除了相关性后,据规避了这个缺点。通过式(2.1)我们可以看出,当C为对角阵时,各特征分量相互独立,同时,我们还发现,欧氏距离其实就是协方差矩阵C等于单位矩阵I时的一个特例。可以看出,在这种条件下模式样本集的概率分布不仅各分量之

12、间不相关,而且其密度函数的等高线为圆(或者超球面),即各分量方向上的密度分布是均匀的需要指出的是,计算协方差矩阵是计算马氏距离的关键所在,但是我们只有在模式集给定的情况下,才能计算出协方差矩阵,遗憾的是这个条件很难实现。角度相似性函数定义为士(2-2)是模式向量;C与X之间的夹角余弦,也就是X的单位向量II与X的单位向量* /IW II之间的点积.夹角余弦的测度反映了几何上相似形的特征,它对于坐标系的/KII旋转及缩放时不变的,但对位移和一般的线性变换则并不具有不变性的性质.Tanimoto测度是将夹角余弦度量进行细小的修改后得到的,主要用于具有0,1 二值特性的情况”。其具体定义为推荐精选共

13、有的特征数目,xlx,= ;Cf或;Cj.中占有的特征数目之总数一不过,相似性测度函数的共同点都涉及到把两个相比较的向量X和X的分量k j值组合起来,但怎样组合并无普遍有效的方法,对于具体的模式分类,需视情况作适当的选择8。在谱系聚类算法中,每次迭代中形成的聚类之间以及它们与各个样本之间的距离,有多种不同的准则函数7。1.最短距离法9假设A和B是两个聚类,则两类间的最短距离定义为j | a e A,b e b(24)式中,(力表示A类中的样本X。和B类中的样本之间的距离.表示A类中所有样本与B类中所有样本之间的最小距离.8第2章聚类分析及其应用实例(? -j)?=I 广 n.(2-14)Jpr

14、 叫 pr 又 J推荐精选这里,七=XX.i,J X A .S k=S4.指数相似系数5r.=文e si(2-15)S k这里,是第A个特征的方差,=-(? k = 2,,S(2-16)“M5.最大最小法min(x?,xJr, (2-17)Jmax(x?,xJ/c=l6.算术平均最小法Emm(x?,xJr? = (218)Z k = 7.算术平均最小法Emin(x?,xJ推荐精选r,丨-(2-19)舍t(?+?)L 人-18.几何平均最小法Emin(x,xJr, = (2-20 )y s k=9.绝对值指数法12笫2苹聚类分析及K:应用实例一个划分,此划分叫做Z关于的商集,记做例如,同余关系i

15、?对整数集/产生的商集就是模C的剩余类9:/?,=0,.,lL,.,c-4.由上述讨论可知,在给定集合Z上定义一个等价关系,就决定集合;r的一种划分.显然,这样的划分是硬分割,我们可以把这一概念推广到模糊关系上来9。由于模糊等价关系及是论域与自己笛卡尔乘积jxl上的一个模糊集合,而模糊集合的任何a(0 S a S 1)截集及?都是X X X上的一个普通集合,即为X上的普通等价关系,也就得到了关于X中对象元素的一种分类.当由1下降为0时,推荐精选所得到的分类由粗变细,逐渐归并,从而形成一个动态的聚类谱系图.由此可见,分类对象集Z上的模糊等价关系的建立是这种聚类分析方法中的一个关键性的环节9。为了

16、建立分类对象集合X上的模糊等价关系瓦,通常需要首先计算各个分类对象之间的相似性统计量,建立分类对象集合I上的模糊相似关系= k,?、 L IJ Jfjxn0r, max|X丨k(2-13)3.相关系数法11笫2苹聚类分析及;用实例推荐精选即合成的传递闭包:巧=充。瓦.,R:=Ror;,这样下去,就必然存在一个自然数I使得巧* = R。紀?这时,便是一个模糊等价关系了.在此基础上,我们就可以利用不同水平下的截集得到该水平上的聚类结果,所有不同水平的聚类结果形成聚类的谱系图9。2. 2. 3图论聚类方法图论聚类方法最早是由Zahn提出来的,又称作最大(小)支撑树聚类算法.后来经过人们加以改造从而可

17、以实现模糊聚类分析.图G中一条长度为尺的路径(Path ) P是一系列连接的结点,P =x,,X2,.,Xa.+,,其中对V/ e (0,Ar),(x,x,+|)e E ;如果图G中没有一条非零长度的路径P =,且X, =Xh,,则称图G不包含环(Cycle);图G的支撑树是指由连接所有结点的?-1条边构成的无环图pr,r.显然,一个图中当且仅当任意两对结点之间只有一条路径时才是树,通常在一个图G中可以构造多个支撑树1,7;如果我们给图中每条边e赋以权值,那么所谓的最小支撑树(Minimum SpanningTree, MST)是指满足下列条件的支撑树:w(MST ) = minj w(e)|

18、对于一棵树如果移去一条边e,则生成两组连通的结点jc又和A=X-A,我们定义y为共环边,0 = |e,.-|x, e A,Xj- e A,A = X -jj(2-26)推荐精选也就是说,f为图X,G中连接两组节点J和:?的一组边;森林是指不包含环的非联通图,其中的每一个联通的部分被称为一棵树。下面的定理给出了构造最小支撑树的充分必要条件.即:是图G的最小支撑树的充分必要条件是,对于所有的边其共环边y满足14第2帝聚类分析及其应用实例Z= e =丨(221)10.绝对值倒数法1i = jr =M(2-22)ys3?I i* j.i=l这里,M是一个适当选取的数,使得SI.在实际应用中,由于所获取

19、的分类对象的数据比较复杂,往往不是0,1区间中的数,因此首先需要把各个原始数据标准化.假设被分类的对象一共有n个,对于每一维特征Xt共有个原始数据,设为x;x2”,x:p把它们叫做这一特征的各推荐精选个元素.为了把这些数据标准化,首先计算每一维特征的均值和方差iG:=-1? (2-23)H /=1n /=1下式(2.24)是求数据标准化值X;的公式X:(2-24)Sk对上式(2.24)求出的值进行极值标准化,就能确保所有被标准化为0,1闭区间内的值,极值标准化公式为:?5 -:?“(2-25)max 工 Amin上式中,是指x;,x丨” 中的最大值,而指最小值-得到待分类对象集X上定义的模糊相

20、似性关系足后,还要进一步改造成为模糊等价关系足由前面有关模糊关系的介绍可知,模糊相似性关系足.满足自反性和对称性,但一般而言并不满足传递性,也就是说,它并不是模糊等价关系.因此,为了聚类我们必须采用传递闭包的性质,将这种模糊相似性关系足改造为模糊等价关系民9。13第2韋聚类分析及jl;应用实例6 rT = ), we) ws), s 0人s * e).在传统的图论聚类分析,首先把待分类的对象X = xi,x2,,看作一推荐精选个全连接的无向图G = 中的结点,然后给每一条边赋以权值,比如我们可以用任意两个结点(X, Xj)在特征空间的汉明距离定义边e丨J (1 /,j n)的权值为we,j)

21、= |x, - Xj II, x,xj e X然后,我们再对该组对象进行聚类分析,其具体步骤再次就不多讲.下面,我们主要介绍模糊最大支撑树算法的具体步骤步骤一:建立分类对象集上的模糊相似关系,构造模糊图:(1)计算各个分类对象之间的相似性统计量r.,/,y= l,2,,n ,建立分类对象集Z上的模糊相似关系瓦=h;、 L tj(2)将表示成由个结点所构成的模糊图6二|,五1,使G中的任意两个结点与Xj之间都有一条边相连接,且赋该边的权值为r,j.步骤二:构造模糊图G上的最大模糊支撑树:;:(1)找出图G中最大权值的边?;(2)将存放在集合C中,将边上的新结点放入集合r中,若r中已含有所有?个结

22、点时,转至(4);(3)检查r中每个结点与r外的结点组成的边的权值,找出其中最大者转至(2);(4)结束,此时G中的边就构成了G的最大模糊支撑树!;?.步骤三:由最大模糊支撑树进行聚类分析:选择某一个值对炎,=j作截集,将r中小于的边断开,使相连的各结点构成一类,当a由1下降到0时,所得到的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图.推荐精选2. 2. 4基于目标函数的模糊聚类分析15第2章聚类分析及:U:应用实例实际中最常用的是基于目标函数的模糊聚类方法,即把聚类归结成一个带约束的非线性规划问题,通过优化求解获得数据集的模糊划分和聚类.该方法具有设计简单、解决问

23、题的范围广、可转化为优化问题而借助经典数学非线性规划理论求解以及易于在计算机上实现等诸多方面的优点,因而深受广大学者的喜欢,成为最常用的一种聚类分析方法.伴随着计算机的应用和发展,基于目标函数的模糊聚类算法成为新的研究热点在基于目标函数的聚类算法中模糊C均值(FCM,Fuzzy c-Means)类型算法的理论最为完善、应用最为广泛.模糊C均值类型的算法最早是从硬聚类目标函数的优化中导出的.为了借助目标函数法求解聚类问题,人们利用均方逼近理论构造了带约束的非线性规划函数,从此类内平均误差和(WGSS, Within-Groups Sum ofSquared Error) J,成为聚类目标函数的普

24、遍形式.为极小化该目标函数而采取的Pikard迭代优化方案就是著名的硬C均值(HCM)算法和ISODATA(IterativeSelf-Organizing Data Analysis Technique A)算法?模糊划分概念提出后,Dunn首先把WGSS函数J,扩展到J2类内加权平均误差和函数,后来Bezdek又引入一个参数m,把推广到一个目标函数的无限族,并给出了交替优化(AO,Alternative Optimization)算法,即为人们所熟知的FCM算法?从此,奠定了 FCM算法在模糊聚类中的地位.下面我们从以下几个方面来逐步介绍基于目标函数的推荐精选模糊聚类分析法3.(1)数据集

25、的e划分给定数据集; = ,1:,.,1?;1/?-为模式空间中个模式的一组有限观测样本集,X,;eiT为观测样本&的特征矢量或模式矢量,对应特征空间中的一个点,Xkj为特征矢量Xk的第_/维特征上的赋值.对给定样本集X的聚类分析就是要产生i的C划分由上面有关聚类分析的数学模型可知,数据集I的C划分得到的C个子集如果满足下式的条件,则称之为X的硬C划分uZc =jr X0 Xk = i k c (2-27)X,X,ic如果用隶属函数/,vt =表示样本X与子集毛的隶属关系,则硬C划分也可以用隶属函数表示,即用C个子集的特征函数值构成的矩阵16第2帝聚类分析及其应用实例个矢量间的距离来度量.J、

26、CJ,P)表示了各类中样本与其典型样本的误差平方和.利用/?,Ji(?7,P)也可以表示为J人=推荐精选伙1k= /=132)e Mhc聚类准则为寻求最佳对以使得在满足& 条件下为最小.解决这类优化问题最常用的方法是用迭代法求取的近似最小值Dunn按照Ruspini定义的模糊划分的概念,把硬聚类的目标函数推广到模糊聚类的情况.为了避免产生平凡解,保证这一推广有意义,Dunn对每一个样本与每类原型间的距离用其隶属函数平方加权,从而把类内误差平方和目标函数扩展为类内加权误差平方和目标函数1 k= /=1 l-66)s.tU e Mjc(3)模糊c均值聚类算法为了优化聚类分析的目标函数,人们提出了现

27、在相当流行和应用广泛的模糊c均值(FCM, Fuzzy c-means)聚类算法.该算法是从硬c均值(HCM, Hard c-means)聚类算法发展而来的HCM算法用于求解满足式中的尸)为最小时的分类结果.以下给出FCM算法的具体步骤?:初始化:给定聚类类别数C,2cn, ?是数据个数,设定迭代停止阀值h初始化聚类原型模式p(),设置迭代计数器6 = 0;步骤一:用下面两式计算或更新划分矩阵t/(十对于V/,A:,如果则有 2 11 _1推荐精选,、 C f Ab)必=L ik(2-34)y=i jk J如果3/,r,使得)=0,则有= 1,且对y 本 r,ju-p = 0(2-35)18%

28、2章聚类分析及其应用实例步骤二 :用下式更新聚类原型模式矩阵p 产、二过, / = 1,2.-.,C(2-36)1(”广k=步骤三:如果则算法停止并输出划分矩阵t/和聚类原型尸,否则令6 = Z) + l,转向步骤一.其中I.I为某种合适的矩阵范数.对于HCM算法的具体步骤,大家可以参照西安电子科技大学出版社出版的由高新波著作的模糊聚类分析及其应用一书.FCM算法还具有另一种形式,即从初始化模糊划分矩阵开始,先用上一公式计算聚类原型(中心)矩阵,然后用上上公式更新模糊分类矩阵,直到满足停止准则为止.由以上算法不难看出,整个计算过程就是反复修改聚类中心和分类矩阵的过程,因此常称这种方法为动态聚类

29、或者逐步聚类法.几经修补,该算法的收敛性已推荐精选经得以证明:FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数的局部极小点或鞍点.对于满足下列条件的集合FCM算法可以收敛到局部最优解,这样的被称作模糊聚类的解集1:VUeM,J(uP)J (U, P)(2-37)jprj?up)jup)(2-38第2章聚类分析及其应用实例U = /? ?来表示.矩阵t/中的第/行为第/个子集的特征函数,而矩阵t/中的第A歹J为样本相对于c个子集的隶属函数“.则工的硬C划分空间为=jt/e e 0,1,Va; J/,* = l,V;t;0 ?, / (2-28)I/=1k=JRuspini利用模糊

30、集理论把隶属函数/,从0,1 二值扩展到0,1区间,从而把硬C划分概念推广到模糊C划分,因此X的模糊C划分空间为M,. =|t/ ee 0,4V/,A:;文/,女=1,VA:;0 n,V/l (2-29)/=1k=J由于模糊划分可以得到样本分属于各个类别的不确定性程度,建立了对于类别的不确定性的描述,因此更能客观地反映现实世界在划分结果中,模糊划分还能指明划分的外围、不同划分块间的衔接和离散的情况,因此能挖掘出更多的A细节信息,推荐精选对于硬划分的情况,若试图将个数据样本分为C类且每类不空,则存在M个可能的分类结果?,M =丄 Jc;?(1)(.-r(2-30)机 0,也就是说Y的P个分量按方

31、差由大到小排列.性质 2 ZA, =5,/=1 /=1即各主成分的方差之和与原始变量的方差之和相等,也就是说变化之后没有信息损失24.性质 3=, i,j = X-,PaK称第k个主成分;与原始变量jsr,的相关系数pUpZ,)为主成分载荷.主成分载荷的绝对值大小刻画了该主成分的主要意义及其成因,它是主成分解释中非推荐精选常重要的依据.从性质3可知主成分载荷piYk, X,)与系数向量Uk,成正比,与X、的标准差成反比关系.如果对随机向量进行标准化,即以相关矩阵为分析矩阵时,(T? = 1 ,则对于X,,主成分载荷的表达式为/7(”,) = &力,由于对于不同X,Va是固定的,所以此时主成分载

32、荷仅仅依赖于转换向量系数.3. 3. 3主成分的选取定义(/ = 1,2,p)为第k个主成分Ft的方差贡献率,IA/=1m(mp)为前m个主成分的累积贡献率?主成分分析的/=1目的之一在于减少变量的个数,所以通常会选取mp个主成分.一般根据累积方差贡献率来确定m的数值,累积方差贡献率;越大,表明通过选取的少数/=/几个主成分解释随机向量X的差异的能力越强.实际应用中通常取m使得26第3章主成分分析及冗应用实例个变量的均值为0,标准差为1.在主成分分析的计算中,选择以协方差矩阵还是相关矩阵为基础计算得到的结果截然不同。在各个变量的相差范围不大或者各个变量的度量单位相同的条件推荐精选下,我们采取的

33、是协方差矩阵计算;相反的,当取值范围很广或者度量单位不尽相同的时候,我们就用相关矩阵进行计算。为了消除不合理的结果,我们常常先对数据进行标准化处理,使得协方差矩阵就是相关矩阵,这样也就是从相关矩阵的角度来求解。这样的计算可以使主成分向量具有与总体主成分相同的性质。2.总体主成分和样本主成分另外需要指出的是实际研究中 的协方差矩阵2:和相关矩阵R通常是未知的,需要通过样本数据估计.对于原始资料矩阵式(3.1),当X为总体资料矩阵时:(? ?)(? 一)(3-5)_ 1 “ 1 X, = - ?IX i,j = l,2,.,pn k=、“ i=i当X为样本资料阵时:tSy 二 Z (? - A )

34、(? -?)(3-6)k 1 n 飞 1 n,x,=1? , ?= 2,-,pS为样本协方差矩阵,作为总体协方差矩阵2的无偏估计.下面的讨论仅针对原始数据为总体资料矩阵,即针对协方差矩阵2,对于样本资料矩阵只需要样推荐精选本矩阵S代替5:就可以了.3.主成分求解方法假设,X, , . . . , 的协方差矩阵2有非零特征根, A,.,义,各个特征根分别对应特征向量,,以为系数向量可以得到¥=1广,分别为随机向量X的第一主成分、第二主成分.第P主成分.3. 3. 2主成分的性质本文的重点在于相关方法的实际应用,因而所涉及到的性质、定理等都不进25第3京主成分分析及其应用实例对X进行线性变换,可以

35、形成新的综合变量,用Y表示23,gp =iii +122 +. +?_ =211 +222 + + 2pp(3-3)/7 = /71 尤1 + UpiXi +? + UppXp其中,p).则我们可以将原始资料整理为以下矩阵22:推荐精选Xii 12 2 X22 “ 2p-A .?2 np_(3-1)X可以用向量形式表示为Z = (Z?X?-,X).(3-2)23第3章主成分分析及KKy:ffl实例Xa,85%.这样既能使损失信息不多,又可以达到减少变量、简化问题的目/=/的25.另外,选取主成分还可以根据特征值的变化来确定,从图3-1,即所谓的碎石图可以看出从第3个变量开始特征值变化的趋势己经

36、开始趋于平稳,所以选取前三个主成分是比较合适的.这种方法确定的主成分个数与累积贡献率确定的主成分往往是一致的.实际应用中也常常仅保留特征值大于1的那些主成分,但是这种方法还缺乏完善的理论支持25】.特征5厂浪推荐精选4 -2 1 - ,0 I1II11234567图3-1碎;丨閱1Picture3-1 Scree Plot 1第3章主成分分析及31:应用实例根据SPSS运行结果,表3-2是特征根和方差贡献度表,这里初始特征值就是数据相关阵的特征值,相当于前面介绍的5个主轴长度.可以看出前面两个主成分特征值累积占了总方差的73. 750%.后面的特征值的贡献越来越少,由于我们选择了特征值大于1作

37、为主成分的抽取条件,所以这里SPSS抽取了两个主成分,其特征值分别为2. 613和1.074.从特征值的碎石图(图3-2)也可以看出抽取前两个主成分是合理的.推荐精选表3-2方差累积贡献度Table3-2 Total Variance Explained解释的总方差初始特征值取平方和载;味份 合计 方差的 累积 合计 方差的 累积12.61 3 52.269 52.269 2.613 52.269 52.26921.074 21.481 73.750 1.074 21.481 73.7503.565 1 1.293 85.0434.439 8.777 93.8205.309 6.1 80 1

38、00.000提取方法:主成份分析.mm3.0-2.0- 45:机 1.5-推荐精选似 V1.0-。5-0.0-(111112345图3-2碎石图2Picture3-2 Scree Plot 2怎么解释这两个主成分呢?前面说过主成分是5个原始变量的线性组合,是怎么样的组合呢? SPSS可以输出下面的表3-3,这里的每一列代表一个主成分作为原始变量线性组合的系数(比例),这些系数称为主成分载荷(Loading),它283.4主成分分析在学生成绩评价中的应用实例本节是应用SPSS软件和主成分分析法对学生成绩进行评价的具体应用。这里我们选用45个学生的力学、物理、代数、分析、统计的成绩,见表3-1 (

39、只推荐精选展示了一部分).我们需要用一两个综合变量来表示这个数据的5个变量.表3-1原始数据表TableS! Original Data TableI 学丨牧1? I i-m I分析I统il-196278963m96470788357878786T&79887mm838TA777197775737785107975776027第3 p.主成分分析及其应用实例表示主成分和相应的原始变量的相关系数,比如第一主成分作为力学、物理、代数、分析、统计这5个原始变量的线性组合,系数(比例)为0.622, 0.673,0.848,0.803,0.640.这就是说第一主成分和力学变量的相关系数为0.622,和

40、物理变量的相关系数为0.673,依此类推.相关系数(绝对值)越大,表明主推荐精选成分对该变量的代表性也越大.可以看出,第一主成分对各个变量解释的都很充分,而第二主成分与原始变量相关度就要低一些.可以把第一和第二主成分的载荷点画出一个二维图以直观地显示它们是如何解释原来的变量的,这个图叫做载荷图(见图3-3).图中右上面两个点是力学(闭卷)、物理(闭卷)两科,右下面三个点是代数(开卷)、分析(开卷)、统计(幵卷)三科,各个点的坐标就是图3-3中第一、第二列中的数值.由此可知,第一主成分主要与试卷类型一闭卷有关,可以命名为闭卷主成分,而第二主成分主要与试卷类型一开卷有关,可以命名为开卷主成分.有了

41、对主成分的这个认识,我们就可以利用主成分的分析结果(如每个学生的这两个主成分的得分)进行进一步的分析,例如可以判断出幵闭卷考试对不同学生成绩的影响?表3-3主成分载荷Table3-3 Principal Component Loads成份矩tp成j分12力学(闭卷).622.593物理(闭卷).673,440代数(开卷).848 -.020分析(开卷).803 -.269统计(开卷).640 -.675提取方法:主成分分析法。a.已提取了 2个成份。推荐精选成分W1 0-OS-均 *巧 U.。0分 O.D ?n- U ,/ = 1,2,_,;)称为变量1,的共同戶1推荐精选度,表示原始变量X,

42、与所有公共因子的关系.DXfDiayFI + De, 人 DFj + af =fal+af=h+oj(47)_/=丨y=丨y=i故变量Z,的方差由两部分组成,一部分为共同度/7,2, ;?,2描述全部公共因子对变量的总方差的贡献,共同度越大,说明公共因子包含的的信息越多,影响就越大;另一部分为特殊因子,对变量X,的方差的贡献,通常称为个性方差33.又已标准化,进一步有+af 二 ?(义,)=1(/ = 1,2广.,厂)(4-8)3.公共因子的方差贡献的统计意义因子载荷矩阵A中列的平方和S =X40 =(4-9)/=1称为公共因子Fy.对X的贡献,表示同一个公共因子对X的每一分量义,(/ = 1,2,.,;?)所提供的方差贡献之总和,反映了公共因子Fy.与

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!