几种多元统计分析资料报告方法及其在生活中地指导应用1

上传人：沈*** 文档编号：100255777 上传时间：2022-06-02 格式：DOC 页数：49 大小：98.50KB

收藏版权申诉举报下载

第1页 / 共49页

第2页 / 共49页

第3页 / 共49页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《几种多元统计分析资料报告方法及其在生活中地指导应用1》由会员分享，可在线阅读，更多相关《几种多元统计分析资料报告方法及其在生活中地指导应用1（49页珍藏版）》请在装配图网上搜索。

1、文档第2章聚类分析与其应用实例2. 1聚类分析简介聚类分析是根据“物以类聚的道理，对样品或指标进展分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性來进展合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进展的。聚类分析方法有很多，按不同的分类方式，有不同的分类。按聚类方法的不同可分为以下几种：(1)系统聚类法：对所在的指标进展分类，每一次将最相似的两个数据合并成一类，合并之后和其他数据的距离会重新计算，这个步骤会不断重复下去直至所有指标合并成一类，并类的过程可用一谱系聚类图描述.(2)调优法动态聚类法：所谓调优法，从外表意思就可以看出是在对n个对

2、象初步分类后，根据分类后的信息损失尽可能小的原如此对分类进展择优调整，直到分类合理为止.(3)有序样品聚类法：在很多实际问题中，所谓的样品都是相互独立的个体，因此可以平等的划分。但是有序样品聚类法的存在就是因为在另外一些实际问题中，样品之间是存在着某种联系而在分类中是不允许打乱顺序的。有序样品聚类法开始时将所有样品归为一类，然后根据某种分类准如此将其分为二类等等，一直往下分类下去直至满足分类要求。它的思想正好与系统聚类法的相反。(4)模糊聚类法：利用模糊聚集理论来处理分类问题，它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法：在处理分类问题中独创性的引入了图论

3、中最小支撑树的概念。(6)聚类预报法：顾名思义，就是用聚类分析的方法来在各个领域中进展预报。在多元统计分析中，判别分析、回归分析等方法都可以用来做预报，但是在一些异常数据面前，这些方法做的预报都不是很准确，方法也不好准确的实施，而聚类预报如此很好的解决了这一点。可以预见，聚类预报法经过更深入的研究后，一定会得到更加广泛的应用。按聚类对象的不同，聚类分析可分为2型对样品CASES)聚类与型对变量VARIABLE)聚类，两种聚类在方法和步骤上都根本一样.2. 2聚类分析方法介绍数学方法在实际应用中是否受欢迎，最主要的一点就是它能不能适用于大型6第2章聚类分析与.11；应用实例计算的问题。图论聚类法

4、、基于等价关系的聚类方法和谱系聚类法在大型问题中难以快速有效处理数据而应用甚少。基于目标函数的聚类方法因其设计简单，在实际生活中被广泛运用，其主要思想是将问题转换为带约束条件的非线性优化，这样就可以运用完备的线性最优化知识解决问题，而且这种方法也易于在计算机上实现。而伴随着计算机技术的突飞猛进，基于目标函数的聚类方法必定会成为研究的热点。2. 2. 1谱系聚类方法在待分析样本数较小时，通常采用谱系聚类方法系统聚类法。谱系聚类法是按距离准如此来对样本进展分类的，例如我们要将样本集X中的个样本划分为C类。那么算法的实现过程如下：首先令这个样本各自为一个类，此时，总的类数为;其次，计算这/7个类别之

5、间的相互距离，合并距离最小的两个样本，这样总得分类数就只有个；然后计算新形成的个类别之间的距离，同样合并最小的两个类，使类别减少为n-2个，依此原如此，继续合并；最后，当总的类别只剩下C类时，停止计算，分类完毕，此时的C类就是聚类的结果。需要注意的是，在此过程中，计算类与类之间的距离的方法有很多种，具体选择什么方法，需要视具体情况而定。计算类间距离的方法，后续也会有比拟详细的介绍。根据上述聚类原如此，我们很快可以知道，对于样本集里的任意两个样本X和Xj它们总是可以聚类到一个类别中去。“上述所介绍的，只是谱系聚类算法中的一种，这种算法一般称为聚集法，它比拟适合于类别比拟多的时候，当类别较少时，用

6、此种方法就显得计算量非常的大，使得分类效率不高；另一种谱系聚类算法叫做分裂法，它与聚集法初始时将所有样本卑独分成一类刚好相反，它是将所有样本当成一类，然后在将某些样本别离出去，形成其他的类别，这样就节省了相当一局部的计算量。在实际运用中，具体选择哪种方法来聚类就得以具体情况为准。上述算法中的分类仅仅依靠样本间的距离或者类间距离，因而，距离的计算决定了分类结果。距离的计算种类有：闽可夫斯基距离包括街区距离、欧氏距离和切比雪夫距离等，也可以选择马氏距离、角度相似性函数或者Taniraoto测度。其中马氏距离定义DI = - m) C - m)(21)k是排除了模式样本之间的相关性影响.比如，我们取

7、一个模式特征向量，可能有九7第2章聚类分析与用实例如果B类是由E和F两类合并而成的，如此有2.最长距离法9】与上述相似，两个聚类A和B间的最长距离定义为=maxi/J a e e 5(25)同样地，如果B类是由E和F两类合并而成的，贝max3.中间距离法9如果B类是由E和F两类合并而成的，如此A类和B类之间的距离为(2-6)它介于最长距离和最短距离之间.上述定义的类间距离没有考虑每一类中包含的样本数目，如果E类中有个fP/工、代替中_距离、法中的系数，即得：重心、法的类与类之间的距离递推公/l?A- +?/；式为D,. ?(2-7)V n, + n,n, +n,(?/:.+?,)5.类平均距离

8、法9如果采用类间所有距离的平均距离，如此有Da,B =Yj Ih(2-8)VoA,heB不难得到类平均距离的递推公式为D,、b =(2-9)V ?/ + nn,. + n,-种定义类间距离的方法，可采用统一的递推公式： EAJi + FAJ七 PD丨“1: + 7DJ； -2-10)由此，我们可以得到五种类间距离递推公式中的权系数，如表1所示，其中9第2章聚类分析与ji；应用实例n, n, +n,即B类样本数目是E和F类样本的合并。表2-1统一类间距离递推公式中的权系数Table2-1 The Weight Coefficient in The Recurrence Formula of Di

9、stance Between theUnified Class方法a、: a,.P7空间性质最短距离法 0. 5 0.50 -0.5HI缩最长距离法 0.5 0.500.5扩类间平均距离法 nJriB ?/./00保持重心法/;/?- n,:/1, / nl 0保持中间距离法 0.5 0.5 -0.25 02. 2. 2基于等价关系的聚类方法由离散数学中关于关系的描述我们知道，定义在集合Z = ;c,，x,上的关系如果具有自反性、对称性和传递性如此被称为等价关系.设义是一给定集合，尤，是它的子集，如果满足9】：X! nXj 二 (j)， V/,7 = 1,2,? max|X丨k(2-13)11

10、笫2苹聚类分析与;用实例即合成的传递闭包：巧=充。瓦.，R:=Ror；,这样下去，就必然存在一个自然数I使得巧* = R。紀?这时，便是一个模糊等价关系了.在此根底上，我们就可以利用不同水平下的截集得到该水平上的聚类结果，所有不同水平的聚类结果形成聚类的谱系图9。2. 2. 3图论聚类方法图论聚类方法最早是由Zahn提出来的，又称作最大小支撑树聚类算法.(Path ) P是一系列连接的结点，P =x,，X2，.,Xa.+,，其中对V/ e (0,Ar),(x,x,+|)e E ；如果图G中没有一条非零长度的路径P =,且X, =Xh,，如此称图G不包含环Cycle);图G的支撑树是指由连接所有

11、结点的?-1条边构成的无环图pr，r.显然，一个图中当且仅当任意两对结点之间只有一条路径时才是树，通常在一个图G中可以构造多个支撑树1,7；如果我们给图中每条边e赋以权值，那么所谓的最小支撑树Minimum SpanningTree, MST)是指满足如下条件的支撑树：w(MST ) = minj w(e)|对于一棵树如果移去一条边e,如此生成两组连通的结点jc又和A=X-A,我们定义y为共环边，0 = |e,.-|x, e A,Xj- e A,A = X -jj(2-26)也就是说，f为图X,G中连接两组节点J和：？的一组边；森林是指不包含环的非联通图，其中的每一个联通的局部被称为一棵树。下

12、面的定理给出了构造最小支撑树的充分必要条件.即：是图G的最小支撑树的充分必要条件是，对于所有的边其共环边y满足14第2帝聚类分析与其应用实例Z= e =丨(221)1i = jr =M(2-22)ys3?I i* j.i=l这里，M是一个适当选取的数，使得SI.在实际应用中，由于所获取的分类对象的数据比拟复杂，往往不是0,1区间中的数，因此首先需要把各个原始数据标准化.假设被分类的对象一共有n个，对于每一维特征Xt共有个原始数据，设为x;x2，x:p把它们叫做这一特征的各个元素.为了把这些数据标准化，首先计算每一维特征的均值和方差iG:=-1? (2-23)H /=1n /=1下式2.24)是

13、求数据标准化值X；的公式X：(2-24)Sk对上式2.24)求出的值进展极值标准化，就能确保所有被标准化为0，1闭区间的值，极值标准化公式为：?5 -:?“(2-25)max 工 Amin上式中，是指x;，x丨中的最大值，而指最小值-得到待分类对象集X上定义的模糊相似性关系足后，还要进一步改造成为模和对称性，但一般而言并不满足传递性，也就是说，它并不是模糊等价关系.因此，为了聚类我们必须采用传递闭包的性质，将这种模糊相似性关系足改造为模糊等价关系民9。13第2韋聚类分析与jl;应用实例6 rT = ), we) ws), s 0人s * e).在传统的图论聚类分析，首先把待分类的对象X =

14、xi，x2,，看作一个全连接的无向图G = 中的结点，然后给每一条边赋以权值，比如我们可以用任意两个结点(X, Xj)在特征空间的汉明距离定义边e丨J (1 /，j n)的权值为we,j) = |x, - Xj II, x,xj e X然后，我们再对该组对象进展聚类分析，其具体步骤再次就不多讲.下面，我们主要介绍模糊最大支撑树算法的具体步骤步骤一：建立分类对象集上的模糊相似关系，构造模糊图：(1)计算各个分类对象之间的相似性统计量r.,/,y= l,2,，n ,建立分类对象集Z上的模糊相似关系瓦=h；、 L tj(2)将表示成由个结点所构成的模糊图6二|，五1，使G中的任意两个结点与Xj之间都

15、有一条边相连接，且赋该边的权值为r,j.步骤二：构造模糊图G上的最大模糊支撑树：；：(1)找出图G中最大权值的边?；(2)将存放在集合C中，将边上的新结点放入集合r中，假如r中已含有所有?个结点时，转至4);(3)检查r中每个结点与r外的结点组成的边的权值，找出其中最大者转至(2)；(4)完毕，此时G中的边就构成了G的最大模糊支撑树!；?.步骤三：由最大模糊支撑树进展聚类分析：选择某一个值对炎,=j作截集，将r中小于的边断开，使相连的各结点构成一类，当a由1下降到0时，所得到的分类由细变粗，各结点所代表的分类对象逐渐归并，从而形成一个动态聚类谱系图.2. 2. 4基于目标函数的模糊聚类分析15

16、第2章聚类分析与：U:应用实例实际中最常用的是基于目标函数的模糊聚类方法，即把聚类归结成一个带约计简单、解决问题的围广、可转化为优化问题而借助经典数学非线性规划理论求解以与易于在计算机上实现等诸多方面的优点，因而深受广阔学者的喜欢，成为最常用的一种聚类分析方法.伴随着计算机的应用和开展，基于目标函数的模糊聚类算法成为新的研究热点在基于目标函数的聚类算法中模糊C均值FCM，Fuzzy c-Means)类型算法的优化中导出的.为了借助目标函数法求解聚类问题，人们利用均方逼近理论构造了带约束的非线性规划函数，从此类平均误差和WGSS, Within-Groups Sum ofPikard迭代优化方案

17、就是著名的硬C均值HCM)算法和ISODATA(IterativeSelf-Organizing Data Analysis Technique A)算法?模糊划分概念提出后，Dunn首先把WGSS函数J,扩展到J2类加权平均误差和函数，后来Bezdek又引入一个参数m，把推广到一个目标函数的无限族，并给出了交替优化AO,Alternative Optimization)算法，即为人们所熟知的FCM算法?从此，奠定了 FCM模糊聚类分析法3.(1)数据集的e划分给定数据集； = ,1:，.,1?；1/?-为模式空间中个模式的一组有限观测样本集，X,;eiT为观测样本&的特征矢量或模式矢量，对应

18、特征类分析就是要产生i的C划分由上面有关聚类分析的数学模型可知，数据集I的C划分得到的C个子集如果满足下式的条件，如此称之为X的硬C划分uZc =jr X0 Xk = i k c (2-27)X,X,ic如果用隶属函数/,vt =表示样本X与子集毛的隶属关系，如此硬C划分也可以用隶属函数表示，即用C个子集的特征函数值构成的矩阵16第2帝聚类分析与其应用实例个矢量间的距离来度量.J、CJ，P)表示了各类中样本与其典型样本的误差平方和.利用/?，Ji(?7，P)也可以表示为J人=伙1k= /=132)e Mhc聚类准如此为寻求最优对以使得在满足& 条件下为最小.解决这类优化问题最常用的方法是用迭代

19、法求取的近似最小值Dunn按照Ruspini定义的模糊划分的概念，把硬聚类的目标函数推广到模糊聚类的情况.为了防止产生平凡解，保证这一推广有意义，Dunn对每一个样本与每类原型间的距离用其隶属函数平方加权，从而把类误差平方和目标函数扩展为类加权误差平方和目标函数1 k= /=1 l-66)s.tU e Mjc(3)模糊c均值聚类算法为了优化聚类分析的目标函数，人们提出了现在相当流行和应用广泛的模糊c均值FCM, Fuzzy c-means)聚类算法.该算法是从硬c均值HCM, Hard c-means)聚类算法开展而来的HCM算法用于求解满足式中的尸)为最小时的分类结果.以下给出FCM算法的具

20、体步骤?:初始化：给定聚类类别数C，2cn, ?是数据个数，设定迭代停止阀值h初始化聚类原型模式p(),设置迭代计数器6 = 0;步骤一：用下面两式计算或更新划分矩阵t/(十对于V/,A：,如果如此有 2 11 _1,、 C f Ab)必=L ik(2-34)y=i jk J如果3/，r，使得)=0,如此有= 1,且对y 本 r,ju-p = 0(2-35)18%2章聚类分析与其应用实例步骤二：用下式更新聚类原型模式矩阵p 产、二过， / = 1,2.-.,C(2-36)1(广k=步骤三：如果如此算法停止并输出划分矩阵t/和聚类原型尸，否如此令6 = Z) + l，转向步骤一.其中I.I为某

21、种适宜的矩阵数.对于HCM算法的具体步骤，大家可以参照电子科技大学出版的由高新波著作的模糊聚类分析与其应用一书.FCM算法还具有另一种形式，即从初始化模糊划分矩阵开始，先用上一公式计算聚类原型中心矩阵，然后用上上公式更新模糊分类矩阵，直到满足停止准如此为止.由以上算法不难看出，整个计算过程就是反复修改聚类中心和分类矩阵的过程，因此常称这种方法为动态聚类或者逐步聚类法.几经修补，该算法的收敛性已经得以证明：FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函到局部最优解，这样的被称作模糊聚类的解集1:VUeM,J(uP)J (U, P)(2-37)jprj?up)jup)(2-38第2

22、章聚类分析与其应用实例U = /? ?来表示.矩阵t/中的第/行为第/个子集的特征函数，而矩阵t/中的第A歹J为样本相对于c个子集的隶属函数“.如此工的硬C划分空间为=jt/e e 0,1，Va; J/,* = l,V;t;0 ?, / (2-28)I/=1k=JRuspini利用模糊集理论把隶属函数/,从0,1 二值扩展到0,1区间，从而把硬C划分概念推广到模糊C划分，因此X的模糊C划分空间为M,. =|t/ ee 0,4V/，A：;文/,女=1，VA:;0 n,V/l (2-29)/=1k=J由于模糊划分可以得到样本分属于各个类别的不确定性程度，建立了对于类别的不确定性的描述，因此更能客观

23、地反映现实世界在划分结果中，模糊划分还能指明划分的外围、不同划分块间的衔接和离散的情况，因此能挖掘出更多的A细节信息，对于硬划分的情况，假如试图将个数据样本分为C类且每类不空，如此存在M个可能的分类结果?，M =丄 Jc;?(1)(.-r(2-30)机 0，也就是说Y的P个分量按方差由大到小排列.性质 2 ZA, =5,/=1 /=1即各主成分的方差之和与原始变量的方差之和相等，也就是说变化之后没有信息损失24.性质 3=， i,j = X-,PaK分载荷的绝对值大小刻画了该主成分的主要意义与其成因，它是主成分解释中非常重要的依据.从性质3可知主成分载荷piYk, X,)与系数向量Uk,成正比

24、，与X、的标准差成反比关系.如果对随机向量进展标准化，即以相关矩阵为分析矩阵时，(T? = 1 ,如此对于X,，主成分载荷的表达式为/7(,) = &力，由于对于不同X,Va是固定的，所以此时主成分载荷仅仅依赖于转换向量系数.3. 3. 3主成分的选取定义(/ = 1,2,p)为第k个主成分Ft的方差贡献率，IA/=1m(mp)为前m个主成分的累积贡献率?主成分分析的/=1方差贡献率来确定m的数值，累积方差贡献率;越大，明确通过选取的少数/=/26第3章主成分分析与冗应用实例个变量的均值为0,标准差为1.在主成分分析的计算中，选择以协方差矩阵还是相关矩阵为根底计算得到的结果截然不同。在各个变量

25、的相差围不大或者各个变量的度量单位一样的条件下，我们采取的是协方差矩阵计算；相反的，当取值围很广或者度量单位不尽一样的时候，我们就用相关矩阵进展计算。为了消除不合理的结果，我们常常先对数据进展标准化处理，使得协方差矩阵就是相关矩阵，这样也就是从相关矩阵的角度来求解。这样的计算可以使主成分向量具有与总体主成分一样的性质。另外需要指出的是实际研究中的协方差矩阵2：和相关矩阵R通常是未知的，需要通过样本数据估计.对于原始资料矩阵式3.1)，当X为总体资料矩阵时：(? ?)(? 一)(3-5)_ 1 “ 1 X, = - ?IX i，j = l，2，.，pn k=、“ i=i当X为样本资料阵时：tS

26、y 二 Z (? - A )(? -?3-6)k 1 n 飞 1 n，x,=1? , ?= 2,-,p对原始数据为总体资料矩阵，即针对协方差矩阵2，对于样本资料矩阵只需要样本矩阵S代替5：就可以了.假设，X, , . . . , 的协方差矩阵2有非零特征根, A,.,义，各个特征根分别对应特征向量，,以为系数向量可以得到￥=1广，分别为随机向量X的第一主成分、第二主成分.第P主成分.3. 3. 2主成分的性质本文的重点在于相关方法的实际应用，因而所涉与到的性质、定理等都不进25第3京主成分分析与其应用实例对X进展线性变换，可以形成新的综合变量，用Y表示23，gp =iii +122 +. +?

27、_ =211 +222 + + 2pp(3-3)/7 = /71 尤1 + UpiXi +? + UppXp其中，p).如此我们可以将原始资料整理为以下矩阵22:Xii 12 2 X22 “ 2p-A .?2 np_(3-1)X可以用向量形式表示为Z = (Z?X?-,X).(3-2)23第3章主成分分析与KKy:ffl实例Xa,85%.这样既能使损失信息不多，又可以达到减少变量、简化问题的目/=/的25.另外，选取主成分还可以根据特征值的变化来确定，从图3-1，即所谓的碎石图可以看出从第3个变量开始特征值变化的趋势己经开始趋于平稳，所以选取成分往往是一致的.实际应用中也常常仅保存特征值大于1

28、的那些主成分，但是这种方法还缺乏完善的理论支持25】.特征5厂浪4 -2 1 - ,0 I1II11234567图3-1碎;丨閱1Picture3-1 Scree Plot 1第3章主成分分析与31:应用实例根据SPSS运行结果，表3-2是特征根和方差贡献度表，这里初始特征值就成分特征值累积占了总方差的73. 750%.后面的特征值的贡献越来越少，由于我们选择了特征值大于1作为主成分的抽取条件，所以这里SPSS抽取了两个主成分，其特征值分别为2. 613和1.074.从特征值的碎石图图3-2)也可以看出抽取前两个主成分是合理的.表3-2方差累积贡献度Table3-2 Total Varianc

29、e Explained解释的总方差初始特征值取平方和载；味份合计方差的累积合计方差的累积1234提取方法：主成份分析.mm2.0- 45：似 V。5-(111112345图3-2碎石图2Picture3-2 Scree Plot 2怎么解释这两个主成分呢？前面说过主成分是5个原始变量的线性组合，是怎么样的组合呢？ SPSS可以输出下面的表3-3,这里的每一列代表一个主成分作为原始变量线性组合的系数比例，这些系数称为主成分载荷Loading)，它28本节是应用SPSS软件和主成分分析法对学生成绩进展评价的具体应用。这里我们选用45个学生的力学、物理、代数、分析、统计的成绩，见表3-1

30、 (只展示了一局部.我们需要用一两个综合变量来表示这个数据的5个变量.表3-1原始数据表TableS! Original Data TableI 学丨牧1? I i-m I分析I统il-196278963m96470788357878786T&79887mm838TA777197775737785107975776027表示主成分和相应的原始变量的相关系数，比如第一主成分作为力学、物理、代数、分析、统计这5个原始变量的线性组合，系数比例为0.622, 0.673，0.848，0.803，0.640.这就是说第一主成分和力学变量的相关系数为0.622,和物理变量的相关系数为0.673，依此类推.

31、相关系数绝对值越大，明确主成分对该变量的代表性也越大.可以看出，第一主成分对各个变量解释的都很充分，而第二主成分与原始变量相关度就要低一些.可以把第一和第二主成分的载荷点画出一个二维图以直观地显示它们是如何解释原来的变量的，这个图叫做载荷图见图3-3).图中右上面两个点是力学闭卷、物理闭卷两科，右下面三个点是代数开卷、分析开卷、知，第一主成分主要与试卷类型一闭卷有关，可以命名为闭卷主成分，而第二主认识，我们就可以利用主成分的分析结果如每个学生的这两个主成分的得分进展进一步的分析，例如可以判断出幵闭卷考试对不同学生成绩的影响?表3-3主成分载荷Table3-3 Principal ponent

32、Loads成份矩tp成j分12力学闭卷.622.593物理闭卷.673,440提取方法：主成分分析法。a.已提取了 2个成份。成分W1 0-OS-均 *巧 U.。0?n- U ,/ = 1,2,_,;)称为变量1,的共同戶1度，表示原始变量X,与所有公共因子的关系.DXfDiayFI + De, 人 DFj + af =fal+af=h+oj(47)_/=丨y=丨y=i故变量Z,的方差由两局部组成，一局部为共同度/7,2, ；?,2描述全部公共因子对变量的总方差的贡献，共同度越大，说明公共因子包含的的信息越多，影响就越大；另一局部为特殊因子,对变量X,的方差的贡献，通常称为个性方差33.又已标

33、准化，进一步有+af 二 ?(义,)=1(/ = 1,2广.，厂(4-8)因子载荷矩阵A中列的平方和S =X40 =(4-9)/=1称为公共因子Fy.对X的贡献，表示同一个公共因子对X的每一分量=的关系，是衡量公共因子相对重要性的指标.g，越大，明确公共的所有g)(y = l，2,_.,m)并按大小排序，就可以提炼出最有影响力的公共因子34.4. 3. 1因子载荷阵的求解要建立实际问题的因子模型，关键要根据样本数据估计因子载荷矩阵A，对A的估计有许多方法，这里仅介绍霍特林H. Hotelling)创立的，现在使用较为普遍的主成分方法.33第4京W7分析与jl；应用实例设随机向量X = (;c,

34、，X2/,:?g的协方差矩阵为:E，相关矩阵为= ，由于Y,DX = DAFs) = ADF)A+Ds = AA+D(4-10)而所有变量;都已标准化，故R = Y= AA +(4-11)设R的特征值为；2，其相应的单位正交特征向量为R = U 七? U_V4=u U._ /d &=(sMiA ,1、己2 ,又/yCp,，a/、?)当公共因子f；的个数为P时，特殊因子为0,由式4. 11)得= 因此，可以取即第j列因子载荷为第j个主成分的系数ey.与A的乘积，故称其为主成分法.当时，取前m列构造因子载荷阵J =,叾ej,按公共因子的累计方差贡献率达到的百分比一般取85%)选取m，即使m!,(4

35、-12)P/=1的m为所取的公因子数，可以证明 =1为第k个公共因子F,的方差贡献率.Z為Pi=34m 4章闲了?分析与其应用实例定的，因此，RI以将对分解如下1 - f + “12?/i + A X, = 0.2f (4-2)Xg + 62/2 +或写成矩阵的形式z = 4/ + ， (x, , X, , ? ? ? , ) y (/i /2 ) - (、&,，&) (y x2(4-3)我们希望利用式4-3)根据学生的六科成绩分析其文科能力和理科能力，这就是因子分析的目的.因子分析是主成分分析的推广，也是一种把多个变量化为少数几个综合变量的多变量分析方法，其目的是用有限个不可观测的隐变量来解

36、释原始变量之间的相关关系27】.测，将原始变量进展分类，即将相关性高的变量分为一组，用共性因子代替该组变量因子分析分为两类，R型因子分析对变量作因子分析和Q型因子分析对样品作因子分析.我们主要讨论R型因子分析29.将式4-3)推广到一般情形，并做适当的假定就得到因子分析的数学模型：(1)设；= (1,尤2，.-,17.为可观测的随机向量或称为测试变量，均值向量五(；) = 0,协方差矩阵= ；作五(；) = 0的假定是为了处理起来方便，假如(Z) = /，如此令即有Z=0.(2)= ，尸是不可观测的随机向量，其均值向量五(/0 = 0，协方差矩阵Cov(i) = /?,即向量的各分量是不相关的且方差为1, 一般满足(3)=是不可观测的随机向量，其均值向量五( = 0，厂的协方差矩阵Cov( = diag(7,cTj,cr) = 是对角阵，即各分量之间是不相关的，但不要求方差相等.另外即与F不相关，如此以下模型称31笫4章丨外T分析与丨、V:用实例在实际应用中，X的1办方差矩阵I：往往是未知的，这时可以用义的观察值求出i:，以i取代I：.4. 3. 2因子旋转建立因子分析数学模型的目的不仅是为了寻找出公共因子并对变量进展分不唯一性，事实上，用一个正交矩阵r右乘A，有X = AF+ s = Ar)Y f) + s(4-13)

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

几种多元统计分析资料报告方法及其在生活中地指导应用1

最新文档

相关资源

相关搜索