应用多元统计分析课后答案

上传人:悦** 文档编号:182796179 上传时间:2023-01-28 格式:DOCX 页数:28 大小:258.49KB
收藏 版权申诉 举报 下载
应用多元统计分析课后答案_第1页
第1页 / 共28页
应用多元统计分析课后答案_第2页
第2页 / 共28页
应用多元统计分析课后答案_第3页
第3页 / 共28页
资源描述:

《应用多元统计分析课后答案》由会员分享,可在线阅读,更多相关《应用多元统计分析课后答案(28页珍藏版)》请在装配图网上搜索。

1、2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X = (X , X丄X )的联合分布密 1 2 p度函数是一个P维的函数,而边际分布讨论是X = (X ,X ,L X )的子向量的概率分布,其概率密度1 2 p函数的维数小于 p。2.2设二维随机向量(X1X 2)服从二元正态分布,写出其联合分布。解:设(XX2)的均值向量为卩卩2,协方差矩阵为a 2121a )12a 2丿2,则其联合分布密c0度函数为f (x)=a 2 a 112aa 2 丿v 212 y1/2exp 。2.3已知随机向量(X1X2)的联合密度函数为122(d c)

2、( x a) + (b a)(x c) 2( x a)(x c)1 2 12(b a)2(d c)2其中bc x d2(1) 随机变量X1和X2的边缘密度函数、均值和方差;(2) 随机变量X1和X2的协方差和相关系数;(3) 判断X1和X2是否相互独立。(1)解:随机变量X1和X2的边缘密度函数、均值和方差;f (x) = ix1 12(d c)(x a) + (b a)(x c) 2(x a)(x c) 71212 dx(b a)2(d c)22(d 一 c)(x 一 a)x= 12(b 一 a )2 (d 一 c)2+ Jd 2(b - a)(x2 - c) 一 2(x1 - a)(x2

3、- c) dx c(b 一 a)2(d 一 c)222(d 一 c)(x 一 a)x= 12(b 一 a)2(d c)22(b 一 a)t 一 2( x 一 a)t1 dt(b 一 a)2(d c)22(d 一 c)(x 一 a)x=12(b 一 a)2(d c)2d (b 一 a)t2 一 2(x 一 a)t2+i(b 一 a )2 (d 一 c)2所以由于X1服从均匀分布,则均值为牛*,方差为(b - a12同理,由于X2服从均匀分布f2(x2)=x e c, d d + c1,则均值为,方差其它 2(d c 为122)解:随机变量 X 和x2 的协方差和相关系数cov(x , x )12

4、=J dJbcd + c ) 2(d - c)(x 一 a) + (b 一 a)(x 一 c) 一 2(x 一 a)(x 一 c)2 1(ba)2(dc)2dx dx12= (c d )(b a )36cov(x , x ) 1+ 2 =C C 3x1 x23)解:判断Xi和X2是否相互独立。和x2由于f (現,兀丿丰f (x|)f (x2),所以不独立。212 x 1 x 22.4 设 x=(X|,X X X )服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互独立的随12p机变量。解:因为 X = (X , X ,L12Xp)的密度函数为pC 22f (x1,., xp ) =|E|

5、-1/2 exp 卜 |(x p)ti (x g)C2p丿|E| = c 2C 2 LC2pE-i =则 f ( x ,., x )1pi=1j i=111 =C 2C 2 L C 212p-1/2exp (x p),-1 =2p (CC T C )_1I 1 (x 卩)2 1 (x 卩)2c c L c z1 exp za/2当& 2未知| t | t (n 一 1)a/2S2E (X - X)2作为b 2的估计量)ii=1一个正态总体 H :R = R协差阵刀已知T0 =n(X - “0)刀-1( X - “)咒2( p)T 壮协差阵 未知(n 1) p +1(n 1) pT2 F(p,

6、n p)n p(n 1) pT2 Fa(T2 = (n l)&n(Xr )S-%n(Xr )0 0 两个正态总体H0:片二P2n m 有共同已知协差阵T2二 (X- Y),t(X- Y)x 2(p)0 n + mTo2 吒有共同未知协差阵 F = (n:m 2)2) +1T2F(p,n + mp 1)(n + m 一 2) p(其中 T2 = (n + m - 2)J n m (X - Y)S-1广 m (X - Y)V n + mV n + ma协差阵不等 n 二 mF = (n p)n ZSZ F(p, n - p)PFFa协差阵不等 n 主 m F = _p ZS-1Z F(p, n 一

7、 p) pFFa多个正态总体H0:巴二卩2 = A =巴单因素方差多因素方差F 二 SSA (k -1)-SSE (n - k)F (k -1, n - k)FFaA =囤=旦|T |A + EA(p, n - k, k -1)协差阵的检验 检验刀-刀oH:0H:0=exp 一 * trS |Sn/2九=exp S= = L = 2kn/2np / 2np / 2S|n/2 11 n pn/2ii=1统计量九二nnp/2H |S |nikii =13.2试述多元统计中霍特林分布和威尔克斯 分布分别与一元统计中t分布和F分布的关系。答:(!)霍特林T分布是t分布对于多元变量的推广。12 = n(

8、X 卩)(S2)-1(X 卩)而若设 X N (p ,刀),S W (n,刀)且 X 与 SS 2pp相互独立,n - p,则称统计量二二$ - LL 5-1 V- LI的分布为非中心霍特林T2分布。若X - N (0,刀),S - W (n,刀)且X与S相互独立,令T2 = nXSX,则pp_ P +1T2 F(p, n - p +1)。np(2)威尔克斯-分布在实际应用中经常把统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。A与F统计量的关系pn1n2F统计量及分别任意任意1n -p +1 1 -A(p,n ,1)厂/、 F(p,np +1) pA(p,

9、 n ,1)11任意任意2n - p 1-JA(p,n ,2)t1-F(2p, 2(n p)pJA(p, n ,2)11任意任意n 1 -A(1,n ,n )r1f (n , n )nA (1,n , n )2 12 1 22任意任意n -1 1-JA(2, n1, n2)s c/ 1、 i 2 F (2n ,2(n -1) nJA(2, n, n )212 % 1 23.3 试述威尔克斯统计量在多元方差分析中的重要意义。 答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。H : p = p = L = pH :至少存在i丰j使p丰p012k1i j用似然比原则构成的检验统计量为A =

10、 H =卫_IT |A + EA(p, n - k, k -1)给定检验水平a,查Wilks 分布表,确定临界值,然后作出统计判断。 第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答:设p维欧几里得空间:中的两点x=二一二和 y_匚。则欧几里得距离为-;=_二一匚:。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设X,Y是来自均值向量为卩,协方差为工的总体G中的p维样本。则马氏距离为D(X,Y)=二一戈 : -丫。当工 =:即单位阵时,D(X,Y)=二-二-叮=二=_ -:-匸 即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏

11、距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1, R2,,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称二:为匚:的一个划分。判别分析问题实质上就是在某 种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。4.3 简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样 本与各个总体的距离(马氏距离),将距离近的判别为一类。 两

12、个总体的距离判别问题设有协方差矩阵刀相等的两个总体G和G2,其均值分别是片和卩2,对于一个新的样品X,要判断它来 自哪个总体。计算新样品X到两个总体的马氏距离D2 (X,G1)和D2 (X,G2),贝IX 三, D2 (X,GJ 三 D2 (X,X 三】二,D2 (X, G ) D2 (X, G ,1 2具体分析,D2(X,G ) -D2(X,G )12-(X - p ),-1(X - p ) _(X - p ),t(X - p )1 1 2 2=X迟-iX - 2X2-ip + p-ip -(X迟-iX 一 2X-ip + p -ip ) 1 1 1 2 2 2=2X2-i(p - p )

13、+ p-ip - p -ip2 iii 22=2X2-i(p -p ) + (p + p )-i(p -p )2 ii 2i 2f( p + p A=-2 X - pi p2 2-i(p - p )I 2 丿 1 2=-2(X 一 p)a = -2a(X 一 p)记W (X)二a(X- p)则判别规则为x 三 5 , w(x)F -x 三,W(X)0 多个总体的判别问题。设有k个总体G,G2,A,Gk,其均值和协方差矩阵分别是P,P2,A,Pk和,2,A,k,且E二 =A= 二。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。 2k具体分析,D2(X,G ) = (X-P )

14、-1(X-P )aaa=XE-1X - 2p -iX + p -ipaa a二 X-iX - 2(I X + C )aa1取1 = -1p , C = - p -1p , a = 1,2,A ,k oaa a 2 a a可以取线性判别函数为W( X)二I X + C , a二1,2, A, kaa a相应的判别规则为X e G.若W (X) = max(I X + C )11a 0,才q二1。设将本来属于G总体的样品错判到总体G时12k iiiji =1造成的损失为 C( j 1 i) , i, j = 1,2,A , k o设k个总体G , G ,A ,G相应的p维样本空间为R = (R,

15、R,A , R ) o12k12k在规则R下,将属于G的样品错判为G.的概率为ijP(j I i, R) = J f (x)dxi, j = 1,2, A , k i 主 jRj则这种判别规则下样品错判后所造成的平均损失为r(i I R)=迟C(j I i)P(j I i, R)i = 1,2,A , k则用规则R来进行判别所造成的总平均损失为g(R)=工q r(i,R)=工q.迟C(j I i)P( j I i,R) iii =1i=1j =1贝叶斯判别法则,就是要选择一种划分R,R,A ,R ,使总平均损失g(R)达到极小。12k基本方法:g (R)=q 为 C (j I i) P (j

16、I i, R)=q 为 Cj i) J f (x)dxi i R ii=1 j=1i=1 j=1R j上J忆 q C(j I i) f (x)dx 令工 q C (j I i) f (x) = h (x),则 g (R)=RiiiijR jj =1j i =1i =1j =1jh (x) dx R* jj=1 j若有另一划分R* =(R*,R*,A ,R*), g(R*)=J12k则在两种划分下的总平均损失之差为g(R) - g(R*)=工另Jh (x) - h (x)dxi=1 j=1 R c 叫1j因为在R .上h (x) h (x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。i

17、iji = 1,2,A , k从而得到的划分r=(叫r2,a,Rk)为叮=m;nh(x)4.5 简述费希尔判别法的基本思想和方法。答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别 函数U(X) = uX + u X + L + u X = uX1122p p系数u =(匕,u jA,u)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个12p指标值代入线性判别函数式中求出U ( X )值,然后根据判别一定的规则,就可以判别新的样品属于哪个总 体。4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变

18、量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而 贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。当k=2时,若二二二=巴则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶 斯判别也等价。 当二二二时,费希尔判别用二一二作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判 别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X三, W(X疋二匚X 三 G,W(X)lnd距离判别的判别规则是X三匚,W(X疋-X 三】二,W(X)0d = 1二者的区别在于阈值点。当q1 = q2,c(112) = c(2ii)时,d 1,in d =

19、 o。二者完全相同。4.7 设有两个二元总体二一和二从中分别抽取样本计算得到工二,壬:二,耳二;二”假设二=二,试用距离判别法建立判别函数和判别规则。样品X= (6, 0)应属于哪个总体?Wp = (聶用=伝可”忑(衍曲)(x_p)=fe0)-(10.5)=(Z0.5)訂=丄严 -2.1_ 3967-2,15,8(旧一旳)=(2吕24.4.3917 第五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于 k 个类别(或总体)中的某一类,通过找出一个最优的划分, 使得不同类别的

20、样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量) 进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量 聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不 知道类的情况下进行分类。5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行 下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间

21、的相似程度。因为我们把n个样本看作p维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为一)闵可夫斯基距离:d (q)=(兰ijXikXjkq )1/qk=1q 取不同值,分为1)绝对距离( q =1),d (1)=兰ijk = 1Xik-Xjk2)欧氏距离( q = 2),d=&ijX X 2)1/2ikjkk=13)q = g切比雪夫距离( q ),d a) = max X 一 X1 k pikjk二)马氏距离d (L)=丄兰ijpk=1X - XikjkX + Xikjk(三)兰氏距离d2(M) = (X - X )21(X - X )ij i j i j对变量的相似性,我

22、们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作 p 维空间的向量,一般用一)夹角余弦cos 0ijYx Xik jk二)相关系数rij刀(X X)(X X)ik i jk j5.4Y (X X )2 刀(X X )2ik ijk jk =1k =1答:(1)设d表示样品X.与X.之间距离,用D表示类G.与G.之间的距离。 ij. 最短距离法DijD=krijij2)最长距离法DpqDkrmax= minX m/%X gG ,X gG i k j rdij= min D , D dijkpkqmaxX gG , X gGi p j qd = maxD , D ijkpk

23、q在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?3)中间距离法D 2 = 1D 2 +1D 2 +B D 2kr2 kp 2 kqpq(4)重心法D 2 = (XX )(X-X )1X =(n X + n X )pqpqpqrnP Pq qrnnnnD2=PD2+ -qD2 -P q D 2krnrkpn kq rn2pqrrrr5)类平均法 D2=1工Y d 2D 2 = 1 工Y d 2nn=pD 2 +D 2Pqnnijkr n nijn kP n kqP q Xi gGPXjgGjk r Xi gGkX gGjrrr6)可变类平均法D 2 = (1 P )

24、(npD 2 + 2qD2)+B D 2 krn kp n kqpq 其中卩是可变的且卩1(7)可变法Dr二丁代+制+卩DPq其中卩是可变的且卩1离差平方和法S旦(Xit - Xt)(Xit - Xt)t=1n + nn + nnD 2 = kp D 2 +kq D 2 一kD 2kr n + n kp n + nkqn + n pqr kr kr k通常选择距离公式应注意遵循以下的基本原则:(1) 要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马 氏距离有消除量纲影响的作用。(2) 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类

25、分析之前已经对变量 作了标准化处理,则通常就可采用欧氏距离。(3) 要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的 问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离 公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5试述K均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分

26、样品为对象进行聚类,其结果作为K均值法确定类数的参考。5.6试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一 系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚 类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X ,X ,A,X 表示n个有序的(1)( 2)( n )样品,则每一类必须是这样的形式,即X , X,A , X ,其中1 i n,且j n,简记为(i )(i+1)(

27、j )G = i,1 + 1,A,j。在同一类中的样品是次序相邻的。一般的步骤是(1)计算直径D (i,j)。(2)计算最小分类损失函数Lp(l,k)(3)确定分类个数k。(4)最优分类。5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为 1,2,3,6,9,11. 试用最短距离法,重心法进行聚类分析。(1)用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵二:Gi 百 2 Gg 召 4 G5 Ge;210二5430心 876301098520由上表易知J :中最小元素是二-二二-于是将_,,C聚为一类,记为-G7 G4 G5 GE0匚30:630“8520心

28、中最小元素是二严2于是将亠,d聚为一类,记为“ 计算样本距离阵二,:;;630|: ,.:f中最小元素是二J二二亠二 于是将二, 聚为一类,记为】?因此,2)用重心法进行聚类分析计算样品间平方距离阵二:石 1 G2 Ga G4 G5Gi25166449361008164250易知二:;中最小元素是:一:二二3二】于是将H 聚为一类,记为:-亠 4990812540注:计算方法- =:-其他以此类推。2 m中最小元素是D备旷4于是将厲,厲聚为一类,记为禺、;-0 .160-:64160:中最小元素是于是将二,门聚为一类,记为二 因此,14 1S第六章6.1 试述主成分分析的基本思想。答:我们处理

29、的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能 通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二 个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分 量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的 大部分信息。6.3 简述主成分分析中累积贡献率的具体含义。答:主成分分析把P个原始变量X,X2,L , X

30、p的总方差tr ( Q分解成了 P个相互独立的变量Yl, Y2,L,的方差之和k“ k。主成分分析的目的是减少变量的个数,所以一般不会使用所有P个主成分 的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称=江 九 为第kkk;kk=1个主成分Yk的贡献率。第一主成分的贡献率最大,这表明.=T1X综合原始变量X,X2丄,Xp的能力最强,而Y2,y3,l,Y的综合能力依次递减。若只取m(p)个主成分,则称屮=区九:刀九 为主pmk :kk=1k=1成分Y,l,Y的累计贡献率,累计贡献率表明Y,L ,Y综合Xr X2,l ,X的能力。通常取m,使得 1 m1 m12p累计贡献率

31、达到一个较高的百分数(如 85以上)。6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。答:这个说法是正确的。pppp业F = tr = trCE1Tr) = tr(TFZT) = tr(A) =工时二工忑i=lk=ii=ik=l即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵二出发的,其结果 受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也 存在“大数吃小数”的问题。实际表明,这种

32、差异有时很大。我们认为,如果各指标之间的数量级相差悬 殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替刀。对于研究经济问题所涉及的 变量单位大都不统一,采用R代替刀后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。6.6 已知 X=(-_的协差阵为21/4573/43/25V3/431/4试进行主成分分析。11-A囘23/2V3/2-ASJ3/43/253/431A解:二一一三二计算得-二二:,-=-:D(YJ 二打二亿 D(YJ = % = & DffJ = Aa=4同理,计算得1:二1时,:二时,二:=-?

33、- f -易知二一,二:,二相互正交单位化向量得,T=V普yrp _f _1 円 m、r T =叫z_岂_両综上所述,第一主成分为= T- ; -!-亍J第二主成分为匸=亍 E 一亍匸_;、rDCV2) = 8第三主成分为X二一亍工:一16.7设X=(二- :)的协方差阵(p : T为卩p ph1 -pp .:1.证明:一二二-:-:为最大特征根,其对应的主成分为二=W二二证明:二一.三二ff2 - A pff3 pcjz crz Aphpaspci2 pa2 .CJS -hpcrz pc?2 A pci2: :; ;时-as-ACp- l)pcrs +0 -A(p l)pcjs + as A

34、(p l)pa2 +a2 A(p ljpt?2 + trz A pc?z - p护0a2(l-p) - A pu2;I;0-0 cr2(l-p)-A-:::: -:L,:二二:=; -_ = : ?-:-二为最大特征根当.=;- : - / 时,/-p)J =(r2p(l -p)第七章7.1 试述因子分析与主成分分析的联系与区别。答:因子分析与主成分分析的联系是:两种分析方法都是一种降维、简化数据的技术。两种分析的求 解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析 的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆

35、问题。如 果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度 大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程 此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子 分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,因子分析可以用于分类。如用考 试分数将学生的学习状况予以分类;用空气

36、中各种成分的比例对空气的优劣予以分类等等因子分析可以 用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一 步研究与探讨指示方向。在社会调查分析中十分常用。因子分析的另一个作用是用于时空分解。如研究 几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开 来从而判断各自的影响和变化规律。7.3简述因子模型二4Y - 中载荷矩阵A的统计意义。答:对于因子模型X = a F + a F + L + a F + L + a F +s i 1,2,L ,pii1 1i 22jjim miaaLaiii2Limaaa因子载荷阵

37、为 A 21L22LL2 mL(A,A,L ,A )i2maaLapip2pmx.与F的协方差ij为:Cov( x , F ) Cov(m aF+8 ,F)ijikkijki=Cov( a F , F ) + Cov( , F )ik k ji jk1=aij若对X作标准化处理,二二=a,因此a方面表示x.对F的依赖程度;另一方面也反映了变量i jj.jF对公共因子 j 的相对重要性。变量共同度 h2 a2 i 1,2,L , piijj1D(X ) a2D(F ) + a2 D(F ) + L + a2 D(F ) + D(8 ) h2 +b 2 说明变量 X 的方差由两部ii 11 i 2

38、2im mii ii分组成:第一部分为共同度h2,它描述了全部公共因子对变量x.的总方差所作的贡献,反映了公共因子 ii对变量x.的影响程度。第二部分为特殊因子8.对变量x.的方差的贡献,通常称为个性方差。而公共因子F对X的贡献g2 a2 j 1,2,L ,mjjiji1表示同一公共因子 Fj 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺j度。7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、 特征向量求得的因子载荷阵难以看出公共因子的含义。这

39、种因子模型反而是不利于突出主要矛盾和矛盾的 主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在 一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。最大方差旋转法是一种正交旋转的方法,其基本思路为:其中令 A* = Ar = (a*)ij px md = a*/h d = -Ed2 j j 1 j p j i=lA的第j列元素平方的相对方差可定义为V =丄2 (d2 - d )2 j pij ji=1最大方差旋转法就是选择正交矩阵r,使得矩阵A*所有m个列元素平方的相对方差之和达到最大。7.5 试分析因子分析模型与线性回归模型的区别与联系。答

40、:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的 模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即X. = a F + a F2 + L + a F +,,(/ = 1,2,L ,p)该模型可用矩阵表示为:X = AF + 而ii - - i 2 2im m i回归分析模型中多元线性回归方程模型为:_仝:-匕_二_-匕:二-二匚::-二其中匕:是常数项,因子模型满足1)一 匕:是偏回归系数,j是残差。(2) Cov(F,)= 0,即公共因子

41、与特殊因子是不相关的;3)D = D (F)=F=I ,即各个公共因子不相关且方差为1; m4)G22,即各个特殊因子不相关,方差不要求相等。G2p正态性:随机误差(即残差)e服从均值为0,方差为b2的正态分布;(2) ,残差e的条件方差为G2而回归分析模型满足(1)等方差:对于所有的自变量X,残差e的条件方差为G2,且G为常数;(3)独立性:在给定自变量X的 条件下,残差e的条件期望值为0 (本假设又称零均值假设);(4)无自相关性:各随机误差项e互不相关。两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。7.6设某客观现象可用X=(;二)来描述,在因子分析时,从约相关阵出发计算

42、出特征值为扎_ =:二、- = _ f 入;=_,一 二二.由于X_ X-X-芒:二-:,所以找前两个特征值所对应的公共因子即可,又知对应的正则化特征向量分别为(0.707,-0.316,0.632)及0,0.899,0.4470),要求:(1) 计算因子载荷矩阵A,并建立因子模型。(2)计算共同度匸(:二-7 -7 曲。(3)计算第一公因子对X的“贡献”0.707-0.3160.6320_mVVf7540.4470/、0.4470/建立因子模型为,二一上门呂一, 二 =_上::-呂:Xa = 0.837Fi+0.4470F2+ g二二 m 二鳥,二二一m: -二/门,/.: = :.S3_:

43、 -二(3)因为是从约相关阵计算的特征值,所以公共因子对x的“贡献”为r. = . =第八章 相应分析8.1 什么是相应分析?它与因子分析有何关系? 答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。其特点是它 所研究的变量可以是定性的。相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进 行因子分析。因此,因子分析是相应分析的基础。具体而言,:(工山)二 (Hi.)式表明Zuj为相对于特征值的关于因素A各水平构成的协差阵二的特征向量。从而建立了相应分析中R型因子分析和Q 型因子分析的关系。8.2试述相应分析的基本思想。答:相

44、应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r 个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个r X c的二维列联表,记为K = (k.)。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过 ij r Xc列联表的转换,使得因素 A 和因素 B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情 况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。8.3 试述相应分析的基本步骤。答:(1)建立列联表设受制于某个载体总体的两个因素为A和B,其中因素A包含r个水平,因素

45、B包含C个水平。对这r x cK (k )两组因素作随机抽样调查,得到一个厂X C的二维列联表,记为j rxc。(2) 将原始的列联资料K=(kij) r xc变换成矩阵Z=(zij) r xc,使得zij对因素A和列因素B具有对等性。$ 一也通过变换。得二Z Z , 二ZZ。cr(3) 对因素 B 进行因子分析。计算出二ZZ的特征向量八,L ,人:及其相应的特征向量,匚 t: c计算出因素B的因子匸1匚二匚=.丄丄ti .卞匚 ,/.;t.)(4) 对因素A进行因子分析。计算出r二ZZ的特征向量釘J為,丄m及其相应的特征向量卩“ %计算出因素A的因子Vi r:V. =.匕 .%:屯选取因素B

46、的第一、第二公因子匸1匚选取因素A的第一、第二公因子二二将B因素的c个水平匸11 Lj, U: U二),(Uc2 )A因素的r个水平丫11 让1壯二) 同时反应到相同坐标轴的因子平面上上(6)根据因素A和因素B各个水平在平面图上的分布,描述两因素及各个水平之间的相关关系。8.4 在进行相应分析时,应注意哪些问题?答:要注意通过独立性检验判定是否有必要进行相应分析。因此在进行相应分析前应做独立性检验。独立性检验中,H0 :因素A和因素B是独立的;h :因素A和因素B不独立由上面的假设所构造的统计量为V*y c k - E(k )2yTy C咒 2 =厶厶 jj= kZZ(z )2E(k )ii=

47、1 j =1iji =1 j =1其中 z = (k - k k / k)/ij iji. . j应该注意几个问题。kik j,拒绝区域为X 2 耳(厂一1)(c 一1)第一,这里的z.是原始列联资料K =伙)通过相应变换以后得到的资料阵Z = ( z.)的元素。jij rxcj r x说明zij与X 2统计量有着内在的联系。第二,关于因素B和因素A各水平构成的协差阵和, tr( ) = tr( ) = X 2 /k,这里 crcrtr(.) 表示矩阵的迹。第三,独立性检验只能判断因素A和因素B是否独立。如果因素A和因素B独立,则没有必要进 行相应分析;如果因素A和因素B不独立,可以进一步通过相应分析

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!