第11节主成分因子分析

上传人:仙*** 文档编号:194803992 上传时间:2023-03-13 格式:PPT 页数:71 大小:614KB
收藏 版权申诉 举报 下载
第11节主成分因子分析_第1页
第1页 / 共71页
第11节主成分因子分析_第2页
第2页 / 共71页
第11节主成分因子分析_第3页
第3页 / 共71页
资源描述:

《第11节主成分因子分析》由会员分享,可在线阅读,更多相关《第11节主成分因子分析(71页珍藏版)》请在装配图网上搜索。

1、主成分分析1主成分分析应用(SPSS)主成分回归2例:例:成绩数据(成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。英语的成绩如下表(部分)。SPSSSPSS实现实现(因子分析与主成分分析因子分析与主成分分析)拿拿student.sav为例,选为例,选AnalyzeData ReductionFactor进入主对进入主对话框;话框;把把math、phys、chem、literat、history、english选入选入Variables,然后点击然后点击Extraction,在在Method选择一个方

2、法(如果是主成分分析,则选选择一个方法(如果是主成分分析,则选Principal Components),),下面的选项可以随意,比如要画碎石图就选下面的选项可以随意,比如要画碎石图就选Scree plot,另外在,另外在Extract选项可以按照特征值的大小选主成分(或因子),也可以选项可以按照特征值的大小选主成分(或因子),也可以选定因子的数目;选定因子的数目;之后回到主对话框(用之后回到主对话框(用Continue)。然后点击)。然后点击Rotation,再在该,再在该对话框中的对话框中的Method选择一个旋转方法(如果是主成分分析就选选择一个旋转方法(如果是主成分分析就选None),

3、),在在Display选选Rotated solution(以输出和旋转有关的结果)和(以输出和旋转有关的结果)和Loading plot(以输出载荷图);之后回到主对话框(用(以输出载荷图);之后回到主对话框(用Continue)。)。如果要计算因子得分就要点击如果要计算因子得分就要点击Scores,再选择,再选择Save as variables(因子得分就会作为变量存在数据中的附加列上)和计算因子得(因子得分就会作为变量存在数据中的附加列上)和计算因子得分的方法(比如分的方法(比如Regression);要想输出);要想输出Component Score Coefficient Matr

4、ix表,就要选择表,就要选择Display factor score coefficient matrix;之后回到主对话框(用之后回到主对话框(用Continue)。这时点)。这时点OK即可。即可。对于该数据,对于该数据,(利用相关系数矩阵利用相关系数矩阵)SPSS)SPSS输出输出为为 这里的这里的Initial Eigenvalues就是这里的六个主轴长就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。度,又称特征值(数据相关阵的特征值)。头两头两个成分特征值累积占了总方差的个成分特征值累积占了总方差的81.142%。后面。后面的特征值的贡献越来越少。的特征值的贡献越来越少。T

5、To ot ta al l V Va ar ri ia an nc ce e E Ex xp pl la ai in ne ed d3.73562.25462.2543.73562.25462.2541.13318.88781.1421.13318.88781.142.4577.61988.761.3235.37694.137.1993.32097.457.1532.543100.000Component123456Total%of VarianceCumulative%Total%of VarianceCumulative%Initial EigenvaluesExtraction Sums

6、 of Squared LoadingsExtraction Method:Principal Component Analysis.特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出Scree PlotComponent Number654321Eigenvalue43210 怎么解释这两个主成分。前面说过主成分是原始怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?六个变量的线性组合。是怎么样的组合呢?SPSSSPSS可以可以输出下面的表。输出下面的表。C Co om mp po on ne en nt t M Ma at tr

7、ri ix xa a-.806.353-.040.468.021.068-.674.531-.454-.240-.001-.006-.675.513.499-.181.002.003.893.306-.004-.037.077.320.825.435.002.079-.342-.083.836.425.000.074.276-.197MATHPHYSCHEMLITERATHISTORYENGLISH123456ComponentExtraction Method:Principal Component Analysis.6 components extracted.a.这里每一列代表一个主成分

8、作为原来变量线性组合的系这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)文、历史、英语这六个变量的线性组合,系数(比例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。如用如用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分别表示原先的六个变量,分别表示原先的六个变量,而用而用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表示新的主成分,那么,表示

9、新的主成分,那么,第一和第二主成分为第一和第二主成分为11234562123456-0.806-0.674-0.6750.8930.8250.8360.3530.5310.5130.3060.4350.425yxxxxxxyxxxxxx SPSS中这些系数称为主成分载荷(中这些系数称为主成分载荷(loading),),它表示主成分和相应的原先变量的相关系数它表示主成分和相应的原先变量的相关系数。比如比如y1表示式中表示式中x1的系数为的系数为-0.806,这就是说第,这就是说第一主成分和数学变量的相关系数为一主成分和数学变量的相关系数为-0.806。相关系数相关系数(绝对值)越大,主成分对该变

10、量的代绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。的变量就不那么相关了。这里这里u uijij为第为第j j个特征向量的第个特征向量的第i i个分量个分量;第第j j个主成分的载荷平方和为该主成分的方差个主成分的载荷平方和为该主成分的方差,等于其特征值等于其特征值l li i.所选的所选的m m个主成分对变量个主成分对变量x xi i的的总方差贡献总方差贡献为为主成分负荷主成分负荷(载荷载荷,loading):Yj与与

11、Xi的的相关系数相关系数:(,)jijijr Y Xul2211(,)mmjijijjjr Y Xul可以把第一和第二主成分的载荷点出可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做释原来的变量的。这个图叫做载荷图载荷图。Component PlotComponent 11.0.50.0-.5-1.0Component 21.0.50.0-.5-1.0e ng lishhisto rylite ra tche mp hy sm a th该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是

12、语文、历右边三个点是语文、历史、外语三科。史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。二列中的数目,还是可以识别的。洛衫矶对洛衫矶对12个人口调查区的数据个人口调查区的数据(data15-01)编号编号 总人口总人口 总雇员数总雇员数 中等校平均校龄中等校平均校龄 专业服务项目数专业服务项目数 中等房价中等房价 1570012.82500 27025000 2100010.9600101000

13、0 334008.81000109000 4380013.6170014025000 5400012.8160014025000 682008.326006012000 7120011.44001016000 8910011.533006014000 9990012.534001801800010960013.73600390250001196009.63300801200012940011.4400010013000AnalyzeData Reduction Factor:Variables:pop,school,employ,service,houseDescriptive:Extract

14、ion:correlation,Eigenvalue1(默认默认)Rotation:(加入加入loading plot)Options:特征值、累积贡献率特征值、累积贡献率(对相关矩阵进行主成分分析)(对相关矩阵进行主成分分析)Total Variance Explained2.87357.46657.4662.87357.46657.4661.79735.93393.3991.79735.93393.399.2154.29797.6969.993E-021.99999.6951.526E-02.305100.000Component12345Total%ofVarianceCumulativ

15、e%Total%ofVarianceCumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.Scree PlotComponent Number54321Eigenvalue3.53.02.52.01.51.0.50.0特征值图特征值图Component PlotComponent 11.0.50.0-.5-1.0Component 21.0.50.0-.5-1.0中等房价专业服务项目数总雇员数中等校平均校龄总人口二主成分因二主

16、成分因子负荷图子负荷图(,)jijijr Y XulComponent Matrixa.932-.104.791-.558.767-.545.581.806.672.726专业服务项目数中等房价中等校平均校龄总人口总雇员数12ComponentExtraction Method:Principal Component Analysis.2 components extracted.a.主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值,而每而每列除以相应特征值的平方根为相应的特征向量列除以相应特征值的平方根为相应的特征向量)这这是主成分与各个变量的相关系数是主成分与

17、各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量(?!)(,)jijijr Y Xul销售人员数据销售人员数据(salesmen.sav)(50个观测值)个观测值)销售增长销售增长 销售利润销售利润 新客户销售额新客户销售额 创造力创造力 机械推理机械推理 抽象推理抽象推理 数学推理数学推理93.0096.0097.809.0012.009.0020.0088.8091.8096.807.0010.0010.0015.0095.00100.3099.008.0012.009.0026.00101.30103.80106.8013.001

18、4.0012.0029.00102.00107.80103.0010.0015.0012.0032.0095.8097.5099.3010.0014.0011.0021.0095.5099.5099.009.0012.009.0025.00110.80122.00115.3018.0020.0015.0051.00102.80108.30103.8010.0017.0013.0031.00106.80120.50102.0014.0018.0011.0039.00103.30109.80104.0012.0017.0012.0032.0099.50111.80100.3010.0018.008

19、.0031.00103.50112.50107.0016.0017.0011.0034.0099.50105.50102.308.0010.0011.0034.00特征值、累积贡献率特征值、累积贡献率Total Variance Explained5.03571.92371.9235.03571.92371.923.93413.33685.259.93413.33685.259.4987.11392.372.4216.01898.3908.104E-021.15899.5472.034E-02.29199.8381.134E-02.162100.000Component1234567Total

20、%ofVarianceCumulative%Total%ofVarianceCumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.Scree PlotComponent Number7654321Eigenvalue6543210特征值图特征值图Component PlotComponent 11.0.50.0-.5-1.0Component 21.0.50.0-.5-1.0mathdabsdmechdcreativenews

21、alebenefitsale二主成分因二主成分因子负荷图子负荷图(,)jijijr Y Xul主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值,而每而每列除以相应特征值的平方根为相应的特征向量列除以相应特征值的平方根为相应的特征向量)这这是主成分与各个变量的相关系数是主成分与各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量(?)Component Matrixa.973.943.945.660.783.649.914SALEBENEFITNEWSALECREATIVEMECHDABSDMATHD1Compo

22、nentExtraction Method:Principal Component Analysis.1 components extracted.a.(,)jijijr Y Xul主成分回归介绍主成分回归介绍23 国际旅游外汇收入是国民收入是国民经济国际旅游外汇收入是国民收入是国民经济发展的重要组成部分,影响一个国家或地区旅发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。交通等多方面的因素。中国统计年鉴中国统计年鉴把第把第三次产业划分为三次产业划分为12个组成部分,分别为:个组成部分,分别为:一、提出

23、问题一、提出问题24x1:农林牧渔服务业:农林牧渔服务业 x2:地质勘查水利管理业:地质勘查水利管理业x3:交通运输仓储和邮电通讯业:交通运输仓储和邮电通讯业 x4:批发零售贸易和餐食业:批发零售贸易和餐食业x5:金融保险业:金融保险业 x6:房地产业:房地产业 x7:社会服务业:社会服务业 x8:卫生体育和社会福利业:卫生体育和社会福利业 x9:教育文艺和广播:教育文艺和广播 x10:科学研究和综合艺术:科学研究和综合艺术x11:党政机关:党政机关 x12:其他行业:其他行业 选自选自1998年我国年我国31个省、市、自治区的数据。以旅游外汇收入个省、市、自治区的数据。以旅游外汇收入(百万美

24、圆)为因变量。自变量的单位为亿元人民币。数据略。(百万美圆)为因变量。自变量的单位为亿元人民币。数据略。25InterceptCoefficients-205.236116.8459-1.75646 0.096008 标准误差t StatP-valueX Variable 1-1.4004522.8676-0.061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.3393390.197128X Variable 4-0.944021.296117-0.728340.475774

25、X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.894711 0.38275X Variable 11-10.585.610696-1.885690.075

26、582X Variable 121.3507095.0015040.270060.790186 这个模型是不理想的,一个最严重的问题是多重共线这个模型是不理想的,一个最严重的问题是多重共线性的问题。性的问题。26线性回归模型的方差分析表线性回归模型的方差分析表方差来源方差来源自由度自由度离差离差平方和平方和方差方差F统计量统计量显著性显著性水平水平回归分析回归分析1211690140 974178.3 10.51335 8.15025E-06 残差残差181667899 92661.04 总计总计3113358039 利用主成分的互不相关性来建立应利用主成分的互不相关性来建立应变量与主成分的回

27、归,在理论上可以达变量与主成分的回归,在理论上可以达到消除多重共线性。到消除多重共线性。27 二、主成分回归方法二、主成分回归方法ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111*1 112 121immiYFFF主成分回归:2*11221minniiimimiYFFF28ppppppuuuuuuuuu212222111211),(p1uuU111212122212ppnnnpxxxxxxxxx0X原始数据观测矩阵原始数据观测矩阵主成分系数矩阵主成分系数矩阵29npnnppFFFFFFFFF212222111211FUXF0主成分得分矩阵主

28、成分得分矩阵30 根据最小二乘估计,则1(F F)F YYFF)F(10 100(U X X U)U X YYXUU)XX(U1000U*U*同理*1*(F F)F Y基于协方差矩阵的主成分回归基于协方差矩阵的主成分回归基于相关系数矩阵的主成分回归基于相关系数矩阵的主成分回归31 例、朗莱用美国联邦政府雇员人数Y和国民总产出隐含平减指数X1,国民总产出X2,失业人数X3,武装力量人数X4,14岁及以上非慈善机构人口数X5,时间变量X6。朗莱所用数据是美国4762年数据,该例是主成分回归用得较早的例子。32yx1x2x3x4x5x618928323428923561590107608194718

29、6388.5259426232514561086321948190888.2258054368216161097731949182889.5284599335116501109291950230296.2328975209930991120751951242098.134699919323594113270195223059936538518703547115094195321881003631123578335011621919542187101.23974692904304811738819552209104.64191802822285711873419562217108.4442769

30、2936279812044519572191110.84445464681263712195019582233112.64827043813255212336619502270114.25026013931251412536816602279115.75181754806257212785219612340116.955489440072827130081196233 Eigenvalues of the Correlation Matrix(相关系数矩阵的特征根)(相关系数矩阵的特征根)Eigenvalue Difference Proportion Cumulative (特征根)(特征根

31、)(差值)差值)(贡献率)贡献率)(累计贡献率)(累计贡献率)1 4.60337745 3.42803711 0.7672 0.7672 2 1.17534035 0.97191518 0.1959 0.9631 3 0.20342517 0.18849689 0.0339 0.9970 4 0.01492828 0.01237624 0.0025 0.9995 5 0.00255204 0.00217533 0.0004 0.9999 6 0.00037671 0.0001 1.000034 Eigenvectors(特征向量)(特征向量)Prin1 Prin2 Prin3 Prin4 Pr

32、in5 Prin6 x1 0.461835 0.057843 -.149120 -.792874 0.337934 -.135193 x2 0.461504 0.053211 -.277681 0.121625 -.149550 0.818485 x3 0.321317 -.595513 0.728306 -.007645 0.009235 0.107451 x4 0.201510 0.798193 0.561607 0.077255 0.024253 0.017970 x5 0.462279 -.045544 -.195985 0.589743 0.548569 -.311589 x6 0.

33、464940 0.000619 -.128116 0.052285 -.749556 -.450388*6*5*4*3*2*11464940.0462279.020151.0321317.0461504.0461835.0 xxxxxxF*6*5*4*3*2*12000619.0045544.0798193.0595513.0053211.0057843.0 xxxxxxF35第九章因子分析第九章因子分析Factor Analysis36男子径赛记录数据男子径赛记录数据(MTF,p384)100m 200m 400m 800m 1500m 5000m 10000m Marathon10.39

34、20.81 46.84 1.813.7014.04 29.36 137.72 argentin 10.31 20.06 44.84 1.743.5713.28 27.66 128.30 australi 10.44 20.81 46.82 1.793.6013.26 27.72 135.90 austria 10.34 20.68 45.04 1.733.6013.22 27.45 129.95 belgium 10.28 20.58 45.91 1.803.7514.68 30.55 146.62 bermuda 10.22 20.43 45.21 1.733.6613.62 28.62 1

35、33.13 brazil 女子径赛记录数据女子径赛记录数据(FTF,p34)100m 200m 400m 800m 1500m 3000m Marathon11.6122.94 54.50 2.154.439.79178.52 argentin 11.2022.35 51.08 1.984.139.08152.37 australi11.4323.09 50.62 1.994.229.34159.37 austria 11.4123.04 52.00 2.004.148.88157.85 belgium 11.4623.05 53.30 2.164.589.81169.98 bermuda 1

36、1.3123.17 52.80 2.104.499.77168.75 brazil.1995中国社会数据中国社会数据(317.sav)变量变量:人均人均GDP(元元)新增固定资产新增固定资产(亿元亿元)城镇居民人均年可支配收入城镇居民人均年可支配收入(元元)农村居农村居民家庭人均纯收人民家庭人均纯收人(元元)高等学校数高等学校数(所所)卫生机构数卫生机构数(个个)地区地区:北京北京 天津天津 河北河北 山西山西 内蒙内蒙 辽宁辽宁 吉林吉林 黑龙江黑龙江 上海上海 江苏江苏 浙江浙江 安徽安徽 福建福建 江江西西 山东山东 河南河南 湖北湖北 湖南湖南 广东广东 广西广西 海南海南 四川四川

37、贵州贵州 云南云南 陕西陕西 甘肃甘肃 青海青海 宁夏宁夏 新疆新疆 (296矩阵矩阵)北京北京 10265 30.81 6235 3223 65 4955天津天津 8164 49.13 4929 2406 21 3182河北河北 3376 77.76 3921 1668 47 10266山西山西 2819 33.97 3305 1206 26 5922内蒙内蒙 3013 54.51 2863 1208 19 4915.于秀林书上说可有三个因子于秀林书上说可有三个因子:收入因子收入因子,社会因子社会因子,投资因子投资因子35家中国上市公司家中国上市公司2000年年报数据年年报数据(Chcomp

38、.sav)变量变量:净资产收益率净资产收益率%,总资产报酬率总资产报酬率%,资产负债率资产负债率%,总资产周转率总资产周转率,流动资产周转率流动资产周转率,已获利息倍数已获利息倍数,销售增长率销售增长率%,资本积累率资本积累率%公司公司:深能源深能源,深南电深南电,富龙热力富龙热力,穗恒运穗恒运,粤电力粤电力,韶能股份韶能股份,惠天热电惠天热电,原原水股份水股份,大连热电大连热电,龙电股份龙电股份,华银电力华银电力,长春经开长春经开,兴业房产兴业房产,金丰投资金丰投资,新黄新黄 浦浦,浦东金桥浦东金桥,外高桥外高桥,中华企业中华企业,渝开发渝开发,辽房天辽房天,粤宏远粤宏远,ST中福中福,倍特

39、高倍特高新新,三木集团三木集团,寰岛实业寰岛实业,中关中关 村村,中兴通讯中兴通讯,长城电脑长城电脑,青鸟华光青鸟华光,清华同方清华同方,永永鼎光缆鼎光缆,宏图高科宏图高科,海星科技海星科技,方正科技方正科技,复华实业复华实业(358矩阵矩阵)深能源深能源16.8512.3542.32.371.787.1845.7354.5深南电深南电22.0015.3046.51.761.7715.6748.1119.41富龙热力富龙热力8.977.9830.56.17.5810.4317.809.44.Spearmans Example有一组古典文学、法语、英语、数学和音乐的测验成绩,有一组古典文学、法语

40、、英语、数学和音乐的测验成绩,从它们的相关性表明存在一个潜在的从它们的相关性表明存在一个潜在的“智力智力”因子(因子(F1)。)。而另一组变量,表示身体健康的得分,只要有效就可以对而另一组变量,表示身体健康的得分,只要有效就可以对应另一个潜在的因子(应另一个潜在的因子(F2)。记这些变量为)。记这些变量为(X1,Xp).我我要寻求下面这样的结构:要寻求下面这样的结构:111111221122211222221122,mmmmpppppmmpXa Fa Fa FXa Fa FaFXa Fa FaFor with matrix notationXAF411 1 引言引言 因子分析因子分析(fact

41、or analysis)(factor analysis)是一种数据简化的技术。是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以

42、例如,在企业形象或品牌形象的研究中,消费者可以通过一个有通过一个有2424个指标构成的评价体系,评价百货商场的个指标构成的评价体系,评价百货商场的2424个方面的优劣。个方面的优劣。42 但消费者主要关心的是三个方面,即商店的环境但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过、商店的服务和商品的价格。因子分析方法可以通过2424个变量,找出反映商店环境、商店服务水平和商品价格个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。的三个潜在的因子,对商店进行综合评价。而这三个公而这三个公共因子可以表示为:共因子可以表示为:

43、iiiiiiFFFx33221124,1i 称称 是不可观测的潜在因子。是不可观测的潜在因子。2424个变量个变量共享这三个因子,但是每个变量又有自己的个性,共享这三个因子,但是每个变量又有自己的个性,不被不被包含的部分包含的部分 ,称为特殊因子。,称为特殊因子。321FFF、i43注:注:因子分析与回归分析不同,因子分析中的因因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明子是一个比较抽象的概念,而回归因子有非常明确的实际意义;确的实际意义;主成分分析分析与因子分析也有不同,主成主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因分

44、分析仅仅是变量变换,而因子分析需要构造因子模型。子模型。主成分分析主成分分析:原始变量的线性组合表示新的原始变量的线性组合表示新的综合变量,即主成分;综合变量,即主成分;因子分析:潜在的假想变量和随机影响变因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。量的线性组合表示原始变量。2 因子分析模型因子分析模型 一、数学模型一、数学模型44 设设 个变量,如果表示为个变量,如果表示为iX),2,1(pip11iiiimmiXa Fa F)(pm 11111211122212222212mmpppppmpmXFXFXF或XAF或45 称为称为 公共因子公共因子,是不可观测的变量,是不可

45、观测的变量,他们的系数称为因子载荷。他们的系数称为因子载荷。是特殊因子,是不能被是特殊因子,是不能被前前m m个公共因子包含的部分。个公共因子包含的部分。并且满足:并且满足:mFFF,21iIFD111)(cov(,)0,F,F即不相关;即不相关;mFFF,21即即 互不相关,方差为互不相关,方差为1 1。4622221)(pD即互不相关,方差不一定相等,即互不相关,方差不一定相等,。),0(2iiNF为公共因子向量为公共因子向量,每个公共因子每个公共因子(如如Fi)是对模型中是对模型中每个变量都起作用的因子每个变量都起作用的因子;而而 为特殊因子向量为特殊因子向量,每每个特殊因子个特殊因子(

46、如如 i)只对一个变量只对一个变量(第第i个个)起作用起作用.用矩阵的表达方式47X-=AF+()EF0()E0()VarFI22212()(,)pVardiag1 11212 122212()()()()()()cov()()()()()ppppppE FE FE FE FE FE FEE FE FE FF,F0(协方差结构为协方差结构为S S=AA+D的的)模型模型X=+AF+因因子分析的步骤子分析的步骤1根据问题选取原始变量;根据问题选取原始变量;2求其相关阵求其相关阵R,探讨其相关性;探讨其相关性;3从从R求解初始公共因子求解初始公共因子F及因子载荷矩阵及因子载荷矩阵A(主成分法或最大

47、似然法主成分法或最大似然法);4因子旋转;因子旋转;5由由X=AF到到F=bX(因子得分函数因子得分函数);6根据因子得分值进行进一步分析根据因子得分值进行进一步分析.二、因子分析模型的性质二、因子分析模型的性质49 1、原始变量、原始变量X的协方差矩阵的分解的协方差矩阵的分解X-=AF+()()()VarVarVarX-=AF A+x=AA+DA是因子模型的系数22212()(,)pVardiag D D的主对角线上的元素值越小,则公共因子共享的成的主对角线上的元素值越小,则公共因子共享的成分越多。分越多。2、因子载荷不是惟一的、因子载荷不是惟一的 设设T为一个为一个pp的正交矩阵,令的正交

48、矩阵,令A*=AT,F*=TF,则模型可以表示为则模型可以表示为50*X+A F+()ET F0()E0*()()()VarVarVarFTFTF TI22212()(,)pVardiag*cov()()EF,F 0且满足条件因子模型的条件且满足条件因子模型的条件51 三、三、因子载荷矩阵中的几个统计特征因子载荷矩阵中的几个统计特征 1 1、因子载荷、因子载荷a aijij的统计意义的统计意义 因子载荷因子载荷 是第是第i i个变量与第个变量与第j j个公共因子的相关系数个公共因子的相关系数 ija模型为模型为 11iiimmiXa Fa F 在上式的左右两边乘以在上式的左右两边乘以 jF,再

49、求数学期望再求数学期望 11()()()()()ijijijjjimmjijE X Fa E FFa E F Fa E F FEF 根据公共因子的模型性质,有根据公共因子的模型性质,有ijx Fija (载荷矩阵中第(载荷矩阵中第i i行,第行,第j j列的元素)反映了列的元素)反映了第第i i个变量与第个变量与第j j个公共因子的相关重要性。绝对值越个公共因子的相关重要性。绝对值越大,相关的密切程度越高。大,相关的密切程度越高。52 2 2、变量共同度的统计意义、变量共同度的统计意义定义:变量定义:变量 的的共同度共同度是因子载荷矩阵的第是因子载荷矩阵的第i i行的元行的元素的平方和。记为素

50、的平方和。记为iX统计意义统计意义:imimiiFaFaX11两边求方差两边求方差)()()()(2112imimiiVarFVaraFVaraXVarmjiija1221 所有的公共因子和特殊因子对变量所有的公共因子和特殊因子对变量 的贡献为的贡献为1 1。如果。如果 非常非常靠近靠近1 1,非常小,则因子分析的效果好,从原变量空间到公共因非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。子空间的转化性质好。iXmjija122imjija12。mjijiah12253 3 3、公共因子、公共因子 方差贡献的统计意义方差贡献的统计意义jF因因子子载载荷荷矩矩阵阵A A中中各

51、各列列元元素素的的平平方方和和 称称为为 对对 的的方方差差贡贡献献和。和。衡衡量量 的的相相对对重重要要性。性。piijjaS12),1(mjjF1(,.)pXXXjF3 3 因子载荷矩阵的估计方法因子载荷矩阵的估计方法 设随机向量设随机向量 的均值为的均值为,协方差为,协方差为S S,为对应的特征值。为对应的特征值。标准化特征向量,则标准化特征向量,则54)12,px xxx021plllp21u,u,u12plll=UUAA+D(一)主成分分析法(一)主成分分析法 上式给出的上式给出的S S表达式是精确的,然而,它实际上是毫表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求

52、用少数几个公共因子无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的解释,故略去后面的p-m项的贡献,有项的贡献,有5521111mmmmmmplllll1122ppu uu uu uuuu u1121122 pppllllll2puuuuuu1100pll212ppuuuuuu 上式有一个假定,模型中的特殊因子是不重要的,因上式有一个假定,模型中的特殊因子是不重要的,因而从而从S S的分解中忽略了特殊因子的方差。的分解中忽略了特殊因子的方差。5612 mmmlll1122AA+Du uu uu uD1121122 mmp mpmm pllllll2uuuuuDAADu2221

53、2(,)pdiag D其中221,miiiijiijsasS为的对角元素注:残差矩阵57 SAAD其中其中S为样本的协方差矩阵为样本的协方差矩阵。(二)主因子法(二)主因子法 主因子方法是对主成分方法的修正,假定我主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则们首先对变量进行标准化变换。则 R=AA+D 相关系数相关系数 矩阵矩阵 R*=AA=R-D称称R*为为约相关矩阵。约相关矩阵。二者的不同之处:二者的不同之处:R*对角线上的元素是对角线上的元素是 ,R的对角线元素为的对角线元素为1。582ih592112122122212ppppphrrrhrRrrhR-D直接求直

54、接求R*的前的前p个特征根和对应的正交特征向量。得如下个特征根和对应的正交特征向量。得如下的矩阵:的矩阵:*1122pplllAuuu*10pllR特征根:*12,pu uu正交特征向量:估计估计 的值的值,代入代入2ih*11*221122*pppplllllluuuuuu6021222pRR 当特殊因子当特殊因子 的方差不为的方差不为0 0且且已知的,问题非常好解决。i61*1122mmlllAuuu2121100phhD 在实际的应用中,个性方差矩阵一般都是未知的,在实际的应用中,个性方差矩阵一般都是未知的,可以通过一组样本来估计。可以通过一组样本来估计。估计的估计的方法有如下几种方法有

55、如下几种:62 首先,求首先,求 的初始估计值,构造出的初始估计值,构造出 2ih*R 1)取取 ,在这个情况下主因子解与主成分解等,在这个情况下主因子解与主成分解等价;价;2 2)取)取 ,为为x xi i与其他所有的原始变量与其他所有的原始变量x xj j的的复相关系数的平方,即复相关系数的平方,即x xi i对其余的对其余的p-1p-1个个x xj j的回归方程的回归方程的判定系数,这是因为的判定系数,这是因为x xi i 与公共因子的关系是通过其与公共因子的关系是通过其余的余的p-1p-1个个x xj j 的线性组合联系起来的;的线性组合联系起来的;12ih22iiRh 2iR63 2

56、 2)取)取 ,这意味着取,这意味着取x xi i与其余的与其余的x xj j的简单相关系数的绝对值最大者;的简单相关系数的绝对值最大者;)(|max2ijrhiji 4 4)取)取 ,其中要求该值为正数。,其中要求该值为正数。pjijijirph,1211 5 5)取)取 ,其中,其中 是是 的对角元素。的对角元素。iiirh/12iir1R (三)极大似然估计法(略)(三)极大似然估计法(略)如果假定公共因子如果假定公共因子F和特殊因子和特殊因子 服从正态分布,服从正态分布,那么可以得到因子载荷和特殊因子方差的极大似然那么可以得到因子载荷和特殊因子方差的极大似然估计。设估计。设 为来自正态

57、总体为来自正态总体Np(,S S)的随机的随机样本。样本。64n21x,x,xAA )()(21exp)(112 iininp2XXSS12 ()()()()()nLff Xf Xf X,A,DX)()(21exp)2(12121 iipnixxSS 它通过它通过S S依赖依赖 和和S S。上式并不能唯一确定。上式并不能唯一确定,为此为此可添加一个唯一性条件:可添加一个唯一性条件:这里这里 式一个对角矩阵,用数值极大化的方法可以得式一个对角矩阵,用数值极大化的方法可以得到极大似然估计到极大似然估计 。极大似然估计。极大似然估计 将使将使 为对角阵,且似然函数达到最大。为对角阵,且似然函数达到最

58、大。相应的共同度的似然估计为:相应的共同度的似然估计为:第第J个因子对总方差的贡献:个因子对总方差的贡献:651和x和、1222212imiiiaaah222212pjjjjaaaS 例例 假定某地固定资产投资率假定某地固定资产投资率 ,通货膨胀率,通货膨胀率 失业率失业率 ,相关系数矩阵,相关系数矩阵R为为试用主成分分析法求因子分析模型。试用主成分分析法求因子分析模型。661x2x3x15/25/15/215/15/15/11 特征根为:6755.11l l85.02l l6.03l l6.0707.085.0331.055.1629.06.0707.085.0331.055.1629.00

59、85.0883.055.1475.0A707.0331.0629.0707.0331.0629.00883.0475.0U548.0305.0783.0548.0305.0783.00814.0569.0 可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55(即,(0.569,0.783,0.783)的模长平方)。第二公因子F2为投资因子,对X的贡献为0.85。共同度共同度分别为1,0.706,0.706(表达式中每行的系数平方和)。68211814.0569.0FFx3212548.0305.0783.0FFFx3213548.0305.0783.0FFFx假

60、定某地固定资产投资率假定某地固定资产投资率 ,通货膨胀率通货膨胀率 ,失业失业率率 ,相关系数矩阵,相关系数矩阵R如前。如前。试用主因子分析法求因子分析模型。试用主因子分析法求因子分析模型。假定用假定用 代替初始的代替初始的 691x2x3x)(|max2ijrhiji2ih222123122,555hhh*1/51/51/511111/52/52/512251/52/52/5122R70 特征根为特征根为:9123.01l0877.02l03l 对应的非零特征向量为:对应的非零特征向量为:261.0657.0261.0657.0929.0369.00877.0261.09123.0657.00877.0261.09123.0657.00877.0929.09123.0369.0077.0628.0077.0628.0275.0352.0711211275.0352.0FFx2212077.0625.0FFx31230.6820.077xFF新的共同度为:22210.3520.2750.18129h 3966.0077.0625.02222h4710.0077.0682.02223h

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!