多元统计分析聚类分析主成分分析因子分析

上传人：jin****ng 文档编号：210652551 上传时间：2023-05-17 格式：DOCX 页数：26 大小：40.82KB

收藏版权申诉举报下载

第1页 / 共26页

第2页 / 共26页

第3页 / 共26页

下载文档到电脑，查找使用更方便

30 积分

下载资源

资源描述：

《多元统计分析聚类分析主成分分析因子分析》由会员分享，可在线阅读，更多相关《多元统计分析聚类分析主成分分析因子分析（26页珍藏版）》请在装配图网上搜索。

1、=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=多元统计分析（期末试题）聚类分析主成分分析因子分析2011-2012学年第一学期多元统计分析上机考试试卷班级：金融工程2009级学号： 2009310283 姓名：田睿电脑序号：考试说明：1、打开本试卷的WORD文件后，首先将本 WORD文档“另存”，将文件名设为你的 “学号+姓名”，并在本试卷中再次填好班级、姓名、学号、电脑序号，再根据题目要求将必要的结果复制到件中并进行必要的分析。考试结束时，提交该WORD 文档，请不要提交SPSS的结果文件。 2、考试时间120分钟，16:0018:00。考试结束后，将本试

2、卷上传至ftp:/的“多元统计期末考试提交”子目录。注意，请务必到教师工作台向监考教师确认你的试卷已经上传成功后，再离开教室。上机操作题： 1、为了从1张心电精选公文范文，管理类，工作总结类，工作计划类文档，感谢阅读下载 1 =精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 图的5项不同指标中找出区分健康人、硬化症患者和冠心病患者这3类人的方法，对3类人分别取容量为nl=ll、n2=7、 n3=5的3个样本，原始数据见表1。请对此案例进行判别分析，并回答以下问题：简述Fisher判别分析的基本原理。本题中，请分析三组人群在各项指标的取值上是否有显著差异。

3、请写出贝叶斯判别函数的表达式。请写出未标准化的Fisher判别函数的表达式。分析三组人群被错判的情况。画出表示三组人群的两个Fisher判别式得分的散点图，用不同颜色的符号区别表示不同的人群。新测得某人的5项指标值为，请给出其贝叶斯判别的后验概率值，以及Fisher判别函数的得分值，则他属于哪类？贝叶斯判别方法的判别准则并不唯一，请说明在SPSS 软件中，所输出的Bayes判别函数的结果是在怎样的假设条件以及准则下计算得到的。答：1. Fisher判别分析的基本原理是：通过投影，用p=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 维变

4、量的少数几个线性组合，来代替原始的p维变量，以达到降维的目的，再根据样品在这些判别函数上的取值，对样品的归属做出判别。2. SPSS输出表格：组均值的均等性的检验XI X2 X3 X4X5Wilks的Lambda .853 .598 .773 .751 .701 F df1 2 2 2 2 2 df2 20 20 20 20 20 Sig. .203 .006 .076 .057 .029看各个总体在均值等指标上除了 x1均小于，说明x2到x5之间有显著的差异，而x1 的检验值大于，拒绝原假设，说明其总体之间指标差异不大3. SPSS输出表格分类函数系数 X1 X2 X3 X4

5、X5 （常量）1-.463 .091- group 2-.401 .121-3-.434 .365- Fisher的线性判别式函数通过上表写出Bayes判别函数分别为:Fl=-+F2=-+F3=-+4.SPSS输出表格：典型判别式函数系数 X1 X2 X3 X4 X5 （常量）1 函数 2 .110 .016 -.137 .329 -.456 - .299 -.024 -.060.710-非标准化=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=系数Fl=-+ F2=-+5.SPSS输出表格分类结果a初始计数group 1 2 3 % 1 2 3 1 预测组成员2 11

6、0 1.0 0 6 0 .0.0 3 0 1 4 .0 合计11 7 5 a.已对初始分组案例中的%个进行了正确分类。上图可知，第一组成员全部判断正确；第二组错判为第一组的概率是;第三组错判成第一组的概率是20%6.SPSS输出表格 7.某人的5项指标值为将各样品的自变量值代入上述三个 Bayes 判另0 函数：F1=-+F2=-+ F3=-+ 得至 I:F1= F2=F3=两个Fisher判别函数分另0 为：F1=-+ F2=-+F1=F2=8.距离判别法虽然简单、便于使用，但是该方法也有它明显的不足之处。一，把总体等同看待,没有考虑到各总体会以不同的概率出现，也即判别方法与总

7、体各自出现的概率的大小无关。第二，判别方法与错判之后所造成的损失无关，没有考虑=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 误判之后所造成的损失的差异因此，我们对研究的对象已有一定的认识, 常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识，得到后验概率分布，各种统计推断都通过后验概率分布来进行，将贝叶斯思想用于判别分析，就得到贝叶斯判别。2、根据1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据，见表2，变量如下： xl：食品x2：衣着x5：交通和通讯x6：娱乐教育文化服务x7：居住 x

8、8：杂项商品和服务x3：家庭设备用品及服务x4:医疗保健请说明聚类分析和判别分析的根本区别。本题中，分别采用系统聚类方法的最短距离法、重心法和离差平方和法对各地区作聚类分析，给出谱系图。通过比较不同的方法，你认为哪种方法的结果更好。根据你的选择，在相应的系统聚类谱系图上表示出精选公文范文，管理类，工作总结类，工作计划类文档，感谢阅读下载、 L 7=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 划分为三类的结果。对各类的特征进行解释。再采用K均值聚类方法，给出分成三类的结果，以及各类的类重心值。答：1.判别分析和聚类分析是两种不同目的的分类方法，它们

9、所起的作用是不同的。判别分析方法假定组已事先分好，判别新样品应归属哪一组，对组的事先划分有时也可以通过聚类分析得到。聚类分析：将分类对象分成若干类，相似的归为同一类，不相似的归为不同的类。2.最短距离法、重心法和离差平方和法作谱系图最短距离法下的谱系图 * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E r a n A L Y S I S * * * * * * * * * *Dendrogram using Complete LinkageRescaledDistance Cluster C

10、ombineC A S E0510152025=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=LabelNum+山西4-+甘肃28-+ 内蒙古5-+辽宁6-+ 黑龙江8-+-+吉林7-+ | 青海29-11+宁夏30-+ |河南16-+-+|陕西27-+江苏10 -+-+ |云南25-+ | 重庆22+I I湖北17-+ + |四川23-+-+|湖南18-+ | +河北3-+ I| 新疆31-+-+I|山东15-+ |安徽12 -+-+ |贵州24-+-+|+江西14+-+ |福建131+|广西20-+ | |海南21-+ |西藏精选公文范文，管理类，工作总结类，工作计划类文

11、档，感谢阅读下载 7 26+|天津2|浙江11 -+-+|北京1+-+上海9-+|广东19+重心法下1 勺谱系图* *1*1 *1 *1 *1 *1 *1 *1 *1* * * H I E R A R C H I C A L C L U S T E r a n A L Y S I S * * * * * * * * * *1 *1 *1 *1 *1 *1 *1 *1 *1DendrogramusingCentroidMethodRescaledDistanceCluster CombineCASE0510152025LabelNum+山西4-+甘肃28-+内蒙古5-+辽宁6-+黑龙江8-+吉林

12、7-+青海29-+-+宁夏30-+ |河北3-+ |新疆31-+ |河南16+安徽、12 -+ 1贵州24+陕西271+湖北17-+ | |四川23-+ |湖南18-+江苏10-+ |云南25-+ +-+重庆22+I I山东15+ |+-+福建13+ | |广西20-+|+-+江西14-+ |+-+海南21 -+| |西藏26+|天津2+|浙江11+I北京1+-+上海9-+|广东19+离差平方和法下的谱系图* * * * * * * * * H I E R A R C HI C A L C L U S T E R A N A L Y S I*1 *1 *1 *1 *1 *1 *1 *1 *1

13、*1 *1 *1 *1 *1 *1 *1 *1 *1 *1DendrogramusingWardMethodRescaled DistanceClusterCombineCASE0510152025LabelNum+山西4-+甘肃28-+ 内蒙古5-+-+青海29-+ |宁夏30-+ |辽宁6-+ |黑龙江8-+ +吉林7-+ |安徽12-+ |贵州24-+ |河南16-+-+|陕西27-+|江西14-+|福建13-+广西20-1+|海南21-+| |湖北17-+| |四川23-+-+ |湖南18-+-+| | |河北3-+ | | |、新疆31-+ | | | |山东15-+ +-+-+|江

14、苏10-+ |云南25-+ |重庆22-+-+|天津2-+|西藏26+|北京1-+-+|浙江11-+ +-+|上海9+-+ 广东19-+3离差平方和的方法较好4*1* * * *H I E R A R C H IC A L C L U S T E RA N AL YS I s * * * * * * * * *DendrogramusingWardMethodRescaled DistanceClusterCombineCASE0510152025LabelNumMMm + MMMMM I甘肃山西4+-+28-+内蒙古5-+-+青海29-+I宁夏30-+ I辽宁6-+ I黑龙江8-+ +吉林7

15、-+ II安徽12-+ II贵州24-+ II河南16-+-+I陕西27-+I江西14-+I福建13-+广西20-1+II海南21-+I II湖北17-+I II四川23-+-+ II湖南18-+-+I I II河北3-+ II I II新疆31-+ II I II山东15-+ +-+ +-+I江苏10-+ III云南25-+ III重庆22-+-+II天津2-+II西藏26-+I=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=北京 1-+-+|浙江 11-+ +-+|上海9-+ 广东 19+第一类为西藏、海南、广西、福建、湖南、四川、湖北、山东、新疆、河北、重庆、天津、

16、云南、江苏第二类为江西、陕西、河南、贵州、安徽、宁夏、吉林、黑龙江、辽宁、内蒙古、山西、甘肃第三类为广东、上海、浙江、北京5.根据上面的分类，可以看出：第一类为经济和居民生活欠发达的地区第二类为经济和居民生活较为发达的地区第三类为经济和居民生活的发达地区6，根据SPSS 聚类成员案例号1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21地区北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南聚类1 2 3 3 3 3=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=3 3

17、 1 2 2 3 2 3 3 3 3 3 1 3 3 距离22 23 24 25 26 27 28 29 30 31重庆四川贵州云南西藏陕西甘肃青海宁夏新疆 2 3 3 2 2 3 3 3 3 3根据上面两个表格可知：K均值聚类分成的三类：第一类为北京、上海、广东第二类为天津、江苏、浙江、福建、重庆、云南、西藏第三类为江西、陕西、河南、贵州、安徽、宁夏、吉林、黑龙江、辽宁、内蒙古、山西、甘肃、河北、江西、山东、湖南、湖北、四川、广西、海南、宁夏、云南、贵州、青海 7.最终聚类中心食品衣着家庭设备用品及服务医疗保健交通和通讯娱乐教育文化服务居住杂项商品和

18、服务1 聚类233、收集了某市工业部门13个行业的6 项经济指标如下所列，原始数据见表3。 X1：年末固定资产净值，单位：万元； X2：职工人数，单位：人；X3 :工业=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 总产值，单位：万元；X4：全员劳动生产率，单位：元/人年；X5 :百元固定资产原值实现产值，单位：元；X6：资金利税率，单位：%；请对此案例进行因子分析，并回答以下问题：请简要说明因子分析的目的。在什么情况下因子分析将失效？本题中，按照特征值大于1的标准，应提取几个因子？所提取的因子对原数据表的解释精度达到多少？给出各变量的共同度。在因子分析

19、中，共同度是用来反应什么的指标？分别给出因子旋转前和旋转后的因子载荷矩阵。在因子分析中进行因子旋转的目的是什么？分别写出旋转后的因子分析模型表达式和计算因子得分的表达式。根据所得到的因子分析模型解释各因子的含义。对13个行业进行综合评价，给出综合排名的结果。答：1. 因子分析(factor analysis)和主成分分析的目的是一样的，即：将具有相关关系的多个变量综合为数量较少的几个因=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 子，从而实现数据降维。2.解释的总方差初始特征值成份1 2 3 4合计 .437 .109方差的% 累积% 合计提取平方和

20、载入方差的% 累积% 合计旋转平方和载入方差的 % 累积 %56 .035 .004 .586 .058 提取方法：主成份分析。图可知可提取两个因子,精度达到 3.因子方差初始提取年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法：主成份分析。共同度描述了全部公共因子对变量的总方差所做的贡献，反映了公共因子对该变量的影响程度。也反映了变量对全部公共因子的共同依赖程度。 4. 成份矩阵a年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利稅率提取方法：主成分分析法。a.已提取了 2 个成份。1 成份2 .2

21、75 .238 .445 .871 .742 .868 .947 .937 .=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=894 -.171 -.492 -.422成份矩阵 a成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率-.百元固定资产原值实现产值-.资金利稅率-.提取方法: 主成分分析法。.已提取了 2个成份。旋转后的矩阵：旋转成份矩阵a成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利稅率-.提取方法: 主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。旋

22、转的目的是：当有些公共因子对多个变量都有较明显的影响作用。这时因子模型不利于突出主要矛盾和矛盾的主要方面，也很难对因子的实际背景进行合理的解释。这时通过因子旋转可以使它仅在一个公共因子上载荷较大，其余的载荷较小，有利于突出每个公共因子和其载荷较大的变量的联系，显示公共因子的主要性质。5 .旋旋转成份矩阵a年末固定资产净值职工人数工业总产值全员劳动生产率=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 百元固定资产原值实现产值资金利稅率提取方法：主成分分析法。1成份 2 -.086 -.117 .091 .874 .870 .962 .982 .960 .9

23、94 .1 56 -.190 -.080 旋转法：具有 Kaiser 标准化的正交旋转法。a.旋转在3次迭代后收敛。转后的因子分析模型表达式和计算因子得分的表达式。 X1=+=+=-+=-+成份得分系数矩阵年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值1成份2 -.006 -.019 .066 .360 .348 .334 .325 .343 .079 -.040资金利税率提取方法：主成分分析法。.001 .389 旋转法：具有Kaiser 标准化的正交旋转法。构成得分。成份得分系数矩阵成份12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百

24、元固定资产原值实现产值-.资金利稅率.提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。构成得分。计算因子=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 得分的表达式：Fl=+=-+ 6. 旋转成份矩阵a年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法：主成分分析法。1成份 2 -.086 -.117 .091 .874 .870 .962 .982 .960 .994 .1 56 -.190 -.080 旋转法：具有 Kaiser 标准化的正交旋转法。a.旋转在3次迭代后收敛。

25、旋转成份矩阵a成份12年末固定资产净值职工人数工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率-.提取方法: 主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。显然，F1和年末固定资产净值、职工人数、工业总产值相关性较高，因此可解释为生产规模指标，决定工厂的生产规模F2和全员劳动生产率、百元固定资产原值实现产值、资=精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载=金利稅率相关性较高，因此可解释为生产效率指标，决定生产效率。7.加权平均综合得分=/积累贡献 - 通过excel计算十三个行业的得分如上，所以排名

26、如下：机器食品化学纺织缝纫冶金造纸森工文教皮革建材电力煤炭4、对35个管理类期刊进行分类评估，选取了如下4项指标，原始数据见表4。 XI：被引次数X2：载文量X3：引证期刊X4：标注“国家自然科学基金项目”下面采用因子分析和聚类分析相结合的方法对35个期刊进行分类评估。首先，采用因子分析方法，按照特征值大于1的标准，对数据表进行降维处理。给出旋转后的因子载荷矩阵和因子载荷图，并解释因子的含义。第二步，计算因子得分，根据35个期刊的因子得分值对它们进行K均值聚类，给出聚类结果。第三步，画出表示各类期刊的两个因子得分的散点图，用不同=精选公文范文，管理类，工作总结类，工作

27、计划类文档,欢迎阅读下载= 颜色的符号区别表示不同的类。根据散点图上各类期刊的散布位置以及对因子含义的理解，分析各类期刊的差异特征。 1.旋转成份矩阵a被引次数载文量引证期刊标注基金1 成份 2 .063 .953 -.147 .316 .782 -.017 .827 .477提取方法：主成分分析法。旋转法：具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。因子1和被引次数、引证期刊、标注基金相关性较高，因为期刊质量好，高级期刊基金引用，所以因子1 可以被解释为内容质量因子2和载文量相关性较咼，可以被解释为内容数量的大小 2.用聚类分析聚类成员案例号

28、1 2 3期刊名称管理世界系统理实系工学报聚类12 1距离.763 .967 .470 4中国软科5数量经济6中国管科7管理工程8企业管理9运筹学报10经济理管11管理现代12中国工经13金融研究14经济科学15科学学研16科研管理17 =精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 宏观经济18会计研究19预测 20 统计管理21系统科数22系统工程 23国际金研24中外管理25情报学报26科学技管27改革 28科技论坛29自动化 30中国技经31控制决策32财政研究2 4 3 3 4 3 1 3 4 4 3114333114411132324 .270

29、 .922 .595 .704 .631 .546 .576 .769.262 .117 .468 .297 .780 .380 .599 .242 .4 74.456 .966 .713.538 .798 .215 .730 .677 .750 33 34 35经济研究国际金融研究发展 1 4 3.635 .3543.。根据图像，显然第一类期刊在因子1上得分较高，而因子2上得分较低，说明这类期刊被引用情况较好，质量较高而内容较少，属于少而精的较高品质期刊。第二类期刊在因子1和因子2上得分都较高，说明这类期刊被引用情况较好，文章质量较高内容较多，品质很高。第三类期刊在因子1和2得分都较低，说明文章质量不好，期刊内容较少，期刊品质很差。第四类期刊在因子1 =精选公文范文，管理类，工作总结类，工作计划类文档,欢迎阅读下载= 得分较低，因子2得分较高，说明文章质量不好，期刊内容较多，质量较差。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

多元统计分析聚类分析主成分分析因子分析

最新文档

相关资源

相关搜索

多元统计分析 聚类分析 主成分分析 因子分析

最新文档

相关资源

相关搜索

多元统计分析聚类分析主成分分析因子分析