多元统计分析 聚类分析 主成分分析 因子分析

上传人:jin****ng 文档编号:210652551 上传时间:2023-05-17 格式:DOCX 页数:26 大小:40.82KB
收藏 版权申诉 举报 下载
多元统计分析 聚类分析 主成分分析 因子分析_第1页
第1页 / 共26页
多元统计分析 聚类分析 主成分分析 因子分析_第2页
第2页 / 共26页
多元统计分析 聚类分析 主成分分析 因子分析_第3页
第3页 / 共26页
资源描述:

《多元统计分析 聚类分析 主成分分析 因子分析》由会员分享,可在线阅读,更多相关《多元统计分析 聚类分析 主成分分析 因子分析(26页珍藏版)》请在装配图网上搜索。

1、=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=多元统计分析(期末试题)聚类分析主成分分析因子分析2011-2012学年第一学期多元统计分析上机考试试卷班级:金融工程2009级 学号: 2009310283 姓名: 田睿 电 脑序号:考试说明:1、打开本试卷的WORD文件后,首先将本 WORD文档“另存”,将文件名设为你的 “学号+姓名”,并在本试卷中再次填好班 级、姓名、学号、电脑序号,再根据题 目要求将必要的结果复制到件中并进行 必要的分析。考试结束时,提交该WORD 文档,请不要提交SPSS的结果文件。 2、考试时间120分钟,16:0018:00。 考试结束后,将本试

2、卷上传至ftp:/的“多 元统计期末考试提交”子目录。注意,请 务必到教师工作台向监考教师确认你的 试卷已经上传成功后,再离开教室。 上机操作题: 1、为了从1张心电精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 1 =精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 图的5项不同指标中找出区分健康人、 硬化症患者和冠心病患者这3类人的方 法,对3类人分别取容量为nl=ll、n2=7、 n3=5的3个样本,原始数据见表1。请 对此案例进行判别分析,并回答以下问 题: 简述Fisher判别分析的基本原理。 本题中,请分析三组人群在各项指标的 取值上是否有显著差异。

3、 请写出贝叶 斯判别函数的表达式。 请写出未标准 化的Fisher判别函数的表达式。 分析 三组人群被错判的情况。 画出表示 三组人群的两个Fisher判别式得分的散 点图,用不同颜色的符号区别表示 不同的人群。 新测得某人的5项指 标值为,请给出其贝叶斯 判别的后 验概率值,以及Fisher判别函数的得分 值,则他属于哪类? 贝叶斯判别方 法的判别准则并不唯一,请说明在SPSS 软件中,所输出的Bayes判 别函数 的结果是在怎样的假设条件以及准则下 计算得到的。答:1. Fisher判别分析的基本原理是:通过投影,用p=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 维变

4、量的少数几个线性组合,来代替原 始的p维变量,以达到降维的目的,再 根据样品在这些判别函数上的取值,对 样品的归属做出判别。2. SPSS输出表 格:组均值的均等性的检验XI X2 X3 X4X5Wilks的Lambda .853 .598 .773 .751 .701 F df1 2 2 2 2 2 df2 20 20 20 20 20 Sig. .203 .006 .076 .057 .029看各个总体在均值等指标上除了 x1均小于, 说明x2到x5之间有显著的差异,而x1 的检验值大于,拒绝原假设,说明其总 体之间指标差异不大3. SPSS输出表格 分类函数系数 X1 X2 X3 X4

5、X5 (常量)1-.463 .091- group 2-.401 .121-3-.434 .365- Fisher的线性判别式函数通过上表写出Bayes判别函数分别 为:Fl=-+F2=-+F3=-+4.SPSS输出表格:典型判别式函数系数 X1 X2 X3 X4 X5 (常量)1 函数 2 .110 .016 -.137 .329 -.456 - .299 -.024 -.060.710-非标准化=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=系数Fl=-+ F2=-+5.SPSS输出表格分类结果a初始 计 数group 1 2 3 % 1 2 3 1 预测组成员2 11

6、0 1.0 0 6 0 .0.0 3 0 1 4 .0 合计11 7 5 a.已对初始分组案例中 的%个进行了正确分类。上图可知, 第一组成员全部判断正确;第二组错判 为第一组的概率是;第三组错判成第 一组的概率是20%6.SPSS输出表格 7.某人的5项指标值为 将各样品的自变量值代入上述三个 Bayes 判另0 函数:F1=-+F2=-+ F3=-+ 得至 I:F1= F2=F3=两个Fisher判别函数分另0 为:F1=-+ F2=-+F1=F2=8.距离判别法虽然简单、便于使用,但是该方法也有它明显 的不足之处。一,把总体等同看待,没有考虑到各总体会以不同的概率出 现,也即判别方法与总

7、体各自出现的概 率的大小无关。第二,判别方法与错判之后所造成的损失无关,没有考虑=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 误判之后所造成的损失的差异因此,我们对研究的对象已有一定的认识, 常用先验概率分布来描述这种认识,然 后我们取得一个样本,用样本来修正已 有的认识,得到后验概率分布,各种统 计推断都通过后验概率分布来进行,将 贝叶斯思想用于判别分析,就得到贝叶 斯判别。2、根据1999年全国31个省、直辖市和自治区的城镇居民 家庭平均每人全年消费性支出的八个主要变量数据,见表2,变量如下: xl:食品x2:衣着x5:交通和通讯x6:娱乐教育文化服务x7: 居住 x

8、8:杂项商品和服务x3:家庭设备用品及服务x4:医疗保健请说明聚类分析和判别分析的根本区 别。 本题中,分别采用系统聚类方 法的最短距离法、重心法和离差平方和 法对各地区作 聚类分析,给出谱系 图。 通过比较不同的方法,你认为 哪种方法的结果更好。 根据你的选 择,在相应的系统聚类谱系图上表示出精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载、 L 7=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 划分为三类的结果。对各类的特征进 行解释。再采用K均值聚类方法,给出分成三类的结果,以及各类的类重 心值。答:1.判别分析和聚类分析是两种不同目的的分类方法,它们

9、所起的作用是不同的。判别分析方法假 定组已事先分好,判别新样品应归属哪 一组,对组的事先划分有时也可以通过 聚类分析得到。聚类分析:将分类对象分成若干类,相似的归为同一类, 不相似的归为不同的类。2.最短距离法、重心法和离差平方和法 作谱系图最短距离法下的谱系图 * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E r a n A L Y S I S * * * * * * * * * *Dendrogram using Complete LinkageRescaledDistance Cluster C

10、ombineC A S E0510152025=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=LabelNum+山西4-+甘肃28-+ 内蒙古5-+辽宁6-+ 黑龙江8-+-+吉林7-+ | 青海29-11+宁夏30-+ |河南16-+-+|陕西27-+江苏10 -+-+ |云南25-+ | 重庆22+I I湖北17-+ + |四川23-+-+|湖南18-+ | +河北3-+ I| 新疆31-+-+I|山东15-+ |安徽12 -+-+ |贵州24-+-+|+江西14+-+ |福建131+|广西20-+ | |海南21-+ |西藏精选公文范文,管理类,工作总结类,工作计划类文

11、档,感谢阅读下载 7 26+|天津2|浙江11 -+-+|北京1+-+上海9-+|广东19+重心法下1 勺谱系图* *1*1 *1 *1 *1 *1 *1 *1 *1* * * H I E R A R C H I C A L C L U S T E r a n A L Y S I S * * * * * * * * * *1 *1 *1 *1 *1 *1 *1 *1 *1DendrogramusingCentroidMethodRescaledDistanceCluster CombineCASE0510152025LabelNum+山西4-+甘肃28-+内蒙古5-+辽宁6-+黑龙江8-+吉林

12、7-+青海29-+-+宁夏30-+ |河北3-+ |新疆31-+ |河南16+安徽、12 -+ 1贵州24+陕西271+湖北17-+ | |四川23-+ |湖南18-+江苏10-+ |云南25-+ +-+重庆22+I I山东15+ |+-+福建13+ | |广西20-+|+-+江西14-+ |+-+海南21 -+| |西藏26+|天津2+|浙江11+I北京1+-+上海9-+|广东19+离差平方和法下的谱系图* * * * * * * * * H I E R A R C HI C A L C L U S T E R A N A L Y S I*1 *1 *1 *1 *1 *1 *1 *1 *1

13、*1 *1 *1 *1 *1 *1 *1 *1 *1 *1DendrogramusingWardMethodRescaled DistanceClusterCombineCASE0510152025LabelNum+山西4-+甘肃28-+ 内蒙古5-+-+青海29-+ |宁夏30-+ |辽宁6-+ |黑龙江8-+ +吉林7-+ |安徽12-+ |贵州24-+ |河南16-+-+|陕西27-+|江西14-+|福建13-+广西20-1+|海南21-+| |湖北17-+| |四川23-+-+ |湖南18-+-+| | |河北3-+ | | |、新疆31-+ | | | |山东15-+ +-+-+|江

14、苏10-+ |云南25-+ |重庆22-+-+|天津2-+|西藏26+|北京1-+-+|浙江11-+ +-+|上海9+-+ 广东19-+3离差平方和的方法较好4*1* * * *H I E R A R C H IC A L C L U S T E RA N AL YS I s * * * * * * * * *DendrogramusingWardMethodRescaled DistanceClusterCombineCASE0510152025LabelNumMMm + MMMMM I甘肃山西4+-+28-+内蒙古5-+-+青海29-+I宁夏30-+ I辽宁6-+ I黑龙江8-+ +吉林7

15、-+ II安徽12-+ II贵州24-+ II河南16-+-+I陕西27-+I江西14-+I福建13-+广西20-1+II海南21-+I II湖北17-+I II四川23-+-+ II湖南18-+-+I I II河北3-+ II I II新疆31-+ II I II山东15-+ +-+ +-+I江苏10-+ III云南25-+ III重庆22-+-+II天津2-+II西藏26-+I=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=北京 1-+-+|浙江 11-+ +-+|上 海9-+ 广东 19+第一类为西藏、海南、广西、福建、湖南、四川、 湖北、山东、新疆、河北、重庆、天津、

16、云南、江苏第二类为江西、陕西、河南、贵州、安徽、宁夏、吉林、 黑龙江、辽宁、内蒙古、山西、甘肃 第三类为广东、上海、浙江、北京5.根据上面的分类,可以看出:第一类为 经济和居民生活欠发达的地区第二类 为经济和居民生活较为发达的地区第 三类为经济和居民生活的发达地区6, 根据SPSS 聚类成员案例号1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21地区北京 天津 河北 山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南聚类1 2 3 3 3 3=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=3 3

17、 1 2 2 3 2 3 3 3 3 3 1 3 3 距离22 23 24 25 26 27 28 29 30 31重庆 四川 贵州 云南 西 藏陕西 甘肃 青海 宁夏 新疆 2 3 3 2 2 3 3 3 3 3根据上面两个表格可知:K均值聚类分成的 三类:第一类为北京、上海、广东 第二类为天津、江苏、浙江、福建、重 庆、云南、西藏 第三类为江西、陕 西、河南、贵州、安徽、宁夏、吉林、 黑龙江、辽宁、内蒙古、 山西、甘 肃、河北、江西、山东、湖南、湖北、 四川、广西、海南、宁夏、云南、贵州、 青海 7.最终聚类中心食品衣着家庭设备用品及服务医疗保健 交通和通讯娱乐教育文化服务居住 杂项商品和

18、服务1 聚类233、收集了某市工业部门13个行业的6 项经济指标如下所列,原始数据见表3。 X1:年末固定资产净值,单位:万元; X2:职工人数,单位:人;X3 :工业=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 总产值,单位:万元;X4:全员劳动生 产率,单位:元/人年;X5 :百元固定 资产原值实现产值,单位:元;X6:资 金利税率,单位:%;请对此案例进行因子分析,并回答以下问题: 请简要说明因子分析的目的。在什么情 况下因子分析将失效? 本题中,按 照特征值大于1的标准,应提取几个因 子?所提取的因子对原数据表的 解 释精度达到多少?给出各变量的共同度。在因子分析

19、中,共同度是用来 反应什么的指标?分别给出因子旋转前和旋转后的因子载荷矩阵。在因 子分析中进行因子旋转的目的是什么?分别写出旋转后的因子分析模型表达式和计算因子得分的表达式。 根据所得到的因子分析模型解释各因子 的含义。 对13个行业进行综合评 价,给出综合排名的结果。 答:1. 因子分析(factor analysis)和主成分分析 的目的是一样的,即:将具有相关关系 的多个变量综合为数量较少的几个因=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 子,从而实现数据降维。2.解释的总方差初始特征值成份1 2 3 4合 计 .437 .109方差的% 累积% 合计 提取平方和

20、载入方差的% 累积% 合计旋转平方和载入方 差的 % 累积 %56 .035 .004 .586 .058 提取方法:主成 份分析。图可知可提取两个因子,精度达到 3.因子方差初始提取年 末固定资产净值职工人数工业总产值全 员劳动生产率百元固定资产原值实现产 值资金利税率提取方法:主成份分析。 共同度描述了全部公共因子对变量的总 方差所做的贡献,反映了公共因子对该 变量的影响程度。也反映了变量对全部 公共因子的共同依赖程度。 4. 成份矩阵a年末固定资产净值职工 人数工业总产值全员劳动生产率百 元固定资产原值实现产值资金利稅率 提取方法:主成分分析法。a.已提取了 2 个成份。1 成份2 .2

21、75 .238 .445 .871 .742 .868 .947 .937 .=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=894 -.171 -.492 -.422成份矩阵 a成份12年末固定资产净值.职工人数.工 业总产值.全员劳动生产率-.百元固定资 产原值实现产值-.资金利稅率-.提取方法: 主成分分析法。.已提取了 2个成份。旋 转后的矩阵:旋转成份矩阵a成份12年末固定资产净值.职工人数.工业 总产值.全员劳动生产率.百元固定资产 原值实现产值-.资金利稅率-.提取方法: 主成分分析法。旋转法:具有Kaiser标 准化的正交旋转法。a.旋转在3次迭代后 收敛。旋

22、转的目的是:当有些公共因子对多个变量都有较明显的影响作 用。这时因子模型不利于突出主要矛盾 和矛盾的主要方面,也很难对因子的实 际背景进行合理的解释。这时通过因子 旋转可以使它仅在一个公共因子上载荷 较大,其余的载荷较小,有利于突出每 个公共因子和其载荷较大的变量的联 系,显示公共因子的主要性质。5 .旋 旋转成份矩阵a年末固定资产净值 职工人数工业总产值全员劳动生产率=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 百元固定资产原值实现产值资金利稅 率提取方法:主成分分析法。1成份 2 -.086 -.117 .091 .874 .870 .962 .982 .960 .9

23、94 .1 56 -.190 -.080 旋转法:具有 Kaiser 标 准化的正交旋转法。a.旋转在3次迭 代后收敛。转后的因子分析模型表达式和计算因子得分的表达式。 X1=+=+=-+=-+成份得分系数矩阵 年末固定资产净值职工人数 工业总产值全员劳动生产率百元固定 资产原值实现产值1成份2 -.006 -.019 .066 .360 .348 .334 .325 .343 .079 -.040资金利税率提取方法:主成分分 析法。.001 .389 旋转法:具有Kaiser 标准化的正交旋转法。构成得分。成份得分系数矩阵成份12年末固定资 产净值.职工人数.工业总产值.全员劳动 生产率.百

24、元固定资产原值实现产值-.资 金利稅率.提取方法:主成分分析法。旋 转法:具有Kaiser标准化的正交旋转法。 构成得分。计 算 因 子=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 得 分 的 表 达 式 :Fl=+=-+ 6. 旋转成份矩阵a年末固定资产净值 职 工人数工业总产值全员劳动生产率 百元固定资产原值实现产值资金利税 率提取方法:主成分分析法。1成份 2 -.086 -.117 .091 .874 .870 .962 .982 .960 .994 .1 56 -.190 -.080 旋转法:具有 Kaiser 标 准化的正交旋转法。a.旋转在3次迭 代后收敛。

25、旋转成份矩阵a成份12年末固定资产净值职工人数工 业总产值.全员劳动生产率.百元固定资 产原值实现产值-.资金利税率-.提取方法: 主成分分析法。旋转法:具有Kaiser标 准化的正交旋转法。a.旋转在3次迭代后 收敛。显然,F1和年末固定资产净值、 职工人数、工业总产值相关性较高,因 此可解释为生产规模指标,决定工厂的 生产规模F2和全员劳动生产率、百元固定资产原值实现产值、资=精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=金利稅率相关性较高,因 此可解释为生产效率指标,决定生产效 率。7.加权平均综合得分=/积累贡献 - 通过excel计算十三个行业的得分如上,所以 排名

26、如下:机器食品化学纺织缝纫冶金造纸森工文教皮革建材 电力 煤炭4、对35个管理类期刊进行分类评估,选取了如下4项指 标,原始数据见表4。 XI:被引次 数X2:载文量X3:引证期刊X4:标注“国家自然科学基金项目”下面采用因子分析和聚类分析相结合的方 法对35个期刊进行分类评估。首先,采用因子分析方法,按照特征值大 于1的标准,对数据表进行降维处理。 给 出旋转后的因子载荷矩阵和因子 载荷图,并解释因子的含义。 第二 步,计算因子得分,根据35个期刊的因 子得分值对它们进行K均值聚类,给出 聚类结果。第三步,画出表示各类期刊的两个因子得分的散点图,用不同=精选公文范文,管理类,工作总结类,工作

27、计划类文档,欢迎阅读下载= 颜色的符号区别表示 不同的类。根 据散点图上各类期刊的散布位置以及对 因子含义的理解,分析各类 期刊的 差异特征。 1.旋转成份矩阵a被 引次数载文量引证期刊标注基金1 成份 2 .063 .953 -.147 .316 .782 -.017 .827 .477提取方法:主成分分析 法。 旋转法:具有Kaiser标准化的 正交旋转法。a.旋转在3次迭代后收 敛。因子1和被引次数、引证期刊、标注基金相关性较高,因为期刊质 量好,高级期刊基金引用,所以因子1 可以被解释为内容质量 因子2和 载文量相关性较咼,可以被解释为内容 数量的大小 2.用聚类分析 聚 类成员案例号

28、1 2 3期刊名称管理世 界系统理实系工学报聚类12 1距 离.763 .967 .470 4中国软科5数量经 济6中国管科7管理工程8企业管 理9运筹学报10经济理管11管理 现代12中国工经13金融研究14经 济科学15科学学研16科研管理17 =精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 宏观经济18会计研究19预测 20 统计管理21系统科数22系统工程 23国际金研24中外管理25情报学 报26科学技管27改革 28科技 论坛29自动化 30中国技经31控 制决策32财政研究2 4 3 3 4 3 1 3 4 4 3114333114411132324 .270

29、 .922 .595 .704 .631 .546 .576 .769.262 .117 .468 .297 .780 .380 .599 .242 .4 74.456 .966 .713.538 .798 .215 .730 .677 .750 33 34 35经济研究国际金融 研究发展 1 4 3.635 .3543.。根据图像,显然第一类期刊在因子1上 得分较高,而因子2上得分较低,说明 这类期刊被引用情况较好,质量较高而 内容较少,属于少而精的较高品质期刊。 第二类期刊在因子1和因子2上得分都 较高,说明这类期刊被引用情况较好, 文章质量较高内容较多,品质很高。 第三类期刊在因子1和2得分都较低, 说明文章质量不好,期刊内容较少,期 刊品质很差。 第四类期刊在因子1 =精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载= 得分较低,因子2得分较高,说明文章 质量不好,期刊内容较多,质量较差。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!