农村发展研究方法农村发展研究评价方法PPT精选文档

上传人:沈*** 文档编号:91145355 上传时间:2022-05-16 格式:PPT 页数:192 大小:3.34MB
收藏 版权申诉 举报 下载
农村发展研究方法农村发展研究评价方法PPT精选文档_第1页
第1页 / 共192页
农村发展研究方法农村发展研究评价方法PPT精选文档_第2页
第2页 / 共192页
农村发展研究方法农村发展研究评价方法PPT精选文档_第3页
第3页 / 共192页
资源描述:

《农村发展研究方法农村发展研究评价方法PPT精选文档》由会员分享,可在线阅读,更多相关《农村发展研究方法农村发展研究评价方法PPT精选文档(192页珍藏版)》请在装配图网上搜索。

1、1第十二章第十二章 农村发展研究评价方法农村发展研究评价方法2主要内容主要内容 第一节 农村发展研究评价的一般过程和分类 第二节 农村发展研究常用的评价方法3第一节第一节 农村发展研究评价的一般过程和分类农村发展研究评价的一般过程和分类 一、评价概述 二、农村发展研究评价的一般过程 三、评价方法分类4一、评价概述一、评价概述 评价评价就是参照一定标准对客体的价值或优就是参照一定标准对客体的价值或优劣进行评判比较的一种认知过程,同时也劣进行评判比较的一种认知过程,同时也是一种决策过程。是一种决策过程。 评价分评价分综合评价综合评价和和单项评价单项评价单项评价:评价标准单一、明确单项评价:评价标准

2、单一、明确(单指标评价)(单指标评价)综合评价:评价标准复杂、抽象综合评价:评价标准复杂、抽象(多指标评价)(多指标评价)5二、农村发展研究评价的一般过程二、农村发展研究评价的一般过程 评价的目的是通过对评价对象属性的定量化测定,实现对评价对象整体水平或功能的量化描述,从而揭示事物的价值或发展规律。6二、农村发展研究评价的一般过程二、农村发展研究评价的一般过程 完整的评价可以分为如下几个阶段:(1)确定评价目的,选取评价对象)确定评价目的,选取评价对象(2)建立评价指标体系)建立评价指标体系 具体包括评价目标的细分与结构化,指标体系的初步确定,指标体系的整体检验与初步检验,指标体系结构的优化,

3、定性变量的数量化等环节。(3)选择评价方法与模型)选择评价方法与模型 具体包括评价方法选择,权数构造,评价指标体系的标准值与评价规则的确定。7二、农村发展研究评价的一般过程二、农村发展研究评价的一般过程 完整的评价可以分为如下几个阶段:(4)综合评价实施)综合评价实施 包括指标体系数据搜集、数据评估、必要的数据推算模型参数求解等。(5)对评价结果进行评估与检验)对评价结果进行评估与检验,以判别所,以判别所选评价模型、有关标准、有关权值、甚至指标选评价模型、有关标准、有关权值、甚至指标体系合理与否。体系合理与否。 若不符合要求,则需要进行一些修改,甚至返回到前述的某一环节。(6)评价结果分析与报

4、告)评价结果分析与报告 具体包括评价结果的书面分析,撰写评价报告,提供与发布评价结果,资料的储备与后续开发利用。8三、评价方法分类三、评价方法分类l评价方法可以分为定性评价方法和定量评价方法两类。l按其评价思想不同,可以分为加权评价方法和非加权评价方法两类。l按各评价方法的理论基础不同,可以分为六大类定量评价方法。9三、评价方法分类三、评价方法分类 定性评价方法定性评价方法:专家会议法、德尔菲法 常规定量评价方法常规定量评价方法:功效系数法、综合指数法 多元统计评价方法多元统计评价方法:主成分分析法、因子分析法、聚类分析法、判别分析法、理想点法 运筹学评价方法运筹学评价方法:层次分析法、DEA

5、法(数据包络分析) 模糊评价方法模糊评价方法:模糊综合评价、模糊聚类、模糊识别、模糊物元、模糊积分10第二节第二节 农村发展研究常用的评价方法农村发展研究常用的评价方法 一、综合指数法 二、功效系数法 三、主成分分析 四、因子分析 五、聚类分析 六、判别分析 七、层次分析法11一、综合指数法一、综合指数法 综合指数法是指在确定一套合理的经济效益指标体系的基础上,对各项经济效益指标个体指数加权平均,计算出经济效益综合值,用以综合评价经济效益的一种方法。即将一组相同或不同指数值通过统计学处理,即将一组相同或不同指数值通过统计学处理,使不同计量单位、性质的指标值标准化,最后使不同计量单位、性质的指标

6、值标准化,最后转化成一个综合指数,以准确地评价工作的综转化成一个综合指数,以准确地评价工作的综合水平。合水平。12一、综合指数法一、综合指数法 各项指标的权数是根据其重要程度决定的,体现了各项指标在经济效益综合值中作用的大小。 综合指数法的基本思路则是利用层次分析法计算的权重和模糊评判法取得的数值进行累乘,然后相加,最后计算出经济效益指标的综合评价指数。 13综合指数法的基本步骤综合指数法的基本步骤 (1 1)选择适当的指标选择适当的指标 (2 2)确定权重确定权重 (3 3)根据实测数据及其规定标准,综合考察各评根据实测数据及其规定标准,综合考察各评价指标,探求综合指数的计算模式。价指标,探

7、求综合指数的计算模式。 (4 4)合理划分评价等级合理划分评价等级 (5 5)检验评价模式的可靠性检验评价模式的可靠性14应用实例应用实例 引用甲、乙两地区2000年农业经济效益资料,说明综合指数法在分析评价农业经济效益方面的具体应用。 甲乙两地区2000年农业经济效益相关资料见表1:以农业物耗与产值比表示资金产出率;以亩均产量和亩均收入表示土地生产率;以劳均产值、劳均收入等表示劳动生产率。15 在构建指标体系的基础上,通过在构建指标体系的基础上,通过德尔菲德尔菲咨询,进咨询,进行行层次分析层次分析来确定各指标的权数,以初值化消除来确定各指标的权数,以初值化消除量纲,计算农业经济效益综合指数。

8、量纲,计算农业经济效益综合指数。 其计算公式为其计算公式为: :16 由计算结果可知,由计算结果可知,20002000年两地区经济效益综合指年两地区经济效益综合指数分别为数分别为110.28%110.28%和和115.52%115.52%,均大于,均大于100%100%,说明,说明两地区农业经济效益较好,且乙地区农业经济效两地区农业经济效益较好,且乙地区农业经济效益优于甲地区农业经济效益。益优于甲地区农业经济效益。17二、功效系数法二、功效系数法 功效系数法是根据多目标规划原理而建立的一种评价方法。 其含义是:在评价某一整体的综合效益时,一般其含义是:在评价某一整体的综合效益时,一般有多种指标

9、,而这些指标的性质和度量单位往往有多种指标,而这些指标的性质和度量单位往往不同,不能直接相加或综合,需要通过一定形式不同,不能直接相加或综合,需要通过一定形式的函数关系将其转化为同度量指标,再将这些同的函数关系将其转化为同度量指标,再将这些同度量指标加权综合,使之形成一个综合指标,称度量指标加权综合,使之形成一个综合指标,称之为总功效系数,以此评价整体的综合效益。之为总功效系数,以此评价整体的综合效益。18 在以往功效系数法的应用中在以往功效系数法的应用中, ,最后功效系数值使用最后功效系数值使用加权算术平均的方法确定加权算术平均的方法确定, ,为了更准确地评价整体为了更准确地评价整体效益状况

10、效益状况, ,统计学家设计出统计学家设计出改进功效系数改进功效系数, ,对每一对每一评价指标分别确定一个满意值与不允许值评价指标分别确定一个满意值与不允许值, ,以满意以满意值为标准上限值为标准上限, ,不允许值为标准下限不允许值为标准下限, ,按按线性正相线性正相关的方法将不同的评价指标无量纲化转为相应的关的方法将不同的评价指标无量纲化转为相应的评价分数评价分数, ,经加权几何平均得出综合评价分数经加权几何平均得出综合评价分数, ,对对评价对象的综合状况作出评估评价对象的综合状况作出评估。 综合功效系数越大综合功效系数越大, ,表明评价对象综合状况越佳。表明评价对象综合状况越佳。19 其数学

11、模型为:20应用实例:应用实例: 基于功效系数法的城市土地利用效益评价以武汉市为例城市土地利用可从城市土地利用可从经济效益经济效益、社会效益社会效益、生态生态效益效益三个方面对其进行评价,但其涉及的指标三个方面对其进行评价,但其涉及的指标繁杂,且性质与度量单位也存在较大差异,因繁杂,且性质与度量单位也存在较大差异,因此可以使用功效系数法对其进行评价。此可以使用功效系数法对其进行评价。21222324三、主成分分析三、主成分分析 主成分分析(Principal Component Analysis,PCA)在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同

12、程度上反映这个课题的某些信息。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们希望变量个数较少而得到的信息较多。当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的这些新变量在反映课题的信息方面尽可能保持原有的信息信息。 25主成分分析方法的原理主成分分析方法的原理 设法将原来变量重新组合成一组新的互相无关的几个

13、综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上降维处理的一种方法。 26主成分分析的具体步骤主成分分析的具体步骤 1、确定指标体系在各项具体指标的设置和选择过程中,要注意指标的全面性、代在各项具体指标的设置和选择过程中,要注意指标的全面性、代表性、可得性、简洁性和整合性。表性、可得性、简洁性和整合性。 2、建立原始信息矩阵Xnp 3、对矩阵X中的数据实行标准化处理,统一指标之间的量纲,使其具有可比性 4、求标准化矩阵Z的相关矩阵R,利用标准化后的数据计算P个指标间的相关系数 5、求相关矩阵R的特征值和特征向

14、量 6、确定主成分的个数k累计贡献率大于等于累计贡献率大于等于85%的的k值值 7、给出主成分Yi, i=1, 2, p的表达式。 8、计算综合评价指标综合评价指标其实就是前综合评价指标其实就是前K个主成分的线性加权值个主成分的线性加权值 9、计算评价分值并排序27应用实例:应用实例: 主成分分析及其应用探讨以山西省农村居民消费结构为例年份消费性支出构成食品X1衣着X2家庭设备用品及服务X3医疗保险X4交通和通讯X5娱乐教育文化服务X6居住X7杂物商品及服务X81980100.00 59.89 15.49 3.71 0.44 0.40 1.61 18.12 0.34 1985100.00 54

15、.32 14.62 8.00 2.68 0.51 5.29 13.81 0.77 1990100.00 52.87 12.45 6.85 4.06 0.65 6.73 15.52 0.87 1995100.00 63.15 11.10 4.63 3.35 1.51 6.77 8.37 1.12 1996100.00 58.39 11.15 5.01 3.82 1.88 7.99 9.25 2.51 1997100.00 57.03 10.55 5.13 4.05 3.62 8.18 9.50 1.94 1998100.00 56.06 10.82 5.14 4.49 3.02 9.53 9.1

16、2 1.82 1999100.00 51.55 10.34 4.96 5.57 4.42 11.52 9.78 1.86 2000100.00 48.64 9.87 4.25 5.25 4.25 11.78 12.52 3.44 2001100.00 47.55 9.67 4.18 4.84 4.64 11.66 14.04 3.42 2002100.00 43.86 10.18 4.77 4.76 7.62 13.04 12.64 3.13 山西省农村居民家庭平均每人全年消费性支出构成(19802002)28SPSS操作操作 1、Analyze-Data Reduction-Factor29

17、2、选择后弹出现下面的对话框3、把数据都选进Variables 去303、把数据都选进Variables 去4、点击31 5、弹出现下面的对话框6、在对话框的空白处填0,记得上面的图中要选中前面的点32 7、点击continue 钮 8、返回上个对话框 9、如需要得到相关系数矩阵,点击在在Coefficients 前的方框打上钩前的方框打上钩33 10、然后点击continue 钮 11、返回上个对话框,点击“OK”34分析结果分析结果表格表格 相关系数矩阵C Co or rr re el la at ti io on n M Ma at tr ri ix x1.000.456.006-.61

18、7-.759-.755-.239-.688.4561.000.377-.897-.760-.903.617-.828.006.3771.000-.040-.404-.228.062-.423-.617-.897-.0401.000.698.934-.520.733-.759-.760-.404.6981.000.889-.257.813-.755-.903-.228.934.8891.000-.416.872-.239.617.062-.520-.257-.4161.000-.268-.688-.828-.423.733.813.872-.2681.000食品X1衣着X2家庭设备用品及服务X3

19、医疗保险X4交通和通讯X5娱乐教育文化服务X6居住X7杂物商品及服务X8Correlation食品X1衣着X2家庭设备用品及服务X3医疗保险X4交通和通讯X5娱乐教育文化服务X6居住X7杂物商品及服务X8 可以看出变量之间的相关性,证明变量之间存在信息重叠。35分析结果分析结果表格表格 方差分解主成分提取分析表T To ot ta al l V Va ar ri ia an nc ce e E Ex xp pl la ai in ne ed d5.13764.21764.2175.13764.21764.2171.36517.06881.2851.36517.06881.2851.09213.

20、65094.9351.09213.65094.935.2172.71597.650.2172.71597.650.1491.86699.517.1491.86699.517.033.41999.935.033.41999.935.005.065100.000.005.065100.0003.37E-0164.22E-015100.000Component12345678Total% ofVarianceCumulative %Total% ofVarianceCumulative %Initial EigenvaluesExtraction Sums of Squared LoadingsEx

21、traction Method: Principal Component Analysis.特征值特征值主成分贡献率主成分贡献率累积贡献率累积贡献率36 初始因子载荷矩阵初始因子载荷矩阵C Co om mp po on ne en nt t M Ma at tr ri ix xa a-.712-.672-.196.042.013-.034.004-.935.289.035-.128.073.136.016-.338.081.930-.027.108-.051-.002.905-.132.326.143-.184.047.040.907.189-.136-.346.012-.052.022.98

22、8.036.119-.021-.043.058-.051-.432.869-.154.150-.093-.0527.97E-005.915.118-.161.187.296.010.013食品X1衣着X2家庭设备用品及服务X3医疗保险X4交通和通讯X5娱乐教育文化服务X6居住X7杂物商品及服务X81234567ComponentExtraction Method: Principal Component Analysis.7 components extracted.a. 每一个载荷量表示主成分与对应变量的相关系数。每一个载荷量表示主成分与对应变量的相关系数。37 将前三个因子载荷矩阵输入(可

23、用复制粘贴的方法)到数据编辑窗口(为变量B1 、B2 、B3 ) , 然后利用“ Transform compute ” , 在对话框中输入“A1=B1/SQR(5.137)”即可得到特征向量A1。注:第二主成分SQR 后的括号中填1.365,第三主成分SQR 后的括号中填1.092, 同理,可得到A2、A3。然后就可以得出主成分表达式。C Co om mp po on ne en nt t M Ma at tr ri ix xa a-.712-.672-.196.042.013-.034.004-.935.289.035-.128.073.136.016-.338.081.930-.027.

24、108-.051-.002.905-.132.326.143-.184.047.040.907.189-.136-.346.012-.052.022.988.036.119-.021-.043.058-.051-.432.869-.154.150-.093-.0527.97E-005.915.118-.161.187.296.010.013食品X1衣着X2家庭设备用品及服务X3医疗保险X4交通和通讯X5娱乐教育文化服务X6居住X7杂物商品及服务X81234567ComponentExtraction Method: Principal Component Analysis.7 componen

25、ts extracted.a. 38Transform -compute得出主成分表达式39主成分表达式 主成分得分表主成分得分表第一主成分第一主成分代表的意义代表的意义为消费结构针对发展、为消费结构针对发展、享受需求和生存需求的享受需求和生存需求的差异,差异,得分越高,表明得分越高,表明人们对于发展和享受的人们对于发展和享受的需求越大需求越大。40计算评价分值并排序计算评价分值并排序 以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型。 根据主成分综合模型可以计算综合主成分值,并对其按综合主成分值进行排序。332132321213211YYYY41四、因子

26、分析四、因子分析 因子分析就是将大量的彼此可能存在相关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法。这样既可减轻收集信息的工作量,且各综合指这样既可减轻收集信息的工作量,且各综合指标代表的信息比重叠,便于分析。标代表的信息比重叠,便于分析。42因子分析的步骤因子分析的步骤 第一步:主因子分析是通过原始变量的相关系数矩阵内部结构的研究,导是通过原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个综合变量,通过这少数出能控制所有变量的少数几个综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。几个综合变量去描述原始的多个变量之间的相关关系。 第二步:

27、对因子的解释和命名从因子分析导出的负荷矩阵的结构出发,把变量按与从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,使同组内变量间的公共因子相关性大小的程度分组,使同组内变量间的相关性较高,不同组的变量的相关性较低,按公因子相关性较高,不同组的变量的相关性较低,按公因子包含变量的特点(即公因子内涵)对因子作解释命名。包含变量的特点(即公因子内涵)对因子作解释命名。43应用实例应用实例 农民工培训驱动机理研究以重庆市璧山县为例在对在对2个街道办事处个街道办事处3个镇个镇150余农户(主要是余农户(主要是外出务工)及外出务工)及150余名外出农民工抽样调查的余名外出农民工抽

28、样调查的基础上,分析了该县农民工培训的特点,并运基础上,分析了该县农民工培训的特点,并运用因子分析法对影响农民工培训的因素(如就用因子分析法对影响农民工培训的因素(如就业概率、市场风险率、政府支持度等)做了定业概率、市场风险率、政府支持度等)做了定量的分析,得出相关结论。量的分析,得出相关结论。44 通过对璧山县2个街道办事处3个镇的外出农民工进行抽样调查、走访以及与当地一些政府部门的座谈,从影响农民工培训的因素中选取了8个具体变量进行分析,并根据当地农民工培训的具体情况对公式进行了相关转换,即:45 各因子数据具体计算方法为:农民工愿意培训度农民工愿意培训度=(愿意培训农民工数愿意培训农民工

29、数/农民工总人数农民工总人数)100%;企业愿意培训度企业愿意培训度=(企业愿意培训数企业愿意培训数/企业总数企业总数)100%;就业概率就业概率=(培训后找到工作人数培训后找到工作人数/培训总人数培训总人数)100%;接受知识限度为培训后进行相关考试接受知识限度为培训后进行相关考试,总分为一百分总分为一百分;政府支持度政府支持度=(政府实际投入培训资金政府实际投入培训资金/政府预计投入资金政府预计投入资金)100%;市场风险率市场风险率=(1-培训后各企事业实际招收人数培训后各企事业实际招收人数/培训前市场预计所培训前市场预计所需相关专业人数需相关专业人数)100%. 应用以上相关方法得出各

30、因子所需数据,而后运用SPSS中的因子分析模型进行运算,结果如下:46Spss操作操作 1、Analyze-Data Reduction-Factor47 点击Descriptives,弹出Factor Analysis:Descriptives对话框 选Univariate descriptives项要求输出各变量的均数与标准差, 选Coefficients项要求计算相关系数矩阵, 并选KMO and Bartletts test of sphericity项,要求对相关系数矩阵进行统计学检验。 点击Continue钮返回。48 点击Extraction,弹出Factor Analysis:

31、Extraction对话框,系统提供如下因子提取方法: Principal components:主成分分析法;:主成分分析法; Unweighted least squares:未加权最小平方法;:未加权最小平方法; Generalized least squares:综合最小平方法;:综合最小平方法; Maximum likelihood:极大似然估计法;:极大似然估计法; Principal axis factoring:主轴因子法;:主轴因子法; Alpha factoring:因子法;因子法; Image factoring:多元回归法。:多元回归法。49 点击Rotation,弹出

32、Factor Analysis:Rotation对话框,系统有5种因子旋转方法可选:None:不作因子旋转;:不作因子旋转;Varimax:正交旋转;:正交旋转;Equamax:全体旋转,对变量和因子均作旋转;:全体旋转,对变量和因子均作旋转;Quartimax:四分旋转,对变量作旋转;:四分旋转,对变量作旋转;Direct Oblimin:斜交旋转。:斜交旋转。旋转的目的是为了获得简单结构,以帮助我们解释因子。旋转的目的是为了获得简单结构,以帮助我们解释因子。之后点击之后点击Continue钮返回。钮返回。50 点击Scores,弹出弹出Factor Analysis:Scores对话框,系

33、统提供3种估计因子得分系数的方法: 之后点击Continue钮返回 再点击OK钮即完成分析。 51 Correlation MatrixC Co or rr re el la at ti io on n M Ma at tr ri ix xa a1.000.014-.970.335.058-.039-.451-.962.0141.000-.120.254.971-.624.602-.248-.970-.1201.000-.162-.140-.050.254.971.335.254-.1621.000.287-.869-.391-.300.058-.120-.140.2871.000-.601.

34、438-.305-.039.254-.050-.869-.6011.000-.090.101-.451.971.254-.391.438-.0901.000.305-.962-.248.971-.300-.305.101.3051.000农民意愿培训度企业意愿培训度培训后工资(元)就业概率培训费用(元)接受知识限度政府支持度市场风险率Correlation农民意愿培训度企业意愿培训度培训后工资(元)就业概率培训费用(元)接受知识限度政府支持度市场风险率This matrix is not positive definite.a. 52初始因子载荷阵初始因子载荷阵T To ot ta al l

35、V Va ar ri ia an nc ce e E Ex xp pl la ai in ne ed d3.41542.69242.6923.41542.69242.6923.09838.72238.7222.79234.90177.5942.79234.90177.5942.53731.71070.4321.51618.94996.5421.51618.94996.5422.08926.11096.542.2773.458100.0004.00E-0165.01E-015100.0001.34E-0161.67E-015100.000-2.1E-016 -2.58E-015100.000-3

36、.1E-016 -3.83E-015100.000Component12345678Total % of VarianceCumulative % Total % of VarianceCumulative % Total % of VarianceCumulative %Initial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsExtraction Method: Principal Component Analysis.初始因子载荷提取因子载荷旋转提取因子载荷53Compon

37、ent Matrix54主成分分析和因子分析的区别主成分分析和因子分析的区别 因子分析是主成分分析的推广和发展。在算法上,主成分分析和因子分析很类似 。 (1)因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。 (2)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。 55五、聚类分析五、聚类

38、分析 聚类分析又称群分析、点群分析,指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的多元统计评价过程。是定量研究分类问题的一种多元统计方法。 聚类分析的概念56聚类分析的概念聚类分析的概念 人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题。 以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。57 为了克服定性分类存在的不足,于是把数学方法引进分类学中,形成了数值分类学,后来

39、随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。 在多元统计分析中,聚类分析在许多领域中都得到了广泛的应用,取得了许多令人满意的成果。58 聚类分析的基本思想聚类分析的基本思想 认为所研究的样品或指标之间存在认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样着程度不同的相似性,于是根据一批样品的多个观测指标,品的多个观测指标,找出能够度量样品找出能够度量样品或变量之间相似程度的统计量或变量之间相似程度的统计量,并以此,并以此为依据,采用某种聚类法,将所有的样为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使品或变量分别聚合到不同的

40、类中,使同同一类中的个体有较大的相似性,不同类一类中的个体有较大的相似性,不同类中的个体差异较大中的个体差异较大。59 聚类分析的内容 聚类分析包括很多种方法,系统聚类法是最基本、最常用的一种,此外还有有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、有重叠聚类等,不同的方法适合解决不同类型的问题。60 聚类分析的对象类型聚类分析的对象类型 Q型聚类型聚类采用距离统计量,是对样品进行分类处理是对样品进行分类处理 。 根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种,具有以下优点:优点:1、可综合利用多个变量的信息对样品进行分类;、可综合利用多个变量的信息对样品进

41、行分类;2、分类结果直观,聚类谱系图非常清楚地表现分类结果;、分类结果直观,聚类谱系图非常清楚地表现分类结果;3、所得结果比传统分类方法更细致、全面、合理。、所得结果比传统分类方法更细致、全面、合理。61 R型聚类型聚类采用采用相似系数相似系数统计量,统计量,是对变量进行分类处理。 一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。62 R型聚类分析的主要作用型聚类分析的主要作用:1、可了解个别变量之间及变量组合之间的、可了解个

42、别变量之间及变量组合之间的亲疏程度;亲疏程度;2、根据变量的分类结果以及它们之间的关、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或系,可以选择主要变量进行回归分析或Q型型聚类分析。聚类分析。 63事物之间的相似性测度 聚类分析用于系统类群相似性的研究,其实质上是寻找一种能客观反映样品或变量之间亲疏关系的统计量,然后根据这种统计量把样品或变量分成若干类。常用的统计量有距离和相似系数。64用相似系数度量用相似系数度量 是两个事物离得多近的度量。性质越接近的元素其相似系数的绝对值越接近于1;彼此无关的元素其相似系数的绝对值越接近于0。 相似的元素归为一类,不相似的元素归为不同

43、的类。 65用距离来度量 是两个事物离得多远的度量。 将一个样品看作空间的一个点,在空间定义距离,距离近的点归为一类,距离远的点归为不同的类。66变量类型的划分变量类型的划分 1、间隔尺度间隔尺度: 是用连续的实值变量来表示的,是由测量或计数、统计所得到的量。如:经济统计数字、抽样调查数据、身高、体如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。重、年龄、速度、压力等。 67 2、有序尺度有序尺度: 没有明确的数量表示,而是划分一些等级,等级之间有次序关系。如:毕业论文成绩有:优、良、中、及格、如:毕业论文成绩有:优、良、中、及格、不及格之分;不及格之分;体质状况有好、中、差三

44、个等级;体质状况有好、中、差三个等级;某产品质量可分为一等品、二等品、三等品某产品质量可分为一等品、二等品、三等品等。等。 变量类型的划分变量类型的划分 68 3、名义尺度名义尺度: 既没有数量表示,也没有次序关系,而是表现为某种状态,其值通常是非数值数据。如:性别有男、女;颜色有红、黄、蓝、绿如:性别有男、女;颜色有红、黄、蓝、绿等;医疗诊断中的阴性、阳性等。等;医疗诊断中的阴性、阳性等。 变量类型的划分变量类型的划分 69 不同类型的变量,其距离和相似系数的定义方法有很大差异。 用得较多的是间隔尺度,因此只介绍间隔尺度的距离和相似系数的定义。 70 n个样品p项指标形成的原始数据资料矩阵中

45、,每一行表示一个样品,每一列表示一个变量。 因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。 71 1、距离定义、距离定义:将n个样品看成p维空间中的n个点,两个样品间相似程度可用p维空间中两点的距离来度量。 (1)绝对距离)绝对距离 (2)欧氏距离)欧氏距离 (3)马氏距离)马氏距离 (4)切比雪夫距离)切比雪夫距离 计算出任何两个样品之间的距离排成距离阵D,根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。 72 2、相似系数:、相似系数:将n个样品看成p维空间中的n个向量。 (1) 夹角余弦夹角余弦 (2) 相关系

46、数相关系数 以上是样品分类常用的距离和相似系数定义,它是在p维空间中来研究n个样品间的相似;而对变量分类是在n维空间中来研究p列变量间的相似,其相似性也用距离和相似系数来度量。 73系统聚类分析方法 系统聚类分析也叫分层聚类分析,是目前国内外使用得最多的一种方法,有关它的研究极为丰富,聚类分析的方法也最多。 74系统聚类的步骤 (1)计算计算n个样品两两之间的距离记为矩阵个样品两两之间的距离记为矩阵D; (2)首先构造首先构造n个类,每一类中只包含一个样品;个类,每一类中只包含一个样品; (3)合并距离最近的两类为新类;合并距离最近的两类为新类; (4)继续合并,直到所有的样本合并为一类为止;

47、继续合并,直到所有的样本合并为一类为止; (5)画谱系图;画谱系图; (6)决定类的个数和类。系统聚类允许一类整个地包决定类的个数和类。系统聚类允许一类整个地包含在另一类内,但在这两类间不能有其他类与之重叠。含在另一类内,但在这两类间不能有其他类与之重叠。 75系统聚类方法 样品之间可以用不同的方法定义距离,类与类之间的距离也有多种定义。 用不同的方法定义类与类之间的距离,就产生了不同的系统聚类方法。 76 (1)最短距离法:)最短距离法:定义类与类之间距离为两类最近样品的距离,使空间浓缩,形成链状,分类效果不好; (2)最长距离法:)最长距离法:定义类与类之间距离为两类最远样品的距离,受奇异

48、值的影响大; 77 (3)重心法:)重心法:以两类重心之间的距离作为两类间的距离。重心即该类样品的均值重心即该类样品的均值。每合并一次类,都要重新计算新类的重心。每合并一次类,都要重新计算新类的重心。不具单调性,图形逆转,限制了其应用,可不具单调性,图形逆转,限制了其应用,可能引起局部最优,但能引起局部最优,但在处理异常值方面较稳在处理异常值方面较稳健健。 78 (4)类平均法:)类平均法: 以两类元素两两之间距离平方的平均作为类间距离的平方。 (5)离差平方和法:)离差平方和法:又称又称Ward法,法,其基本思想是认为同类样品的离差平方和应当较小,类与类的离差平方和应当较大。首先首先n个样品

49、各自成一类,然后每次缩小一类,每个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有样品归为一类。它增加最小的两类合并,直到所有样品归为一类。它分类效果较好,应用较广泛,对异常值较敏感分类效果较好,应用较广泛,对异常值较敏感。离差平方和是各项与平均项之差的平方的总和 79 以上几种聚类方法,只有两点区别:(1) 类与类之间距离定义不同;(2)计算新类与其他类的距离所用的公式不同,因而并类距离不同;各种方法并类步骤完全一样。各种方法并类步骤完全一样。80 在一般情况下,用不同的方法聚类的结果是不

50、会完全一致的,怎样比较各种方法的优劣呢?至今还没有合适的衡量标准,因为不存在一种总是至今还没有合适的衡量标准,因为不存在一种总是最优的聚类方法。最优的聚类方法。类的结构(规模、形状、个数)、奇异值、相似测类的结构(规模、形状、个数)、奇异值、相似测度选择都会影响结果。度选择都会影响结果。 在实际应用中,一般采用以下两种处理方法:(1)根据分类问题本身的专业知识结合实际需要)根据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数;来选择分类方法,并确定分类个数;(2)多用几种分类方法去作,把结果中的共性提)多用几种分类方法去作,把结果中的共性提出来,对有争议的样品用出来,对有争议的

51、样品用判别分析判别分析去归类。去归类。81应注意的问题应注意的问题 (1)在聚类分析中,应根据不同的目的选用不同的指标。一般来说,选择哪些变量应该具有一定的理论支持,但一般来说,选择哪些变量应该具有一定的理论支持,但在实践中往往缺乏这样强有力的理论基础,一般根据实在实践中往往缺乏这样强有力的理论基础,一般根据实际工作经验和所研究问题的特征人为的选择变量,这些际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的特征,变量应该和分析的目标密切相关,反映分类对象的特征,在不同研究对象上的值具有明显差异,变量之间不应该在不同研究对象上的值具有明显差异,变量之间不

52、应该高度相关。高度相关。选变量时并不是加入的变量越多,得到的结选变量时并不是加入的变量越多,得到的结果越客观。果越客观。有时,加入一两个不合适的变量就会使分类有时,加入一两个不合适的变量就会使分类结果大相径庭。结果大相径庭。 82 变量之间高度相关相当于加权,此时,有两种处理方法:(1)首先进行变量聚类首先进行变量聚类,从每类中选一代,从每类中选一代表性变量,再进行样品聚类;表性变量,再进行样品聚类;(2)进行主成分分析或因子分析进行主成分分析或因子分析,降维,降维,使之成为不相关的新变量,再进行样品聚类。使之成为不相关的新变量,再进行样品聚类。 83 (2)标准化问题)标准化问题指标选用的度

53、量单位将直接影响聚类分指标选用的度量单位将直接影响聚类分析的结果。析的结果。为了避免对变量单位选择的依赖,数据为了避免对变量单位选择的依赖,数据应当标准化。应当标准化。 数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准化。应注意的问题应注意的问题 84 研究问题研究问题 对一个班同学的数学水平进行聚类对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入聚类的依据是第一次数学考试的成绩和入学考试的成绩。学考试的成绩。SPSS中实现过程中实现过程85姓 名第一次成绩入 学 成 绩hxh99.0098.00yaju88.0089.00yu79.00

54、80.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00数据如下表所示:数据如下表所示:86 实现步骤实现步骤在在SPSS中如何选择标准化方法中如何选择标准化方法:Analyze Classify Hierachical Cluster Analysis 然后从对话框中进行然后从对话框中进行如下选择如下选择8788从从Transform Values框中点击向下箭头,框中点击向下箭头,将出现如下可选项,将出现如下可选项,从中选一即可:从

55、中选一即可:1、数据标准化、数据标准化89常用标准化方法(选项说明):常用标准化方法(选项说明): None:不进行标准化,这是系统默认值:不进行标准化,这是系统默认值为了便于后面的说明,作如下假设:为了便于后面的说明,作如下假设: nmnmxxxxX1111均值均值表示为表示为 niijjxnx11标准差标准差表示为表示为 nijijjxxnS1211所有样本所有样本表示为表示为极差极差表示为表示为ijniijnijxxR 11minmax90 Z Scores:标准化变换:标准化变换 mjniSSSxxxjjjjijij, 2 , 1, 2 , 1000*若若若若:变换后的数据均值为:变换

56、后的数据均值为0,标准差为,标准差为1,消去,消去了量纲的影响;当抽样样本改变时,它仍能保了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。持相对稳定性。91 Range 1 to 1:极差标准化变换:极差标准化变换 mjniRxRRxxxjijjjjijij, 2 , 1, 2 , 100*若若若若:变换后的数据均值为:变换后的数据均值为0,极差为,极差为1,且,且|xij*|1,消去了量纲的影响;在以后的分,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。析计算中可以减少误差的产生。92 Maximum magnitude of 1 mjnixxxxxxxijniijniiji

57、jniijniijij, 2 , 1, 2 , 10max1min0maxmax1111*若若若若:变换后的数据最大值为:变换后的数据最大值为1。93 Range 0 to 1(极差正规化变换(极差正规化变换 / 规格化变换)规格化变换) mjniRRRxxxjjjijniijij, 2 , 1, 2 , 105 . 00min1*若若若若:变换后的数据最小为:变换后的数据最小为0,最大为,最大为1,其余,其余在区间在区间0,1内,极差为内,极差为1,无量纲。,无量纲。94 Mean of 1 mjnixxxxxxjijjjijij, 2 , 1, 2 , 1010*若若若若:变换后的数据均值

58、为:变换后的数据均值为1。95 Standard deviation of 1 mjniSxSSxxjijjjijij, 2 , 1, 2 , 100*若若若若:变换后的数据标准差为:变换后的数据标准差为1。96 在在SPSS中如何选择测度中如何选择测度:Analyze Classify Hierachical Cluster Analysis Method 然后从对话框中进行如下选择然后从对话框中进行如下选择2 2、构造关系矩阵、构造关系矩阵描述变量或样本的亲疏程度的数量指标有两种:描述变量或样本的亲疏程度的数量指标有两种: 相关系数相关系数 距离距离97从从Measure框中点击框中点击I

59、nterval项的向下箭头,项的向下箭头,将出现如左可选项,将出现如左可选项,从中选一即可。从中选一即可。98 常用测度(选项说明):常用测度(选项说明): Euclidean distance:欧氏距离:欧氏距离(二阶(二阶Minkowski距离)距离)iiiyxyxd2)(),(:聚类分析中用得最广泛的距离聚类分析中用得最广泛的距离但与各变量的量纲有关,未考虑指标间的相关性,但与各变量的量纲有关,未考虑指标间的相关性,也未考虑各变量方差的不同也未考虑各变量方差的不同99 Squared Euclidean distance:平方欧氏距离:平方欧氏距离:聚类分析中用得最广泛的距离聚类分析中用

60、得最广泛的距离 iiiyxyxd2)(),(100 Cosine:夹角余弦:夹角余弦(相似性测度相似性测度):计算两个向量在原点处的夹角余弦。当两夹:计算两个向量在原点处的夹角余弦。当两夹角为角为0o时,取值为时,取值为1,说明极相似;当夹角为,说明极相似;当夹角为90o时,取值为时,取值为0,说明两者不相关。,说明两者不相关。取值范围:取值范围:01 iiiiiiiyxyxyx22),cos(101 Pearson correlation:皮尔逊相关系数:皮尔逊相关系数的的标标准准值值是是iiiiixZxnZyZxyx,1),cos( :计算两个向量的皮尔逊相关系数:计算两个向量的皮尔逊相关

61、系数102 Chebychev:切比雪夫距离:切比雪夫距离iiiyxyxd max),(:计算两个向量的切比雪夫距离:计算两个向量的切比雪夫距离 Block:绝对值距离(一阶:绝对值距离(一阶Minkowski度量)度量)(又称(又称Manhattan度量或网格度量)度量或网格度量) iiiyxyxd),(1:计算两个向量的绝对值距离:计算两个向量的绝对值距离103 Minkowski:明科夫斯基距离:明科夫斯基距离qiqiiqyxyxd/1),( :计算两个向量的明科夫斯基距离:计算两个向量的明科夫斯基距离 Customized:自定义距离:自定义距离riqiiqyxyxd/ 1),( :计

62、算两个向量的自定义距离:计算两个向量的自定义距离104SPSS中如何选择系统聚类方法中如何选择系统聚类方法从从Cluster Method框框中点击向下箭头,将中点击向下箭头,将出现如左可选项,从出现如左可选项,从中选一即可。中选一即可。105 Between-groups linkage 组间平均距离连接法组间平均距离连接法:非最大距离,也非最小距离:非最大距离,也非最小距离方法简述:合并两类的结果使所有的两两项对之间方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类)的平均距离最小。(项对的两成员分属不同类) Within-groups linkage 组

63、内平均连接法组内平均连接法方法简述:两类合并为一类后,合并后的类中所有方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小项之间的平均距离最小常用系统聚类方法介绍常用系统聚类方法介绍106 Nearest neighbor 最近邻法(最短距离法)最近邻法(最短距离法):样品有链接聚合的趋势,这是其缺点,不适:样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。倡用这种方法。方法简述:首先合并最近或最相似的两项方法简述:首先合并最近或最相似的两项 Furthest neighbor 最远邻法(最长距离

64、法)最远邻法(最长距离法)方法简述:用两类之间最远点的距离代表两类之间方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法的距离,也称之为完全连接法107 Centroid clustering 重心聚类法重心聚类法:该距离随聚类地进行不断缩小。该法的谱系:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。树状图很难跟踪,且符号改变频繁,计算较烦。方法简述:两类间的距离定义为两类重心之间的距方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样离,对样品分类而言,每一类中心就是属于该类样品的均值品的均值 Medi

65、an clustering 中位数法中位数法:图形将出现递转,谱系树状图很难跟踪,因:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。而这个方法几乎不被人们采用。方法简述:两类间的距离既不采用两类间的最近距方法简述:两类间的距离既不采用两类间的最近距离,也不采用最远距离,而采用介于两者间的距离离,也不采用最远距离,而采用介于两者间的距离108 Wards method 离差平方和法离差平方和法:实际应用中分类效果较好,应用较广;要求:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。样品间的距离必须是欧氏距离。方法简述:基于方差分析思想,如果分类合理,则方法简

66、述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平同类样品间离差平方和应当较小,类与类间离差平方和应当较大方和应当较大109生成树形图生成树形图生成冰柱图生成冰柱图凝聚状态表,显凝聚状态表,显示聚类过程示聚类过程各项间的距离矩阵各项间的距离矩阵类成员栏类成员栏110111112 由于本例中选中的选项较多,这里按照各个结果由于本例中选中的选项较多,这里按照各个结果分别解释。分别解释。 (1 1)首先是层次聚类分析的)首先是层次聚类分析的概要结果概要结果,该结果,该结果是是SPSSSPSS输出结果文件中的第一个表格,如下表所示。输出结果文件中的第一个表格,如下表所示。结果和讨论结果和讨论113(2 2)输出的结果文件中第二个表格如下表所示。)输出的结果文件中第二个表格如下表所示。欧氏距离欧氏距离114(3 3)输出的结果文件中第三个表格为)输出的结果文件中第三个表格为层次聚层次聚类分析的凝聚状态表类分析的凝聚状态表,包括:,包括:115(4 4)输出的结果文件中第四个表格如下表所示。)输出的结果文件中第四个表格如下表所示。116(5 5)输出的结果文件中第五

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!