多元统计分析在区域经济评价中的运用

上传人:xins****2008 文档编号:114087286 上传时间:2022-06-27 格式:DOC 页数:32 大小:188.50KB
收藏 版权申诉 举报 下载
多元统计分析在区域经济评价中的运用_第1页
第1页 / 共32页
多元统计分析在区域经济评价中的运用_第2页
第2页 / 共32页
多元统计分析在区域经济评价中的运用_第3页
第3页 / 共32页
资源描述:

《多元统计分析在区域经济评价中的运用》由会员分享,可在线阅读,更多相关《多元统计分析在区域经济评价中的运用(32页珍藏版)》请在装配图网上搜索。

1、多元统计分析在区域经济评价中的运用武汉科技大学硕士学位论文多元统计分析在区域经济评价中的运用姓名:陈伟申请学位级别:硕士专业:概率论与数理统计指导教师:李德宜2010-10-10武汉科技大学 硕士学位论文 第I页 摘 要 区域经济经展水平的评价结果是政府部门判断该区域现有的经济水平和制定该区域经济发展策略的重要依据。目前区域经济分析常用的数学方法有多元统计、线性规划和决策论。其中多元统计分析在区域经济评价中的具体方法有因子分析、主成分分析、聚类分析和回归分析。在区域经济评价中,一般只采用其中一种方法进行分析,这存在一点不足, 即由于不同分析方法的思想和出发点不一样,导致不同的方法对同一数据分析

2、结果可能不一致。这对制定合理的区域经济发展策略存在着不利的影响。 武汉城市圈是我国两型社会建设综合改革和全国区域经济协调发展的重点地区,在“中部崛起”国家战略中起着领头作用,对湖北省的社会经济发展起着辐射带动作用。 本文以武汉城市圈9个市为研究对象,通过构建反映各市综合经济实力的评价指标体系,从地区基本情况、工农业发展情况、人民生活情况、社会发展情况和经济发展趋势等方面选取了30项经济指标,利用SAS软件,采用主成分和因子分析法对数据进行了分析,并用多变量协和系数检验法对这两种方法分析结果的一致性进行了检验,然后把这两个结果做组合。最后,利用聚类分析,依据分析结果将9个市分类,并对武汉城市圈各

3、市的经济发展提出了一些建议。 通过具体案例的分析,文章最后总结出了一种更好的区域经济分析方法,这种方法能回避不同的多元统计方法对同一数据分析结果可能不一致的问题,具体为首先采用多种方法对同一指标数据进行分析,然后对这些结果的一致性进行检验,在一致性较好的情况下,对结果做组合得到一个最终分析结果。 关键词:区域经济;主成分分析;因子分析;聚类分析 武汉科技大学 硕士学位论文 第II页 Abstract Evaluational result of regional economic development level is an important prove for governmental

4、sectors to judge the present development level and plan the strategies of this area. There are multivariate statistical analysis、linear programming and decision theory in the mathematic mothod we often used to analysis regional economy at present. Multivariate statistical analysis includes principal

5、 component analysis、factor analysis 、cluster analysis and regression analysis, while usually only one of these methods is used in the evaluation, which exist some limitations that the differentes of analysis leads to the inconsistant of the result of the same group of data for different methods. Wuh

6、an Metroplitan Area which plays an inportant role in comprehensive reform of the two-oriented social construction and coordinated development of regional economy in our country, is the leading role of National strategy of the rising of central China. And it takes a radial effect on other areas in Hu

7、bei Province. Taking Wuhan metroplitan area as the research object, this paper selects 30 economic indicators through constructing the evaluation index system which reflects the comprehensive economic strength of each city. Analyze the data by using SAS software as well as the principal component an

8、alysis method, the factor analysis method,and check the consistency of the results through concordant coemcients kendall test, then combine those two results.Finally,classify the 9 cities on the basis of the results with cluster analysis, and put some suggestions about the economic development of Wu

9、han metroplitan area. The article concluded a better analytic method of the regional economic development through the analysis of specific case.This method can aviod the inconsistency of different Multivariate statistical analysis and approaches to the same statistic analytic result.In the other wor

10、ds, we should first use many methods to analyse the same quota statistics, and then examine the consistency of those results, under the good consisitency, we can combine the results and get the final analytic result. Key words: regional economy;principal component analysis; factor analysis; cluster

11、analysis 武汉科技大学 硕士学位论文 第1页 第一章 绪论 1.1 研究背景及意义 区域经济经展水平的评价结果是政府部门判断该区域现有的经济水平和制定该区域经济发展策略的重要依据。目前区域经济分析常用的数学方法有多元统计、线性规划和决策论。其中多元统计分析在区域经济评价中的具体方法有因子分析、主成分分析、聚类分析和回归分析。在区域经济评价中,一般只采用其中一种方法进行分析,这存在一点不足, 即由于不同分析方法的思想和出发点不一样,导致不同的方法对同一数据分析结果可能不一致。这对制定合理的区域经济发展策略存在着不利的影响。因此考虑能不能找到一种更合理的分析思路,使得最终分析结果与所用到的

12、各种方的法分析结果都比较接近。 武汉城市圈是我国资源节约型和环境友好型社会建设综合改革配套实验区,是我国区域经济协调发展的重点地区,在“中部崛起”国家战略中和中原城市群一起起着领头作用,是湖北省社会经济发展的榜样,对全省社会经济发展起着辐射带动作用。武汉城市圈以九省通衢的武汉市为中心,地理位置优越,交通便利。武汉城市圈占湖北省33%的土地和51.6%的人口,该区域城市密集度高,经济基础坚实,自然环境条件优越,是湖北省和长江中游最大的城市圈域,同时也是湖北省经济实力的核心区域。因此武汉城市圈社会经济的发展对湖北省的发展和全国相应的社会经济发展战略都有着重要意义。武汉城市圈以湖北省省会武汉市为中心

13、城市,以湖北省第二大城市黄石市为副中心城市,包括鄂州、孝感、咸宁、黄冈、仙桃、潜江和天门。武汉城市圈通过政府拆除市场壁垒,工商、人事和教育等政府部门着力于在教育、金融、就业、交通、市场准入、人才流动、基础建设等方面建立一体化的政策框架,从而达到提高武汉城市圈整体实力和竞争力的目的。武汉城市圈内9个市的社会经济发展状况直接关系到武汉城市圈的发展,因此对这9个市的综合经济实力进行全面、客观的评价对武汉城市圈各市的社会经济发展具有现实指导意义。 1.2 研究内容 本文在在详细介绍了主成分分析、因子分析和聚类分析过程的基础上,从地区基本情况、工农业发展情况、人民生活情况、社会发展情况和经济发展趋势等方

14、面选取了30项经济指标,构建了武汉城市圈各市综合经济实力评价指标体系,利用SAS软件,采用主成分分析、因子分析和聚类分析对数据进行分析,依据分析结果对武汉城市圈各市的社会经济发展状况进行了综合排名,客观反映了各市的综合经济实力,并对武汉城市圈各市的社会经济发展提出了一些建议。 同时在对武汉城市圈各市经济发展水平这个案例分析的基础上,对在分析过程中出现的两种方法对同一组数据分析结果存在差异的现象进行了解释,由此综合了一种更准确的分析方法,并归纳了这种方法的分析步骤。 武汉科技大学 硕士学位论文 第2页 1.3 研究方法及创新点 目前区域经济分析1的方法主要有:1、定性分析与定量分析;2、回归分析

15、;3、聚类分析;4、主成分分析;5、因子分析;6、决策分析和层次分析;7、线性规划。多元统计分析在区域经济评价中的主要方法有因子分析、主成分分析、聚类分析和回归分析。多元统计分析的一个主要研究内容就是简化数据结构(即降维问题),把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多。主成分分析和因子分析就是这样一种方法。 本文用到的主要研究方法有:主成分分析法、因子分析法和聚类分析法。前两者用于对原始指标数据进行统计分析,并依据分析结果对各市经济发展情况进行评价和对各市综合经济实力进行排名。为了检验前两种方法分析的结果是否一致,文章采用多变量Kendall协和系数检验法对前两种方法

16、分析的结果进行了检验。聚类分析是在综合前两者分析结果的基础上,依据综合结果所显示的各市综合经济实力,对武汉城市圈9个市分类,以便对各市的社会经济发展状况进行评价。 由于不同分析方法的思想和出发点不一样,导致不同的方法对同一数据分析结果可能不一致,从而对制定相关经济发展策略有着不利的影响。文章在具体对武汉城市圈各市经济发展水平分析的基础上,综合了一种能回避上述问题的区域经济分析方法,使分析的结果更准确。 武汉科技大学 硕士学位论文 第3页 第二章 多元统计分析方法 2.1 主成分分析 主成分分析2也称主分量分析,由霍特林(Hotelling)于1933年提出。目的在于利用降维的思想,在损失少量信

17、息的前提下把多个指标转化为少数几个综合指标。通常把转化得到的综合指标称为主成分,每个主成分都是原始变量的线性组合,主成分之间互不相关。在实际问题研究中,为了全面、系统地分析问题,通常要考虑影响该问题的多方面的因素,称这些因素为指标。因为每个指标都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此可能会有一定的相关性,因而原始指标所反映的信息会彼此有一定程度的重复。在统计分析多指标问题时,往往因为指标太多而增加了问题研究的复杂程度,因此在现实问题研究中,希望能通过较少的指标反映较多的信息量。主成分分析通过降维可以简化指标,使问题变的相对简单,降低了问题的分析难度,对研究实际问题有着重要意义

18、。 2.1.1主成分的基本思想 主成分分析法就是把给定的一组相关指标通过线性变换转成另一组不相关的指标,转换后的新指标按照方差递减的顺序依次排列。但在变换中保持指标的总方差不变,使得变换后的第一指标具有最大的方差,称之为第一主成分,第二指标的方差次大,并且和第一指标不相关,称为第二主成分。依次类推,有i个指标就有i个主成分。 在实际问题研究中,为了降低分析的难度,提高分析效率,通常不直接对原始指标(m个)构成的的m维随机向量'X=(x1,x2Lxm)进行分析,而是先对X进行线性变换,把原来的的m维随机向量变换成新的综合变量L1,L2LLm,其中变量L1,L2LLm的方差依次递减,且变

19、量L1,L2LLm之间相互独立,通常选取前n(nm)个变量来代替原始变量进行分析3。 假设有K个样本,每个样本都有两个观测值(x,y),在二位坐标系上的分布成一个扁平的椭圆,见图2.1。 y1 y2 x2 o2 o1 x1 图2.1 由图2.1可以看出,记K个样本的观测值在坐标系x1oy1中坐标为(x,y),则K个样本的观测值在ox1和oy1轴都有较大的离散性,其离散程度由x,y的方差决定。在初始情武汉科技大学 硕士学位论文 第4页 况下,如果只考虑用其中一个变量来代替原始两个变量以达到降维的目的显然是不理想的,因为无论考虑保留哪个变量,将会损失另一个变量包含的大量信息。因此,考虑通过线性变换

20、,将x,y进行线性组合成两个新的变量,并且这两个新的变量所含信息量之差较没有变换前的两个变量所含信息量之差要大,也即,变换后其中一个变量的方差增大,而另一个变量的方差变小,从而可以用变换后方差增大的那个变量来代替原始两个变量达到降维的目的。 将图2.1中的坐标系进行旋转,记旋转后的坐标系为x2o2y2(见图2.1),记K个样本的观测值新坐标系x2o2y2中的坐标为''(x,y),由图2.1可以看出K个样本的观测值在新坐标系x2o2y2的o2x2轴上离散性较大,在o2y2轴上离散性较小,也即K个样本的观测值在o2x2轴上的方差达到了最大,变量x'代表了原始变量的大部

21、分信息。此时把二位空间的点投射到o2x2轴上来,这样可以使信息损失量达到最小,称x'为第一主成分,称y'为第二主成分。在实际问题研究中,根据实际情况,可以只考虑第一主成分,不考虑第二主成分,使信息的损失量达到最小,不仅对整个问题的研究没有影响,而且可以通过降维达到降低问题分析难度的目的。 2.1.2 主成分的求法4 设'X=(X1,X2,L,Xp)是一个p维随机变量,假设其存在二阶矩,把其均值向量和协方差阵分别记为: m=9E(X),=D(X) 对X做如下线性变换: ?Y='1t1X1+t12X2+L+t1pXp=T1X?Y=+L+='2t21

22、X1t2X2t2pXpT2X? ?M?Y=+L+='ptp1X1tp2X2tpXpTpX简记为:Y=T'X,其中'Y(Y1,Y2,L,Y);T=(T1,T2,L,T)。 通过变换寻找一组新的变量Y1,Y2,L,Yn(np),这组新的变量能充分反映原始变量的信息,而且相互独立。对Y1,Y2,L,Yn有: D(Y=DT'X=T'DXT'=T')T,1,i(i)()i=2,L,n iiii'''''cov(Y,Y)cov(TX,TX)Tcov(X,X)T=TT,i,k=1,2,L,

23、n ikikikik为了使Y1,Y2,L,Yn(np)能充分反映原始变量的信息,就是要求T使D(Y)=T'Tiiii达到最大。 假设T满足T'T=1,或者T=1,这样可以消除因T乘以任意一个常数使得D(Y)无iiiii武汉科技大学 硕士学位论文 第5页 限制的增大。 那么第一主成分Y1满足: Y=T'11X,其中T'1T1=1,D(Y=T'1)1T1达到最大。 第二主成分Y2满足: Y'2=T2X,其中T'2T2=1,cov(Y1,Y2)=0,DY=T'(2)2T2达到最大。 第k个主成分Y满足: kY=T

24、9;X,其中T'T=1,covkk(Y,Y=kki)0k(ik,kp),DY=T'(T达到最大。 k)kk为了求第一主成分,构造目标函数如下: jTl=T'T?lT'1(1,)11(1T1?) (2.1) 对目标函数j1(T1,l)求导得到: ?j 1=2T1?2lT1=0 (2.2) ?T1即: (?lI)T1=0 (2.3) 把式(2.3)两边左乘T'1得到: T'1T1=l (2.4) 因为X的协方差阵是非负定的,假设式(2.3)的根为l,且li1l2Llp0,其中i=1,2,L,p。由式(2.4)得Y1的方差为l,则Y1的最大

25、方差为l1,相应的单位化特征向量为T1。 把式(2.2)左乘T'2得到,T'T'21=lT2T1,也即cov(Y2,Y1)=lT'2T1。又因为Y1和Y2相互独立,所以有T'2T1=0或T'1T2=0。由此,为求第二主成分,构造目标函数如下: jT'''2(,lr)=T2T2?l(T2?1)?2r(T1T2) (2.5) 对目标函数j2(T2,l,r)求导得到: ?j2=2T2?2lT2?2rT1=0 (2.6) ?T2把式(2.6)左乘T'1得到: T'T?lT'rT�

26、39;1212?1T1=0 (2.7) 由于T'1T2=0,T'1T2=0,由式(2.7)得,rT'1T1=0,由于T'1T1=1,所以r=0。因此有: (?lI)T2=0 (2.8) 把式(2.8)两边左乘T'2得到:T'2T2=l (2.9) 因为X的协方差阵是非负定的,假设式(2.8)的根为l,且li1l2Llp0,其中i=1,2,L,p。由式(2.9)得Y2的方差为l,则Y2的最大方差为l2,相应的单位化特武汉科技大学 硕士学位论文 第6页 征向量为T2。 因为第k个主成分Y满足:Y=T'X,其中T'T=1

27、且T'T=0或T'T=0 ik,kkkkkki()ikDYT'()=T达到最大。为求第kkkk主成分,构造目标函数如下: k?1jTlr=T'T?lT'?rT'k(,)kk(k1)2(T) (2.10) iiki=对目标函数j(T,l,r)求导得到: kk?jk?1k=2T?2lT?2rT=0 (2.11) ?Tkkiiki=1把式(2.11)左乘T'得到: ik?1T'?T?lT'T?T'?rT?=0 (2.12) ikikiii?i=1?由于T'Tik=0,T'T=0,由

28、式(2.12)得rT'T=0,由于T'T=1,所以r=0。因此有: ikiiii(?lI)T=0 (2.13) k把式(2.13)两边左乘T'得到:T'T=l (2.14) kkk因为X的协方差阵是非负定的,假设式(2.13)的根为l,且li1l2Llp0,其中i=1,2,L,p。由式(2.14)得Y的方差为kl,则Y的最大方差为l,相应的单位化kk特征向量为T。 k2.1.3主成分的性质 性质14 主成分的协方差矩阵是对角阵。 证明:若一个存在二阶矩的p维随机变量X=(X1,X2,L,Xp),其均值向量和协方差阵分别记为m=E(X),=D(X)。X的主

29、成分为'Y=(Y1,Y2,L,Yp),它们间的关系为Y=T'X,由的所有特征值构成的的对角阵为: ?l10L0?l2L?=MMOM ?L?a name=baidusnap8500lp?那么有: EY=ET'X=T'()()m DY=T'DXT=T'()()T=?。 性质24 主成分的总方差等于原始变量的总方差。 证明:由矩阵迹的性质可以得到: 武汉科技大学 硕士学位论文 第7页 (?''tr)=tr(TT)=tr(T)=tr() 所以 ppl=is iii=1i=1或 ppD(Y)D(X)。 iii=1i=1性质3

30、4 主成分Y与原始变量X的相关系数为 kilr(Y,X)=kt kiskiii称r(Y,X为主成分载荷量。 ki)p性质44 r2(Yk,Xi)s=l,=(1,2,L,p)。 iki=1定义158ll 称a=k=k,k=L为第k个主成分的方差klp(1,2,p)1+l2+L+lplkk=1ml贡献率。称l1+l2+L+lka=mk=1m个主成分的累积方差贡献率。 +L,mp为前mll+lp12plkk=1主成分Y所反映的原始数据的总信息与原始变量X所反映的总信息相等,即p个主p成分Y的方差l之和等于p个X的方差之和,而且l=p,其中l1lkk2Llp0。kkk=1mlk因此方差贡献率可定义为l

31、a=k100%,累积方差贡献率可定义为k=1100%。在实kpp际问题研究中,如果前m个主成分的累积方差贡献率达到某个值(一般为85%),可以忽略后面的主成分,只取前m个主成分进行研究。 2.1.4主成分的计算步骤 1、原始数据标准化。 2、求变量的相关系数矩阵。 3、求特征根、方差贡献率及特征向量。 4、选择主成分。 5、计算主成分得分。 6、根据样本得分进一步分析。武汉科技大学 硕士学位论文 第8页 2.2 因子分析 因子分析2是研究变量之间共性因子的方法。最早是由英国心理学家查尔斯斯皮尔曼(CharlesSpearman)4提出的。它用来描述那些隐藏在一组能直接测量到的变量中的一些更基本

32、的但又无法直接测量到的隐性变量。利用降维的思想,从原始变量相关矩阵的内部依赖关系出发,在众多的原始变量中找出隐藏的但具有代表性的因子,从而将本质相同的变量归纳为一个因子,达到降维的目的。因此因子分析是描述变量之间相关关系的。 2.2.1 因子分析的思想 因子分析的基本思想6是根据原始变量相关性的大小,把原始变量分组,使得同组内的变量相关性较高,不同组之间的变量相关性较低。分组后的各组分别代表一个结构,但这个结构用一个不可观测的隐形的综合变量来表示,称这个结构为公共因子。对于一个具体的问题,原始变量包含两部分信息,一部分是不能直接观测到的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。比

33、如,要评价公司员工工作的积极性。为了刻画这个不能定量刻画的变量,就考虑反映员工工作积极性的表现:上班是否准时,完成工作是否及时,工作量是否达到标准,是否主动加班等,这些变量间都有一定的相关性和依赖性。利用这些可以观测到的能够反映员工工作积极性的变量,把这些变量进行综合,就可以得到员工工作积极性的变量,也即公共因子。 因子分析还用于对样品和变量进行分类处理。首先得到因子表达式,把原始变量的数据代入表达式,得到因子得分,根据得分在因子空间中标记出变量或样品的点,就可以直观的对它们进行分类处理。 因子分析除了用来研究变量间的相关关系外,还用来研究样品之间的相关关系,称前者为R型因子分析,后者为Q型因

34、子分析。 2.2.2 因子分析的模型3 假设有n个样品,每个样品有p个指标,这p个指标之间有较强的相关性,把原始数据标准化处理,用'X=(X1,X2,L,Xp)表示标准化后的变量,用F1,F2,L,Fm(mp)表示公共因子,用e1,e2,L,ep表示X(=1,2,L,p)的特殊因子。且有: i'(1)X=(X1,X2,L,Xp)是一个p维随机变量,均值向量E(X)=0,协方差矩阵cov(X)=,且协方差矩阵与相关阵R相等。 (2) F=FFLF'(1,2,m)(mp)是不可观测的,均值向量E(F)=0,协方差矩阵cov(F)=I,即F1,F2,L,Fm是相互独立的

35、且方差为1。 武汉科技大学 硕士学位论文 第9页 (3) F与'e=(e1,e2,L,ep)相互独立,且均值向量E(e)=0,协方差矩阵为对角e阵,表示为: ?s2110L0?0s222L?cov(e)=eMMOM ?L?#004699500s2pp?即e1,e2,L,ep之间也是相互独立的,但方差不要求相等。 (4) cov(F,e)=0,即公共因子与特殊因子是相互独立的。 那么因子模型为: ?X1=a11F1+a12F+L+a1pFp+e1?X2=a21F1+a2F2+L+a2pFp+e2? (2.15) ?LL?Xp=ap1F1+ap2F2+L+apFp+ep把模型(2.15)

36、简记为: X=AF+e 其中 ?a1a12La1p?a21a2La?A2p=MMOM ?ap1ap2L?app?称A为因子载荷矩阵,称a为因子载荷,表示第i变量在第j因子上载荷,a的绝ijij对值越大,表明变量X与因子F的依赖性越大,也可说因子F对变量X的载荷越大。 ijji1、因子载荷a的统计意义: ij由模型(2.15)有: ?mcov(X,F)cov?=?aF+e,Fijijjij? ?j=1?mcov?=?aF+e,F?+cov(e,F)=a ijjijijij?j=1?若对X事先做了标准化处理,也即X与F的均值都为0,方差都为1,那么有: iijcov(X,Fij)rX,F=cov(

37、X,F)=a (2.16) ijijijD(X)D(Fij)由式(2.16)可以看出,a是X与F的协方差,也是X与F的相关系数。 ijijij武汉科技大学 硕士学位论文 第10页 2、变量共度与剩余方差: 共度考虑的是所有公因子F1,F2,L,Fm与某一个原始变量的关系,称a2+a2+L+a2i1i2im为X的共度,记为h2(=1,2,L,p)。通过因子模型的前提可以得到: iiD(X)=1=h2+D(e) iii记D2(e)=s,则 iiDX=h2+s2()1 (2.17) iii由式(2.17)可以看出,共度h2与剩余方差s2是互补的。h2的大小表明X对公因子依赖iiii程度的大小,公因子

38、能解释X方差的比例越大,因子分析的结果就越好。 i 若对X做了标准化处理,则有1=h2+s2。 iii3、公因子的方差贡献7: 考虑一个公因子F与所有原始变量的关系,记g2=a2+a2+L+a2(=1,2,L,m),jj1j2jpjg2表示公因子F对X的每一个分量X(=1,2,L,p)所提供的方差的总和,称g2为公因jjij子F对原始变量向量X的方差贡献,它是衡量公因子重要性的尺度。g2的大小表示公jj因子F对X贡献的大小。 j2.2.3 因子载荷矩阵的求解 求解因子载荷矩阵的方法有很多,如主成分法、主轴因子法、最小二乘法、极大似然法等3。因为每种方法求解的出发点不同,因此所得结果也不完全相同

39、。 1、主成分法 从相关阵出发求主成分,假设有p个变量,那么就可以找出p个主成分,这p个主成分能解释标准化原始变量的所有方差,把p个主成分按从大到小的顺序,依次记为Y1,Y2,L,Yp,那么主成分与原始变量的关系如下: ?Y1=t1X1+t12X2+L+t1pXp?Y2=t21X1+t2X2+L+t2pXp? (2.18) ?M?Yp=tp1X1+tp2X2+L+tpXp式(2.18)中,t为X相关矩阵的特征值对应的特征向量的分量,由于特征值向量之间是ij彼此不相关的,那么从X到Y的关系是可逆的,从Y到X的关系为: ?X1=t11Y1+t21Y+L+tp1Yp?X2=t12Y1+t22Y+L+

40、tp2Yp? (2.19) ?M?Xp=t1pY1+t2pY2+L+tpYp武汉科技大学 硕士学位论文 第11页 对式(2.19)中每一个等式右边只保留前m(mp)个主成分,其余的部分用e表示,i那么式(2.19)变为: ?X1=t11Y1+t21Y+L+tm1Ym+e1?X2=t12Y1+t22Y+L+tm2Ym+e2? (2.20) ?M?Xp=t1pY1+t2pY2+L+tmpYm+ep式(2.20)与因子模型(2.15)在形式上是一致的,由于主成分Y之间是彼此不相关i的,那么只要把主成分Y转换成方差为1的变量,则转换后的主成分就变成了公因子。i将Y除以其标准差l,同时令F=Yi,a=l

41、t,则式(2.20)变为: iiilijiiji?X1=a11F1+t12F+L+t1mFm+e1?X2=a21F1+t22F+L+t2mFm+e2? (2.21) ?M?Xp=ap1F1+tp2F2+L+tpmFm+ep式(2.21)与模型(2.15)就完全一致了,就得到了载荷矩阵A和一组没有旋转的初始公因子。 假设l1l2Llp为原始变量相关阵的特征值,其对应的标准正交化特征向量为T1,T2,L,Tp。因为mp,则载荷矩阵A的一组解为: A*=(l1t,l2t2,L,lmtm) 共度的估计为: h*2=a*2+a*2+L+a*21 ,iiiimi=1,2,L,p 2、主轴因子法 假设m个公

42、因子只能解释标准化原始变量的部分方差,用公因子方差来代替相关矩阵主对角线上的元素1,得到调整相关矩阵,下面求调整相关矩阵的因子解。 由因子模型(2.15)得,标准化后的原始变量X的相关矩阵R有如下形式: R=AA'+ (2.22) e式(2.22)中,A表示因子载荷矩阵,表示一个对角阵,对角线上的元素是相应特殊e因子的方差。R*=R?=AA'称为调整相关矩阵,则R*不再是单位阵,其对角线上的e元素是共度h2。此时R*有m个大于0的特征值,记为l*l*Ll*12m,相应的标准正i交化特征向量为T*T*LT*1,2,m。因为mp,则载荷矩阵A的一组主轴因子解为: A*=l*(1

43、t1,l2t2,L,lmtm) 武汉科技大学 硕士学位论文 第12页 这种分析方法是以调整相关矩阵R*为基础的,在实际问题分析中,R*与共同度均未知,一般都先给出一个初始估计(一般由主成分分析给出),估计出因子载荷矩阵A以后再得出更好的共度或剩余方差估计。 3、极大似然法 如果公因子F和特殊因子e均服从正态分布,则可以得到因子载荷和特殊因子方差的极大似然估计。假设X1,X2,L,Xp是来自正态总体N(m,)的随机样本,其中=AA'+,同时F与e有联合正态分布。则可以得到似然函数 ejj1L(m,)= npn(2p)22?1?n_'_'? exp?1?trX?XX?

44、X+?n?X?m?X?m?jj? (2.23) 2?j=1?式(2.23)通过依赖于A和,为了能唯一确定A,添加条件: eA'?1A=? e其中?为一个对角阵。采用数值极大化方法,得到极大似然估计A*和*,A*、*和ee_m*=X,使得A'?1A=?为对角阵,且式(2.23)值为最大。则共同度的极大似然估计e为: h*2=a*2+a*2+L+a*2,i=1,2,L,p ii1iim第j个因子对总体样本方差的贡献为: a*2+a*2+a*2i1Liims1+s22+L,i=1,2,L,p +spp其中s为第i个变量的方差。 ii2.2.4 因子旋转 在进行因子分析时,有时直接

45、由原始变量的相关阵的特征值和特征向量求得的因子载荷阵很难解释公因子的含义,各主因子不能突出表示一定的变量。为了让因子的意义更为明显,突出各因子所能代表的具体变量,必须进行因子旋转。通过因子旋转后,可以使变量只在某一个特定的公因子上的载荷较大,而在其它的公因子上载荷较小,也就是使得各变量在同一个公因子上的载荷向0和1靠近,这样通过载荷就能突出各公因子与那些载荷较大的变量的联系,进而可以对公因子进行解释。 因子旋转方法有正交旋转和斜交旋转两种4。进行因子正交旋转就是对载荷矩阵A右乘一个正交阵K,使得AK的意义更明确,从而能得到更好的公因子。 令旋转后的因子载荷阵为A*,且 A*=AK=a*( ij

46、)pm武汉科技大学 硕士学位论文 第13页 a*d=ij (2.24) ijhi_1pd=d2 (2.25) jijpi=1那么可以定义A*的第j列元素的相对平方差为: 2_W1p?=?d2?djijj? (2.26) pi=1?注: 1、a*令d=ij,目的在于消除原始变量对公因子依赖程度不同的影响,而且A*的ijhi第i行平方和 mh*2a*2=a*a*L*'(1,2,a)(a1,a2,L,a iijiiimiiim)i=1m' L'L2=2(a1,a2,a)KK(a1,a2,a)=ah iiimiiimijij=121p_2、W?2?=j?d?dijj?中用

47、d2,目的在于消除d正负性造成的影响。 ijijpi=1?进行最大方差旋转过后,A*的m列元素平方的相对方差之和Q达到最大,其中 Q=Q1+Q2+L+Qm (2.27) 当m=2时,假设已经求得的因子载荷阵是 ?a1a12?a21a?A22= ?MM?ap1ap2?选取正交阵K进行因子旋转,把K表示为 ?cosq?sinqK?=?sinqcosq? ?q表示因子轴在坐标平面上旋转(顺时针)的角度,因为 a1cosq+a12sinqa1sinqa12cosq*?+?a1a?12?acosqsin?asinq+acosqa*a*A*2122122=AK?=2122 MM?MM?1212?a*?ap

48、cosq+apsinq?apsinq+apcosq?p1ap2?在i=1,2,L,p,j=1,2的条件下,根据式(2.24) 、式(2.25) 、式(2.26)和 式(2.27)可求得Q= Q1+Q2,显然Q是q的函数,旋转过后方差要达到最大,也就是要求q使得Q达到最大。将Q对q求导,并令其等于0,即: 武汉科技大学 硕士学位论文 第14页 dQ=0 dq可以求出q满足下面的关系: pD?2ABtan4q= pC?A2?B2()其中 ppppA=u,B=iv, Cu2?v2(),D=2uv iiiiii=1i=1i=1i=1其中 22?a?a?aau=i1iv=2ii i?+?,12ihhh2

49、?i?i?i当m2时,就依次对每两个公因子进行旋转,旋转时对初始载荷矩阵A的l和k列同时进行。例如对A的第l和k两列进行正交变换,使这两列元素平方的相对方差之和达到最大,但其它各列不变,则选取正交阵K为 ?1?O?1cosq?sinql1K=?O? (2.28) 1sinqcosqk1O?1?正交阵K其它元素均为0,其中q表示因子轴F和F的旋转角度。如此这样进行,m个lk公因子两两配对旋转共需进行1m(m?1)次,这样才完成一次旋转,所得的因子载荷矩2阵记为A1。然后对第一次旋转的结果A1按上面同样的方法进行旋转,所得的因子载荷矩阵记为A2。如此进行,所得的因子载荷矩阵依次记为A3,A4,L,

50、A,L,记因子载荷矩阵Att各列元素平方的相对方差之和为Q,则有 tQ1Q2LQL t当旋转一定的次数后,因子载荷矩阵A各列元素平方的相对方差之和Q不再变化或变化tt很小时,就可以不再旋转。 武汉科技大学 硕士学位论文 第15页 2.2.5 因子得分 在因子分析的实际模型中,一般m<p,那么要计算出精确的因子得分是很困难的,通常只能对因子得分进行估计。汤姆孙(Thomson)1939年提出的汤姆孙回归法4就是解决此问题的一种方法。 这个方法首先假设公因子对p个原始变量可以做回归,回归方程为: F*=b+bX+L+bX,j=1,2,L,m jj0j11jpp其中F,X都进行了标准化,回归的

51、常数项b0=0。 jij 由因子载荷a的统计意义式(2.16)可以看出, 对任意的i=1,2,L,p,j=1,2,L,m,ij有: a=r=E(XF) ijX,Fijij=E?XbX+bX+L+bX?p ?i(j11j22jp)? =bE(XX)bE(X)+L+bEXX j1i1j2i2jp(ip)=b1r1+b2r2+L+br jijijpip (2.29) ?b1b12Lb1p?记b21b2Lb?B2p =MMOM ?L?bm1bm2bmp?则式(2.29)可以写作 A=RB',则B=A'R?1 其中R是标准化X的相关系数矩阵,A为旋转后的因子载荷阵,那么因子得分公式为

52、: *'?F?1b1X?*?'?F2b=?=?2X?=BX=A'R?1X。 ?MM?F*?b'mmX?2.2.6 因子分析的步骤 1、原始数据标准化。 2、求变量的相关系数矩阵。 3、求特征值、方差贡献率和特征向量。 4、估计因子载荷阵。 5、构建因子得分模型,得出样本得分。 6、根据样本得分进一步分析。 2.3 聚类分析 聚类分析2法实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据武汉科技大学 硕士学位论文 第16页 这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数两类。聚类分析法大致归纳如下: 1、系统聚类法:先将n个元素

53、看成n类,然后将性质最接近(或相似程度最大)的两类合成一个新类,得到n?1类。再从中找出最接近的两类合成一类,得到n?2类。如此重复,最后使所有元素都在一类中。 2、调优法:这种方法就是先将样品做一个初始分类,然后按照某种最优原则逐步调整,一直到调整的分类比较合理为止。 3、图论法:该方法是应用图论的观点将n个样品看成是m维空间的n个点,点与点用直线连接,从而构成m维空间的点的连接图,再应用图论的观点将点在m维空间作最小支撑树,最终达到分类的目的。 武汉科技大学 硕士学位论文 第17页 第三章 区域经济评价指标体系 3.1 评价指标体系的建立原则 对地区经济进行评价,目的在于能客观的反映地区的

54、综合经济实力,体现一个地区的整体经济发展水平。综合经济实力是指该地区拥有的全部经济实力、经济发展潜力及其经济地位和影响9。在评价中要体现这些方面才能对地区经济进行全面、客观的评价。因此在建立评价指标体系时,选取的指标要能涵盖社会经济发展的各个方面。构建指标体系的原则1011是: 1)全面性。对地区经济进行评价一定要体现全面性,选取的指标一定要能涵盖社会经济生活的各个方面,全面体现地区的综合经济实力,客观反映地区的经济发展特点,充分显示地区的经济发展规律。因此,指标从地区基本情况、工农业发展情况、人民生活情况、社会发展情况和经济发展趋势等多方面选取。 2)代表性。反映地区综合经济实力的指标有很多

55、,选取指标时要看其对地区综合经济实力影响的大小,要选择那些代表性强,能区分不同地区发展水平的指标。对于相关性强的指标,只选取具有代表性、影响大的指标,以免近似指标均选入造成指标重复。 3)可行性。选取指标时,要考虑所选取的指标适合进行定量计算,这样才能保证分析结果的客观性。同时要考虑所选指标的数据来源,在遵循全面性和代表性的基础上,选取那些容易获取准确数据的指标,这样可以使数据收集工作相对简便。 4)数据正确性。数据最好来源于国家或各级政府公开出版、发布的统计资料,保证数据的正确性、权威性。 3.2评价指标体系的建立 在遵循区域经济指标体系建立原则的基础上,依据统计年鉴和各级政府公开发布的相关

56、数据,从地区基本情况、工农业发展情况、人民生活情况、社会发展情况和经济发展趋势等方面选取反映该区域经济综合经济实力1012的30项指标,构建评价指标体系。 1)基本情况:包含总人口、土地面积和从业人员。 2)经济发展水平:包含地区生产总值、人均地区生产总值、农业总产值、工业总产值、社会固定资产投资和各项税收。 3)财政金融:包含地方财政收入、金融机构人民币贷款和金融机构人民币存款。 4)对外经济:包含实际外资利用和进出口总额。 5)人民生活:包含社会消费品零售总额、城镇人均可支配收入和农村人均纯收入。 6)经济发展趋势:包含地区生产总值指数、农业总产值指数、第三产业产值指数、规模以上工业增加值

57、率、全社会固定资产投资增加率、城镇人均可支配收入增加率和农村人均纯收入增加率。 7)基础设施建设:包含邮电总收入、客运周转量、货物周转量、卫生机构床位数、民用汽车量和房屋建筑竣工面积。 武汉科技大学 硕士学位论文 第18页 第四章 武汉城市圈各市经济发展分析 本文以2009年湖北统计年鉴和湖北省统计局公开发布的数据为依据,从地区基本情况、工农业发展情况、人民生活情况、社会发展情况和经济发展趋势等方面选取反映该区域经济综合经济实力选取了反映武汉城市圈各市综合经济实力的30项指标,见表4.1,记为x1x30,利用SAS软件对数据进行分析13。 表4.1 原始数据 武汉 黄石 鄂州 孝感 黄冈 咸宁 仙桃 潜江 天门 X1 833.20 257.30 106.80 525.10 735.10 288.20 150.70 100.70 164.80 X2 8494 4583 1593 8910 17446 9861 2538 2004 2622 X3 456.00 139.80 62.10 282.60 344.00 140.80 84.65 62.10 66.30 X4 3960.08 556.57 269.79 593.06 600.75 359.19 233.50 211.82 187.35 X5 44296 23004 26142 12698

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!