统计学基本概念

上传人:桂梅 文档编号:172649801 上传时间:2022-12-05 格式:DOCX 页数:19 大小:42.37KB
收藏 版权申诉 举报 下载
统计学基本概念_第1页
第1页 / 共19页
统计学基本概念_第2页
第2页 / 共19页
统计学基本概念_第3页
第3页 / 共19页
资源描述:

《统计学基本概念》由会员分享,可在线阅读,更多相关《统计学基本概念(19页珍藏版)》请在装配图网上搜索。

1、2015 年统计学基本概念一、聚类分析1. 概念:聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上 的亲疏程度进行分类。或者说,聚类分析就是要找出具有相近程度的点或类聚为一类; 距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:2. 步骤:应用系统聚类法进行聚类分析的步骤如下: 确定待分类的样品的指标; 收集数据; 对数据进行变换处理(如标准化或规格化); 使各个样品自成一类,即n个样品一共有n类; 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类; 并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品 归为

2、一类为止; 最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。3. 聚类分析的种类二、ARIMA 模型(一)ARMA模型三种基本形式:自回归模型(AR: Auto-regressive),移动平均模型(MA: Moving-Average)和混合模型(ARMA: Auto-regressiveMoving-Average)。ARMA模型全称为自回归移动平均模型(AutoregressiveMovingAverageModel简记ARIMA),是 由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为 box-jenkins模

3、型、博克思-詹金斯法。其中ARIMA (p, d,q)称为差分自回归移动平均模型, AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所 做的差分次数。ARIMA模型的基本思想ARIMA 模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列, 用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值 及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未 来进行预测。ARIMA模型预测的基本程序(1) 根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋 势及其季节性变

4、化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是 平稳序列。(2) 对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降 趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到 处理后的数据的自相关函数值和偏相关函数值无显著地异于零。(3)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的, 而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而 自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数 均是拖尾的,则序列适合ARMA模型。(4)进行参数估

5、计,检验是否具有统计意义。(5)进行假设检验,诊断残差序列是否为白噪声。(6)利用已通过检验的模型进行预测分析。白噪声(Whitenoise):白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声, 记为:注:所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。直 观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。根据平稳时间序列分 析的理论可知,当时,该序列Yt是平稳的,此模型是经典的Box-Jenkins时间序列AR(1) 模型。因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位根检验方法的由 来。时间序列的非平稳性:是指时间序列的统计

6、规律随着时间的位移而发生变化,即生成变量时 间序列数据的随机过程的特征随时间而变化。DF检验:统计学家Dickey、Fuller得到DF检验的临界值,并编制了 DF检验临界值表供查。 在进行DF检验时,比较t统计量值与DF检验临界值,就可在某个显著性水平上拒绝或接受 原假设。ADF检验:AugmentedDickey-Fuller检验(ADF检验):DF检验存在的问题是,在检验所设定 的模型时,假设随机扰动项不存在自相关。但大多数的经济数据序列是不能满足此项假设的, 当随机扰动项存在自相关时,直接使用DF检验法会出现偏误,为了保证单位根检验的有效 性,人们对DF检验进行拓展,从而形成了扩展的D

7、F检验(AugmentedDickey-FullerTest,简 称为 ADF 检验。DF 和 ADF 检验的步聚:计算在原假设成立的条件下t统计量值,查DF检验临界值表得临界值,然后将t统计量值 与 DF 检验临界值比较:若t统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位根;说明是平稳序 列。若 t 统计量值大于或等于 DF 检验临界值,则接受原假设,说明序列存在单位根;有单位根 说明非平稳。(二)平稳性检验方法1. 单位根方法2. 自相关函数法3. DF 检验方法4如果该特征方程的所有根在单位圆外(根的模大于1),则AR(p)模型是平稳的。特征根z=1/j, 当|j|”或“”

8、。例如对合格产品按其性能和好坏,分成 优等品、一等品、合格品等等。定距数据表现为数值,可进行加、减运算,是由定距尺度计量形成的。它不仅能将事物 区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。例如,学生某门 课程的考分,可以从高到低分类排序,形成90 分、80分、70分,直到零分的序列。它们不 仅有明确的高低之分,而且可以计算差距,90 分比80 分高10 分,比70 分高20 分等等。 定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算, 定比数据表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。 前两类数据说明的是事物的品质特征,不能

9、用数据表示,其结果均表现为类别,也称为定性 数据或品质数据(Oualitativedata);后两类数据说明的是现象的数量特征,能够用数值来表 现,因此也称为定量数据或数量数据(Quantitativedata)。由于定距尺度和定比尺度属于同 一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。 区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法 来处理和分析。比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率, 进行列联表分析和 x2 检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关 系数等非参数分析;对定距

10、或定比数据还可以用更多的统计方法进行处理,如计算各种统计 量、进行参数估计和检验等。我们所处理的大多为数量数据。 这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据, 因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对定类数据通常是计算众 数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反 之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据 不具有高层次测量数据的数学特性。比如,对于定距和定比数据可以计算平均数,但对于定 类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有

11、用的。六、数据的分布特征与测度(一)集中度测度:是指一组数据向某一中心值靠拢的倾向。1定类数据的测度指标:众数(mode):是指一组数据中出现次数最多的变量值。用MO表 示。2定序数据的测度指标:中位数(median):处于中间位置上的变量值,用ME表示。3定距数据和定比数据的测度指标:均值(mean):它在统计学具有重要地位,是集中度测 度值的最重要指标。(1)当三者相等时,表示数据分布是对称分布的;(2)当均值 MEMO表示左偏或正偏分布。在实际利用统计软件中,常常看偏态值(Skewness)来判断数据的偏态方向。 其计算公式是:当偏态值=0 时,表示对称分布;当偏态值0表示正偏;当偏态值

12、3,表示尖峰分布,当 峰度(Kurtosis) CompareMeans=One-WayANOVA.,打开 One-WayANOVA主对话框,然后设置因变量和因素。(三)单因素分析中的多重分析若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较 (multiplecomparison)。基本思想:例子:如果分析颜色对饮料销售量有无影响,则属于单因素分析。如果进一步分 析颜色中哪一个颜色(黄色、红色、粉色等)对销售量的影响最大,则需要进行多重比较分 析。最常用的方法就是最显著性差异法(LSD)。假设检验也常用T检验。(四)双因素方差分析基本思想:对两个因素对因变量的影响

13、程度进行分析,称为双因素分析。 实际上这些计算用 SPSS 是十分容易解决的。因此读者完全没有必要去记表中繁琐的公式, 只需掌握其主要思想并学会应用 SPSS 就可以了。步骤:第一步:建立假设第二步:计算样本均值和总样本值 第三步:计算离差平方和 第四步:计算均方值第五步:计算F统计量第六步:编制双因素方差分析表 第七步:做出统计决策 在 SPSS 中的实现方法选择Analyze=GeneralLinearModel=Univariate.,打开Univariate主对话框。从主对话框左侧的变量列表中设定因变量,单击按钮使之进入DependentList框,再选定变量自因变量, 单击按钮使之进

14、入FixedFactor框。资料“在 GLM (Generallinealmodel),用 Univariate 你可以做多因素方差分析,Mutivariate 可以做多应变量方差分析, RepeatedMeasure.可以做重复测量方差分析,等等十二、统计学中的常用概念1. 均值(算术平均数Arithmeticmean),在计算公式中一般用表示。均值在统计学中具有重 要的地位,它是进行统计分析和统计推断的基础,首先从统计思想上看,它是一组数据的重 心所在,其次均值具有一些重要数学性质。(1)各变量值与其均值的离差这和等于0即(2)各变量值与其均值的离差平方和(即方差)最小,即2. 几何平均数

15、(Geometricmean)3. 方差和标准差:方差就是各变量值与其均值的离差平方和,它是测度离散程度的主要方法, 方差越大说明数据波动程度越大或离散程度越高,方差越小说明数据集中度越高。方差分为 总体方差和样本方差,标准差也分为总体标准差和样本标准差。总体方差(在方差分析中称为TSS)和标准差样本方差和标准差:3. 协方差和相关系数令X和Y为两个随机变量,其均值是和,于是协方差的定义为Cov( X,Y) =E( XY) -当 x 和 y 独立时,则 Cov( X, Y) =E( x) E( y) -=0可见,协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的 两个量

16、采用不同的量纲使它们的协方差在数值上表现出很大的差异。所以又引入的相关系数 的概念。其计算公式是:所以, cov(x,y)=R*4. 数学期望:又称期望或均值,是平均数的一种推广。是随机变量按概率的加权平均,表征 其概率分布的中心位置,即用以测量数据的平均水平或集中程度。离散随机变量X的期望值E(X)连续随机变量X的期望值E(X)5残差:表示实际观察值与估计值之差。6总离 差平方和(TSS):7.残差平方和(RSS): ESS反映样本观测值与估计值偏离的大小,8解释平方和(ESS) (ExplainedSumofSquares),反映由模型中解释变量所解释的那部分离 差的大小;9众数(MODE

17、):众数是一组数据中出现次数最多的变量值。主要用于分类数据,也可用于 顺序数据和数值型数据。10中位数(Median):中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。11平均差(Md):是各单位实际值对其算术平均数的离差绝对值的算术平均数,反映的是各 标志值与其平均数的平均差异程度。12. 均方(meansquare):(与标准差是同一个概念)平方和除以对应的自由度。这个量用 于 F 比以判断均值之间是否有显著差异。13. 最小显著性差异法(leastsignificantdifference简写LSD法):用于方差分析中的多重比较的 一种均值相等性的检验方法。十三、计量经济学中常

18、用统计量十四、非参数检验(nonparametric statistics )许多统计分析方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要 求误差呈正态分布且各组方差整齐,等等。这些方法常用来估计或检验总体参数,统称为参 数统计。但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是 针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计 (Nonparametrictests)。(一)单样本配合度检验 Chi-Square基本功能:调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主 要用于分析实际频数与

19、某理论频数是否相符。(SPSS中自带了一个例子:cars.sav),HO:实际频数与理论频数没有显著差异H1:实际频数与理论频数有显著差异(二)二项分布( Binomal)基本功能:适用于二分变量时的情况,常需要检验一个事件在特定的条件下发生的概率是否 与已知结论相同,如某地区出生的婴儿的性别比例与通常男女各半的结论是否相符,在这个 情况下可用此方法。H0:特定事件与特定结论没有显著差异H1:特定事件与特定结论有显著差异例如:某地某一时期内出生40名婴儿,其中女性12名(定Sex=O),男性28名(定Sex=1)。 问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?(

20、三)RUN 检验(游程检验)基本功能:用于一个变量的两个值的出现顺序是否随机。 依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称为一个游程。调 用 Runs 过程可进行游程检验,即用于检验序列中事件发生过程的随机性分析。H0:数据是随机出现的H1:数据是非随机的(四)1-samplesk-s 检验称为:单样本柯尔莫哥诺夫斯米尔诺夫检验柯尔莫哥诺夫斯米尔诺夫检验。 基本功能:调用此过程可对单样本进行 Kolmogorov-SmirnovZ 检验,它将一个变量的实际频 数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。 零假设H0:

21、经验分布与理论分布没有显著差别。H1:经验分布与理论分布有显著差别(五)两个独立样本检验(2-independentsamples) 基本功能:当总体分布不清楚时,可检验两个随机样本是事来自同一总体。H0:两个独立样本来自相同的总体(两个样本没有显著差异)H1:两个独立样本来自不同的总体(两个样本没有显著差异)(六)多个独立样本检验(K-independentsamples)H0:多个独立样本来自相同的总体(两个样本没有显著差异)H1:多个独立样本来自不同的总体(两个样本没有显著差异)(七)两个相关样本检验(2-relatedsamples)基本功能是:当总体分布不清楚时,检验两个相关样本是否

22、来自同一总体。与参数检验中的 Paired-samplesHO:两个相关样本来自相同的总体(两个样本没有显著差异)H1:两个相关样本来自不同的总体(两个样本没有显著差异)(八)多个相关样本检验(K-relatedsamples)基本功能是:当总体分布不清楚时,检验多个相关样本是否来自同一总体。HO:多个相关样本来自相同的总体(两个样本没有显著差异)H1:多个相关样本来自不同的总体(两个样本没有显著差异)十五、几种重要检验统计量1. F-stat. (F-distribution;F-test) F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS由 于回归平方和ESS是解释变量X联合

23、体对被解释变量Y的线性作用的结果,所以,如果ESS/RSS 的比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能 不存在线性关系。其计算公式是其中K代表变量个数,N代表样本容量,记为则该统计量服从自由度为(k,n-k-1 )的F分 布。因此F值有时也叫均方差比,即F=不能解释的均方差/可以解释的均方差 在统计学上,这个假设检验的假设原理是:H0: p 1=p 2=p 3即它们不存在显著差别。H1: p 1Hp3它们不完全相等,即总体均值之间存在差异。2. (卡方分布,Chisquaredistribution,test统计量)。 在统计学中,统计量常用于列联表中变量

24、之间是否相关的检验,特别适用于两个定类变量之 间是否相关的检验。卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布 或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分 布的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。所 以,凡是可以应用比率进行检验的资料,都可以用卡方检验。其计算公式是 其中,表示观察值的频数( observedfrequency) ;表示给定单元中的频数理论值,其计算公 式是:;表示给定单元所在行的总和(行:Rank),T表示给定所在列的总和.(列:Contingency)。 X2的自由度的确定:=(行数

25、-1) * (列数-1).记为X2a(n),n为自由度,a为显著性水平。 如同T分布一样,在不同自由度条件下,卡方分布也不相同,但随着自由度的增加(即样本 容量的支扩大)卡方分布趋于对称性的正态分布。检验程序与假设检验理论是一样的。 对变量之间的相关程度的测度主要用相关系数来表示,但对于定类数据之间的相关程度的测 定,要借助于,对于定类数据之间的相关程度的测度常用到以下几种:(1)屮相关系数,它是描述2*2列联表数据中相关程度最常用的一种相关系数,计算公式 是屮=,取值在0到1之间。(2)列联相关系数(简称Coefficientofcontingency)。主要用于大于2*2列联表的情况。计算

26、公 式是C=,取值在0到1之间。在SPSS中实现卡方检验:Analyze-descriptivestatistics-Crosstab 或在“非参数检验中”可 以实现。如何描述两个分类变量间的关系3. T-stat(T-distribution;T-test)(1)(2)在计量经济学中,T检验常称参数显著性检验其计算公式是:原假设:即参数不显著备择假设:即参数显著4.DW检验(d统计量):D-W检验是杜宾(J.Durbin)和瓦森(G.S.Watson于1951年提出的一 种检验序列自相关的方法,这种检验方法是基于残差et和et-1之间的一阶自相关系数提出 来的,所以它只适用于检验残差序列的是

27、否存在一阶自相关性的统计量。这从公式中可以看 出来。注:残差:模型计算值与资料实测值之差为残差。表示一阶自关系数,所以,d2 (1-)当=0时,d=2,表明不存在自相关;当=1时,d=0,表示存在完全正相关;当=-1时,d=4,表示存在完全负自相关。经验表明当,表明不存在自相关。4. 拟合优度检验(TestingtheSimulationLevel): y的理论预测值和真实的样本值的距离越小, 拟合度越好。公式是:5. Q-statistic。在文献上的Q统计量有二种版本,Box-PierceQ统计量,另一种是适用于样本 较小的修正版本Ljung-BoxQ统计量。这两种版本的Q统计量有些微的不

28、同。LB的Q统计量 的计算公式是:其中,代表从一阶差分中回归中所得到的OLS残差(注意:没有包含截距项的一阶差分形式), 而则是水平值形式得到的残差(含有截距项的回归形式)。6. 协整检验(cointegrationTEST)定义:定义(协整):设Yts|(1),xts|(1)。如果存在常数b,使得Yt-bXt为I(0)(平稳时 间序列)时,称Yt和Xt之间存在协整关系。基本思想:Johansen检验的思想就是检验ut和nt是否存在相关的典型变量和有几对相关性 较大的典型变量。协整的检验方法一般有两种, Engle-Granger 方法检验方法。 E-views 提供一个叫约翰森 (Johan

29、sen)检验提供了确定协整变量个数的方法,其方法的理论基础是典型相关分析。步聚:第一步,拟合模型第二步,拟合模型第三步:Johansen检验:这不是单独的一个检验,而是一系列的检验,检验从g=0开始。十六、问卷的信度与效度检验(一) 信度(Reliabilty) 社会测量中,作为测量工具的问卷,如果设计不周密、题意不确切、含混或具某种倾向性, 其信度必定不高。信度是指可靠性、可信性,指统计结果的稳定性或一致性,可表示在 N 次调查或度量中有多少次是正确的,或每次调查属于正确的概率是多少。信度的度量通常是以相关系数表示的,又称信度系数。信度可以分为重(再)测信度(Test-RetestRelia

30、bility)、复本信度(Alternate-formReliability )、内 容一致 性信度 (InternalConsistencyCoefficient)、折半信度和同质信度【计算a系数】同质信度(Homogeneityreliability)代表所有测验题目的一致性,当各个测验题目得分是正 相关时是同质的,当相关性很低时为异质。最常用克朗巴哈(Cronbach)a 系数法和Speraman-brown 的折半信度 S。a 系数法其计算公式是:a式中,N为题总数,Si2为第I题内方差,为总分方差,r题间的相关系数的总和一般要求问 卷的a系数大于0.70。可信度Cronbacha 系

31、数不可信Cronbacha 系数V0.3勉强可信0.3 = Cronbacha 系数V0.4可信0.4 = Cronbacha 系数V0.5 很可信(最常见)0.5 = Cronbacha 系数V0.7 很可信(次常见)0.7 = Cronbacha 系数V0.9十分可信0.9= Cronbacha 系数信度分析在SPSS中的操作步骤:step1: AnalyzeaScaleReliabilityaAnalysisstep2:于变量清单中点选题目的变量置入左项目中aModel模式选择Alphastep3:按 Statisticsa在里面点选 Scaleifitemdeleteda按 Conti

32、nueaOK(split-halfcoefficient)信度,也称折半信度s法,常用于态度、意见式问卷的信度分析,它 系指采用分半会计所测得的信度系数,通过在调查问卷分为等值的两半、或将项目的单又序 号分两半,求这两个各半测验总分之相关系数。斯皮尔曼-布朗(Spearman-Brown)(二) 问卷调查的效度检验(Validity) 效度指测量结果与试图达到的目标之间的接近程度,评价的是偏倚和系统误差问题。分为内 容效度、结构效度和表面效度。效度值越高越能反映所要测量值的对象的真正特征。效度应 在 0.7 以上。结构效度(constructvalidity)是指测量结果体现出来的某种结构与测

33、值之间的对应程度,它 是最重要的评价指标。结构效度分析所采用的方法是因子分析。内容效度(contentvalidity):问卷内容能在多大程度上覆盖研究目的要求达到的各个方面和 领域。与表面效度一样,同属主观指标。表面效度(Facevalidity)。资料:除此之外,你可以用因子分析里面Descriotives里面KMO和巴特利检验(battele,不 知道是不是这样写的),KMO的值如果0.5,则说明因子分析的效度还行,可以进行因子分 析;另外,如果巴特利检验的Pcorrelatebivariatecorrelations。十七、相关分析(Correlation analysis)与回归分析

34、(Regression nanlysis)(一)相关的概念事物或现象之间存相互联系、相互制约关系,而且所有各种现象之间的相互关系可以通过数 量关系反映出来。现象之间的有关系可以通过两种不同类型表示出来,一是函数关系,这种 关系是通过严格的数学方程表达出来。二是相关关系,这种关系的具体关系值是不确定的。(二)相关系数的计算与应用相关图表对发了解现象之间的相互关系是有用的,但只是初步判断,为了说明现象之间的关 系密切程度必须计算相关系数,相关系数的计算方法有很多,最常见的公式是。其实,相关系数可由拟合度R2得到,即(三)相关系数的密切程度 当相关系数处于0.3到0.5之间表示是低度相关; 处于0.

35、5到0.8之间是显著相关;处于 0.8 以上是高度相关。(四)回归分析相关关系仅能说明变量之间相关关系的方向和紧密程度,而不能说明变量之间的数量关系, 即当给出某一自变量的数值时不能根据相关系数确定或估计因变量发生的值。回归分析就是 对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以 便于进行估计或预测的统计方法。(五)回归分析与相关分析的区别回归分析和相关分析都是研究变量之间的关系,在实际应用中,两种分析方法经常相互结合 渗透和结合,但在研究重点方面却有所不同:(1)在回归分析中,变量Y称为因变量,处在 被解释的特殊地位,而在相关分析中,变量X和Y处于相同的地位

36、;(2)相关分析的重点是 研究变量之间的关系及关系密切程度,而回归分析中,不仅可以揭示变量x对变量Y的影响 大小,还可以由回归方程进行预测和控制。(六)简单相关系数和偏相关系数(PAC) 只计算两个变量之间的线性关联程度的相关系数可以称为简单相关,对于三个或三个以上变 量之间关系的系数,就是引入偏相关系数(Partialcorrealationcoefficient).偏相关系数可以这样定义:表示在X3不变的条件下,X1, X2的偏相关系数。表示在X2不变的条件下,XI,X3的偏相关系数。同理,表示在X3,X4不变的条件下,XI,X2的偏相关系数。计算公式是:(七)自相关或序列相关自相关(Au

37、tocorrelation)和序列相关(Serialcorrelation)在许多文献中看作同义语,它所 表达的意思是:按时间(在时间序列数据中)或空间(在横截面数据中)的排序的观测值序 列的误差项之间的存在相关。在经典的线性模型中,假设在误差项Ui之间不存在自相关,用符号表示就是E (Ui,Uy) =0 或者是 COV (Ui,Uy) =0,当 E (Ui,Uy)M0,则表示存在自关。自相关检验,用以检测是否存在自相关用d统计量,DW统计量。其计算公式是:.它不外是相继残差的差异平方和与RSS之比,它有一个缺陷就是只能检验一阶相关自相关, 经验表明当,表明不存在自相关。发现存在自相关采用广义

38、最小二乘法(GLS)。(八)距离相关(Distancescorrelation) 基本功能:调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间 的接近程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合优度。 在 SPSS 中,有两个选项: Betweencases 表示作变量内部观察值之间的距离相关分析,Betweenvariables表示作变量之间的距离相关分析;在Measure栏中有两种测距方式:Dissimilarities为不相似性测距Similarities为相似性测距。若选 Dissimilarties 并点击 Measure.钮,弹出 Dist

39、ance:DissimilarityMeasure对话框(图 7.6), 用户可根据数据特征选用测距方法。(九)复相关系数(coefficientofmultiplecorrelation) 复相关系数是度量复相关程度的指标,它旨在研究一个随机变量与多个随机变量之间的线形 相关关系。它可利用单相关系数和偏相关系数求得。复相关系数越大,表明要素或变量之间 的线性相关程度越密切。 做多元回归, 即可求出复相关系数。 在 SPSS 中,Statistics-Regression-Linear.结果中的 MultipleR 的值就是复相关系数。(十)交互相关(Crosscorrelation)是指第一

40、个序列与另一个序列移动形式的综合点积。当两序列彼此反向移动而不具备相关性 时,可认为该序列具有较好的互相关属性。(十一)斯皮尔曼等级相关系数rs (次重点)1识记:(1)斯皮尔曼等级相关系数rs计算公式:n6di2i=1n(n2-1)rs=1-(2) rs检验的原假设:H0:总体中变量x与变量y等级相关:p s=0(3)rs检验的统计量及其分布:t=t (n-2)(4)rs双边检验拒绝域:tta /2或tV-ta /22理解:(1) rs的取值范围讨论:在完全相关情况下,rs=1; 般情况下,rs取值在-1, +1之间;(2) rs 仅适用于变量没有相同等级或只有少量的相同等级。3.应用:(1

41、) rs计算;(2) rs统计检验。(三)其他等级相关系数(一般)1识记:(1)肯氏T系数系列系数计算公式;(2) d系数计算公式2. 理解:(1)肯氏T系数系列系数的适用性;(2) Gamma系数与d系数的比较3应用:(1)肯氏T系数系列系数的计算;(2) d系数的计算十八、回归分析、方差分析与相关分析的关系方差分析也可以用于回归当中,其最重要的用途就是通过逐步引入法选择重要的解释变量, 综合运用回归法,相关分析法和方差分析法,有利于构造更好的多元线性回模型。F=通过变换,可以得到(一)回归分析的系数在回归方程中,回归系数的大小依赖于自变量与因变量的变化尺度(如标准差)的大小,如 果自变量的

42、标准差与自变量的标准相差太大,则会导致回归系数低估,一个解决的办法就是 自变量和因变量先进行标准化,即转化成z分数后再进行回归。所以就有了“非标准化系数” 和“标准化系数”之分。(二)相关分析在 SPSS 中,关于相关分析在三个选项1. Pearson 积差相关系数:功能是计算相关系数并作显著性检验,适用于两列变量均为正态 分布的连续型变量。2. Kendallstau-b::对数据没有严格要求,适用于检验等级变量之间的关联程度。3.Speraman 等级相关检验:对数据分布没有严格要求,适用于等级变量,或者等距离不满 足正态分布情况。统计英汉对照表1. Auto-correlation(AC

43、)自相关:2. Partialcorrelation(PC)偏 相关:3. correlogram:相关图。4.iterations:重复5.convergence:会合6.inverse 倒数的7iterate 迭代8.cofidenceinterval:置信区间9.intervelestimate:区间估计10. Pointestimate:点估计11. intercept:截距12. comparemean:均值比较13.one-sampleTtest:单样本T检验.调用此过程可完成样本均值与总体均值之间的比较。14.independent-sampleTtest:两独立样本T检验.调用此过程可完成两个两个独立样本数据的 均值比较。15. paired-sampleTtest:两配对样本T检验.调用此过程可完成两个配对样本数据的均值比较, 与独立样本不同,配对样本之间具有相关性。16. criticalvalue:临界值17.one-tailedtest :单边检验18. two-tailedtest:双边检验19. p-value: P-值20. Histogramandstat 直方图和统计

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!