双变量的描述统计课件
《双变量的描述统计课件》由会员分享,可在线阅读,更多相关《双变量的描述统计课件(21页珍藏版)》请在装配图网上搜索。
1、第十二章第十二章 双变量的描述统计双变量的描述统计n本章主要内容:相关分析、交互分类分析、相关度测量方法等。第一节第一节 相关的基本性质相关的基本性质n一、相关关系的程度n二、相关关系的方向n三、相关的对称性与因果关系一、相关关系的程度一、相关关系的程度1.1.相关关系相关关系n相关关系相关关系,是指变量之间确实存在的,但关系值不是固定的数量上的,是指变量之间确实存在的,但关系值不是固定的数量上的相互依存关系,即给定一个变量的值,另一个变量可能会有多个数值相互依存关系,即给定一个变量的值,另一个变量可能会有多个数值与之相对应。与之相对应。即即现象之间的这种依存关系是不严格的,即无法用数学公式表
2、示。现象之间的这种依存关系是不严格的,即无法用数学公式表示。2.2.相关分析相关分析:分析变量之间是否存在相关关系、相关的密切程度如何分析变量之间是否存在相关关系、相关的密切程度如何n相关分析的主要内容:相关分析的主要内容:(1 1)判断社会经济现象之间是否存在相互依存的关系,这是相关分析的判断社会经济现象之间是否存在相互依存的关系,这是相关分析的出发点;出发点;(2 2)确定相关关系的密切程度;确定相关关系的密切程度;(3 3)测定两个变量之间的一般关系值;测定两个变量之间的一般关系值;(4 4)相关系数的显著性检验相关系数的显著性检验3.3.相关关系密切程度相关关系密切程度n相关关系用统计
3、值来表示,称为相关系数相关关系用统计值来表示,称为相关系数 r rn通常,相关系数通常,相关系数r r取值在取值在0 01 1之间,之间,0 0代表无关,代表无关,1 1代代表完全相关,相关系数越大,相关程度越强。表完全相关,相关系数越大,相关程度越强。n统计学:统计学:0.70.7以上,才能断定两个变量有必然的、规律性以上,才能断定两个变量有必然的、规律性的联系。但社会现象间很少有这样密切的联系。的联系。但社会现象间很少有这样密切的联系。n在社会研究中,如相关系数在社会研究中,如相关系数r r的绝对值介于的绝对值介于0.70.71.01.0间,间,即高度相关;介于即高度相关;介于0.30.3
4、0.70.7间,即中度相关;介于间,即中度相关;介于0 00.30.3间,即低度相关。间,即低度相关。二、相关关系的方向二、相关关系的方向n通过散点图可初步判断通过散点图可初步判断(a a)强正、负相关。)强正、负相关。即坐标点呈窄带分布;(应变量只增大或减小)即坐标点呈窄带分布;(应变量只增大或减小)(b b)弱正、负相关。)弱正、负相关。即坐标点呈宽带分布;(应变量只增大或减小)即坐标点呈宽带分布;(应变量只增大或减小)(c c)非线性相关。)非线性相关。即应变量先增大后减小,或倒过来。即应变量先增大后减小,或倒过来。(d d)无相关。)无相关。坐标点分散,看不出变动方向。坐标点分散,看不
5、出变动方向。三、相关统计值的意义:消减误差比例三、相关统计值的意义:消减误差比例n它是评估变量间关系强度的一个逻辑模型。它是评估变量间关系强度的一个逻辑模型。n它是相关性测量的共同基础。它是相关性测量的共同基础。n定义:所谓消减误差比例,指的就是知道定义:所谓消减误差比例,指的就是知道X X的值去预测的值去预测Y Y时,时,所减少的误差与总误差的比。所减少的误差与总误差的比。n消减误差比例公式消减误差比例公式:121EEPREE第二节第二节 交互分类交互分类n它是将研究所得的一组数据按照两个不同的变量进行综合它是将研究所得的一组数据按照两个不同的变量进行综合的分类;其结果通常以交互分类表(又称
6、列联表)的形式的分类;其结果通常以交互分类表(又称列联表)的形式反映出来。反映出来。n一、交互分类的基本形式一、交互分类的基本形式某次调查样本的构成情况统计表某次调查样本的构成情况统计表 性别性别年年 龄龄青年青年中年中年老年老年合计合计男男女女705060405030180120合计合计12010080300二、交互分类的作用二、交互分类的作用n第一,列联表可以较为深入地描述样本资料的分布状况和内在结构;n第二,列联表可以用来进行分组比较 n第三,列联表可以对变量之间的关系进行分析和解释。三、交互分类表的形式要求三、交互分类表的形式要求n1.1.制作条件百分比联表时,一般应将自变量置于表上端
7、的制作条件百分比联表时,一般应将自变量置于表上端的横行;因变量置于表的最左一列。横行;因变量置于表的最左一列。n2.2.按照自变量的属性将样本分组;并按照自变量的方向计按照自变量的属性将样本分组;并按照自变量的方向计算百分比;算百分比;n3.3.按照因变量的属性描述这些分组好的子类;按照因变量的属性描述这些分组好的子类;n4.4.按照因变量属性将自变量的子类相比较,即按应变量的按照因变量属性将自变量的子类相比较,即按应变量的方向来解读这个表格。方向来解读这个表格。n5.5.当因变量在样本内的分布不能代表其在总体内的分布时,当因变量在样本内的分布不能代表其在总体内的分布时,百分比就要按照因变量的
8、方向进行计算。百分比就要按照因变量的方向进行计算。n如,在总体的某一子类中按1%抽取样本(双亲家庭),而在另一子类中按20%抽取样本(单亲家庭);就属于此类情况。第三节第三节 相关测量法相关测量法n相关分析,是以一个统计值表示变量与变量间的关系,它相关分析,是以一个统计值表示变量与变量间的关系,它是研究两个或两个以上变量之间相互关系的统计方法。是研究两个或两个以上变量之间相互关系的统计方法。n一、两个定类变量:lambda和tau-y相关测量法n二、两个定序变量:Gamma和dy系数n三、两个定距变量:简单线性回归和积矩相关系数rn四、定类变量与定序变量:lambda和tau-y相关测量法n五
9、、定类变量与定距变量:相关比率一、两个定类变量:一、两个定类变量:lambda和和tau-y相关测量法相关测量法n用于测量两个定类变量的相关系数,主要有用于测量两个定类变量的相关系数,主要有Lambda Lambda 与与Tau-yTau-y两种。两种。(1 1)LambdaLambda()系数:对称形式)系数:对称形式用于测量两个变量间用于测量两个变量间的关系是对等的,即无自变量与因变量之分。的关系是对等的,即无自变量与因变量之分。(2 2)Tau-yTau-y系数:用于测量变量间非对称关系的。非对称形系数:用于测量变量间非对称关系的。非对称形式式测量两个变量间的关系有自变量与因变量之分。测
10、量两个变量间的关系有自变量与因变量之分。(1 1)系数系数 n系数优于其他几种相关统计量的地方,是它具系数优于其他几种相关统计量的地方,是它具有消减误差比例有消减误差比例(PRE)(PRE)的意义。的意义。n系数的基本特点是以众值作为预测的准则。系数的基本特点是以众值作为预测的准则。n其计算公式为:其计算公式为:0=yYfFnF 表示变量表示变量X 的每一个值之下变量的每一个值之下变量Y的众值;的众值;表示变量表示变量Y的边际分布中的众值。的边际分布中的众值。0fYF(2 2)系数系数n又称又称Tau-yTau-y系数系数n其取值的绝对值为其取值的绝对值为0 01 1;n其基本特点是以边缘分布
11、所提供的比例作为预其基本特点是以边缘分布所提供的比例作为预测的准则。测的准则。n它是用于测量变量间非对称关系的。非对称形它是用于测量变量间非对称关系的。非对称形式式测量的两个变量间是有自变量与因变量测量的两个变量间是有自变量与因变量之分。之分。二、两个定序变量:二、两个定序变量:Gamma和和dy系数系数n两种等级相关的分析方法:斯皮尔曼等级相关和两种等级相关的分析方法:斯皮尔曼等级相关和GammaGamma系系数的等级相关。数的等级相关。1 1、斯皮尔曼、斯皮尔曼(Spearman)Spearman)等级相关系数等级相关系数():通过单个个案在两个变量上的等级差异,测量两变量间对等通过单个个
12、案在两个变量上的等级差异,测量两变量间对等相关关系。相关关系。n相关系数计算公式:22611isdnn斯皮尔曼等级相关系数的取值范围:斯皮尔曼等级相关系数的取值范围:-1-1,+1+1斯皮尔曼等级相关系数,具有消减误差比例斯皮尔曼等级相关系数,具有消减误差比例(PRE)(PRE)的性质。的性质。n2.Gamma2.Gamma(G G)系数:分析两个变量间的对等关系,即无自)系数:分析两个变量间的对等关系,即无自变量与因变量之分。变量与因变量之分。nGammaGamma系数用系数用或或G G表示,其取值范围是表示,其取值范围是-1,+1-1,+1,适用于,适用于分析对称关系,且既表示相关的方向性
13、,又表示相关的程分析对称关系,且既表示相关的方向性,又表示相关的程度。它也具有消减误差比例的意义。度。它也具有消减误差比例的意义。n计算公式:n 表示同序对数目表示同序对数目;表示异序对数目;表示异序对数目;nG系数具有消减误差比例系数具有消减误差比例(PRE)的性质。的性质。n要将随机样本中有关两定序变量间关系的结果推论到总体,要将随机样本中有关两定序变量间关系的结果推论到总体,同样必须对其进行统计检验。同样必须对其进行统计检验。SdSdNNGNNsNdN三、两个定距变量:简单线性回归和积矩相关系数三、两个定距变量:简单线性回归和积矩相关系数r1.简单线性回归简单线性回归n如果两个变量如果两
14、个变量x x、y y之间是一种线性关系,则这一关系可以之间是一种线性关系,则这一关系可以用一元线性方程用一元线性方程 y=y=+x x 表示。表示。其中其中 称作回归常数称作回归常数,称为回归系数称为回归系数n其含义:其含义:n当自变量取某一值当自变量取某一值x xi i时,因变量时,因变量y y对应为一概率分布。对应为一概率分布。n回归方程就是研究自变量回归方程就是研究自变量x x不同取值时,因变量不同取值时,因变量y y平均值的平均值的变化。变化。n当因变量当因变量y y的平均值与自变量的平均值与自变量x x呈现线性规律时,称作线性呈现线性规律时,称作线性回归。用数学表达二者关系,即线性回
15、归方程。回归。用数学表达二者关系,即线性回归方程。n当只有一个自变量时,又称为一元线性回归方程,亦称简当只有一个自变量时,又称为一元线性回归方程,亦称简单线性回归。单线性回归。y值与回归线的关系值与回归线的关系n在回归方程中,在回归方程中,y y值是均值;值是均值;n而对应于而对应于x xi i的的y y分布中,每一个真实的分布中,每一个真实的y yi i与回归线的关系如与回归线的关系如下:下:n其中:其中:y yi i是随机变量,是随机变量,i i是随机误差,由于是随机误差,由于i i是非确定的,是非确定的,从而使从而使x x与与y y呈现非确定性关系。呈现非确定性关系。n见下图:见下图:i
16、iiyxy yx xEY=+X回归直线方程的建立回归直线方程的建立n回归方程的拟合。即找出一条最佳的直线,使它与实际数回归方程的拟合。即找出一条最佳的直线,使它与实际数值的偏差为最小,并以此在表示值的偏差为最小,并以此在表示x x、y y的变动趋势。的变动趋势。n前面所讨论的是总体中变量前面所讨论的是总体中变量x x与变量与变量y y之间存在的线性回归。之间存在的线性回归。但当总体未知时,就无法确定但当总体未知时,就无法确定、;n因此,我们只能从总体中抽取一个样本,通过样本值,估因此,我们只能从总体中抽取一个样本,通过样本值,估计总体回归直线的系数计总体回归直线的系数、。n即建立回归直线方程。
17、即建立回归直线方程。n但由于抽样误差的存在,样本均值与总体均值可能会出现但由于抽样误差的存在,样本均值与总体均值可能会出现偏差;偏差;n经数理统计证明:利用最小二乘法,是依据样本估计总体经数理统计证明:利用最小二乘法,是依据样本估计总体线性回归的最好估计方法。线性回归的最好估计方法。最小二乘法的基本思想最小二乘法的基本思想 n在相关散点图中,拟合出一条最理想的直线,它必须满足以下两个条件:在相关散点图中,拟合出一条最理想的直线,它必须满足以下两个条件:n(1)(2)n其中,待定系数其中,待定系数a、b的计算公式为:的计算公式为:0yy2yy最小2()()()xXyYbxXayb xyabx得回
18、归方程得回归方程式中式中:是因变量是因变量 y 的估计值,又称理论值;的估计值,又称理论值;a 为回归直线在为回归直线在y轴上的截距;轴上的截距;b是回归直线的斜率,又称回归系数。是回归直线的斜率,又称回归系数。回归系数回归系数b含义:如果两个观测的值在自变量差一个单位,那含义:如果两个观测的值在自变量差一个单位,那么在因变量上将差么在因变量上将差b个单位;个单位;y2.2.(积差)(积差)相关系数相关系数r rn测量两个定距变量相关系数的最常测量两个定距变量相关系数的最常用的指标是皮尔逊用的指标是皮尔逊(PearsonPearson)(积差)(积差)相关系数相关系数r r。n要求要求n50n50而且两个变量的分布应近似于正态分布。而且两个变量的分布应近似于正态分布。n其计算公式其计算公式:22()()()()xXyYrxXyY其特点:其特点:(1)公式中)公式中x、y是对等的,即将二者位置互换,是对等的,即将二者位置互换,r 值不变;即值不变;即 r 是一种对是一种对称关系的测量;称关系的测量;(2)r 的取值范围在的取值范围在 11 之间。之间。(3)r 的取值具有方向性;的取值具有方向性;(4)r 本身不具有消减误差比例的意义;但本身不具有消减误差比例的意义;但 (又称决定系数又称决定系数)具有消减误具有消减误差比例的意义。差比例的意义。
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。