如何学习统计研究方法最终版

上传人:痛*** 文档编号:172029754 上传时间:2022-11-30 格式:PPT 页数:36 大小:405.52KB
收藏 版权申诉 举报 下载
如何学习统计研究方法最终版_第1页
第1页 / 共36页
如何学习统计研究方法最终版_第2页
第2页 / 共36页
如何学习统计研究方法最终版_第3页
第3页 / 共36页
资源描述:

《如何学习统计研究方法最终版》由会员分享,可在线阅读,更多相关《如何学习统计研究方法最终版(36页珍藏版)》请在装配图网上搜索。

1、和传媒大学同学的一次交流和传媒大学同学的一次交流 祝迎春祝迎春 2006,5引言引言个人的介绍个人的介绍主题:主题:I.分享学习统计的一些心得(理论方法的知识分享学习统计的一些心得(理论方法的知识地图)地图)II.回归应用的问题(个案学习)回归应用的问题(个案学习)统计是一门致力于研究:收集数据(抽样理论),分析数据(统统计是一门致力于研究:收集数据(抽样理论),分析数据(统计算法),解释数据(背景知识与理论)的学科。计算法),解释数据(背景知识与理论)的学科。-我个人的心得我个人的心得 .外加计算机操作 研究什么?研究什么?-经过数据计算后产生出有意义的信息事物之间的相关关系(包括因果关系)

2、事物之间的差异(先找出它们的差异然后再找出它们的共性)事物的结构(层次水平)统计是以帮助描述,验证思想的工具性学科 统计是什么?统计是什么?统计的两个应用领域统计的两个应用领域思维过程领域思维过程领域研究方法领域研究方法领域生活学术数字背后的心理活动过程,普通人做统计问题时的思维过程-处理随机事件的能力数字背后的心理活动过程,研究者做学术研究时,逻辑的推理过程关于随机性规律关于随机性规律观察数据 调查数据 抽样数据 试验数据统计中的形象思维:使看不见的随机性被看见 的意义,赋值和建立、描述相关关系基本知识回顾基本知识回顾总体的描述(随机变量的数字特征:X,)与样本的描述(样本分布的数字特征:,

3、s)之间连接点是:随机变量的分布。.估计量的性质:估计量的性质:1.无偏性(Unbiasedness):样本均值在真值附近摆动而没有系统误差。2.有效性(Efficiency):在所有的不同估计量中的方差最小。3.一致性(Consistency):当n,估计量在真值附近的概率接近1。4.最小离差平方(Mean Square Error):离差最小or方差最小?如果估计量是无偏时此标准等价于有效性。.对对估计量的检验:假设检验估计量的检验:假设检验单个总体(估计方差?估计均值?方差已知否?)两个总体(相关系数)点估计(Point Estimation)矩法似然法最小二乘法.估计方法:估计方法:区

4、间估计(Interval Estimation)统计学习分三个部分统计学习分三个部分统计基本原理 统计是应用性很强的学科,在使用某一种方法之前,一定要对所用方法的目的对象和条件有所了解。目的:描述(集中或离散)?相关关系?差异?H0 对象:变量类型和个数;抽样方式;数据排列(eg.MDS)条件:参数或非参?模型假设(Assumption)统计软件操作 选择:经济原则,学习最恰原则,兼容性,获得性,模块数量,创建新变量,前沿性 格式:数据录入格式;数据排列(eg.多重应答)规范性:命令或鼠标操作正确;探索与重复;选择软件体现了统计应用的专业性。Spss?Stata?SAS?R?STATISTIC

5、A?Minitab统计结果解读 在理解算法原理即统计意义后的软件操作解读。(操作步骤中先看什么后看什么,对应的统计过程是什么?)每步统计结果中对数字的解读。(eg.)统计技术水平 检验背后代表的是什么?备择假设!说明了什么现实意义(可证伪吗?)。试验设计或者验证过程的逻辑严密性。研究经验(eg.每个群的常模,回归的决定系数大小)高手的处理技巧(体现在操作化过程)。研究功底水平学习归纳统计方法的一个案例学习归纳统计方法的一个案例2.相关独立样本1.差异非独立样本组类相关系数Intraclass correlation coefficientPearson相关系数独立样本t检验配对样本t检验在同一

6、对象上两个重复测量值之间的相关系数。Pearson相关系数研究的是不同变量之间产生的。研究中要注意的一些问题研究中要注意的一些问题假定(Assumption):在研究中被人为控制(设定,定义)的变量或者常量。针对的是一个变量(常量是特殊的一种变量)。假设(Hypothesis):可验证性的;陈述两个或多个数个变量间的可能关系,为一种假设性陈述。变变量量产产生生操作化(operational definition):用变量代替概念。理论是观察陈述的前提概念术语使用的必要性陈述日常用语科学陈述大众共识 学术共识观观察察与与描描述述验验证证过过程程数据管理数据管理数据分析数据分析数据呈现数据呈现数据

7、收集数据收集数据格式的转换储存位置抽样设计研究设计问卷设计执行管理变量选择加权统计模型的选择统计量的含义检验标准(显著性水平)报表表格符号(公式,文字)图形客观的世界主观的世界观察解释理论和现象的关系理论和现象的关系物理活动(声,光,机械)化学变化(无机物变化)生物活动(新陈代谢)心理活动(意识与认知)社会变化(文化,人际,阶层,传播)不具有运算功能的符号:绘画,音乐.具有运算功能的符号:逻辑,文字,数字数字随机变量的分布随机性估计变量分布的特征我们在做什么我们在做什么 科学本质:试验性(包含了证伪性的命题)在错误中不断求真(广泛的解释性和高度一致的预测性),理论是怎样产生的呢?波普尔认为,科

8、学只能从问题开始,理论是为解决问题而做出的尝试,是对问题的猜测,波普尔说:“一种科学理论,一种解释性理论,只不过是解决一个科学问题的一种尝试”。因此,理论是大胆的猜测,即使是那些己经充分确认的科学理论也终究还是一种猜测,一种假说。正因为理论是猜测,它们就具有不确定性和暂时性,最终会被推翻,被新理论所替代。我们是一群问题提出者和企图解答者。我们是一群问题提出者和企图解答者。波普尔认为,衡量一个理论真的程度的标准即看该理论是否具有高解释力和高预测力,而这又是由理论所包含的信息量来决定的。一般说来,理论所包容的信息量越多,其可解释的范围越广,其预测的力度便越强。但与此同时,科学理论所包容的信息愈多,

9、它接受的范围愈广,其可错性或被证伪的概率便越高。也就是说:科学理论真的概率增大的过程,也是科学理论被证伪的可能性增大的过程,换言之,它是科学理论中可错成分逐渐增多的过程。理想的理论理想的理论 回答现象为什么机制 可验证性,及可以证伪和重复的 与相关之既有知识或理论一致,不宜抵触,不是孤立理论 简约,若为统计模型,参数要尽量少 对应研究之问题 量化形式,不仅是文字建模也是可以数字建模和图形建模 具相当广度(有助推论),具有普适性一个好的社会学理论(实证性):解释控制变量的产生原因明确指出解释现象的产生原因和结果,以及因果关系的方向性,(没有大小why?),连续性(条件变化后结果的变化,即预测功能

10、)Staw and Sutton(1995):“What theory is not?”1.参考文献不是理论参考文献不是理论.不要被文献驾驭不要被文献驾驭2.数据不是理论数据不是理论3.变量的列表或建造不是理论变量的列表或建造不是理论4.图表不是理论图表不是理论-不要用不要用AMOS5.假设假设(或预言或预言)不是理论不是理论周雪光的见解:什麼是“有力的理論”?理論應該回答“為什麼”的問題:泛泛描述性的研究沒有深度理論關心的是現象之間的關係,即我們觀察到的行為、事件、結構或思想為什麼產生的因果關係。“在我們看來,理論的任務是深入地探討解釋導致某一事件或行為發生的內在過程,從而幫助我們理解這一現

11、象產生的系統的原因”(378頁)。實證研究的設計應該為這個基本目的服務。集中在“因果關係”上研究的深入性、系統性统计学习的路径:基础统计 社会统计 多元统计不懂统计原理,胡乱调用些proc,得出的P值不是“屁“才怪呢!不教(写)原理只教技术,“菜谱式”学习只能是制造数据垃圾和伪实证的理论。clxia:计算机和软件只是辅助思维的工具,不是思维本身。在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的对象和条件有所了解一些有用的统计观点一些有用的统计观点 统计学家发展了许多测量变量关联强度大小的方法;一定条件下,某种方法的选择依赖于所含变量的多少,所使用的量表及关联的本质等等,但大

12、多都遵守一条基本原则:都试图通过与这些特定变量间最大可能关联比较来估计实际关联强度的大小。从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说,就是将所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说,就是将变量中共同部分比成如果变量完全相关时应潜在相同的部分。变量中共同部分比成如果变量完全相关时应潜在相同的部分。注意研究中的随机性现象的影响。计量经济学家在无偏性和一致性的取舍上一般要求一致性。一些有用的统计观点一些有用的统计观点SPSS14STATA9

13、统计学习的“老师”向谁学,学什么:统计软件 统计专著 论文 交流。方差齐性 线性关系 效应累加 变量无测量误差 变量服从多元正态分布 观察独立 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)误差项独立且服从(0,1)正态分布。第二部分:回归技术的学习第二部分:回归技术的学习为什么要学习:回归模型是实证分析中最广泛使用的工具。作业答案:回归的8个假设:最小二乘法的本质:点估计最小二乘法的本质:点估计统计意义:回归技术就是估计回归系数及其标准误的点估计。回忆一下回归的一些基础知识复习“回归”一词的由来-父亲和儿子的身高关系(起源)1889年F.Gallton和他的朋友K.Pearso

14、n收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式。后来发展为从误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。0iiiiiiyyyxyx纵向距离横向距离,AyxiiA为实际点,B为拟合直线上与之对应的点,Ayxii222()()(1)()(1)iiiiijyyVarRxxnk共线性0ijiXX无法估计最小二乘法的性质最小二乘法的性质 1拟合残差之和等于零 2Y的真实值和拟合值的均值相等 3拟合残差与自(解释)变量不相关 4残差与拟合值不相关,0iiCov x(),0iijECov()()iEyy,0iiCovy不存在自相关高斯高斯马尔可夫定

15、理马尔可夫定理 最好 线性 无偏()iM inVariiiC y()iiE,(,)ijijCovE 高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的无偏估计量。当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的统计量,可从三个方面考察其优劣性:(1)线性性(linear):即是否是另一随机变量的线性函数;(2)无偏性(unbiased):即它的均值或期望值是否等于总体的真实值;(3)有效性(efficient):即它是否在所有线性无偏估

16、计量中具有最小方差。关于经典回归模型的假定关于经典回归模型的假定1标量符号1、解释变量kXXX,21是非随机的或固定的;而且各 X 之间互不相关(无多重共线性无多重共线性(no multicollinearity))矩阵符号1、)1(kn矩阵 X 是非随机的;且 X 的秩1)(kX,此时XXT也是满秩的关于经典回归模型的假定关于经典回归模型的假定2标量符号2、随机误差项具有零均值、同方差及不序列相关 0)(iE ni,2,1 22)()(iiEVar ni,2,1 0)(),(jijiECov ji 矩阵符号2、INNENET2)(,0)(0)()()(11nnEEENE nnTENNE11)

17、(21121nnnEI22200关于经典回归模型的假定关于经典回归模型的假定3标量符号3、解释变量与随机项不相关 0),(ijiXCov ni,2,1矩阵符号3、0)(NXET,即 0)()()(11iKiiiiiKiiiiEXEXEXXE关于经典回归模型的假定关于经典回归模型的假定4标量符号4、(为了假设检验),随机扰动项服从正态分布 ),0(2Ni ni,2,1 矩阵符号4、向量 N 为一多维正态分布,即 ),0(2INN随机扰动项 垂直波动(Vertical Error Jumps)i关于随机扰动项的古典假设关于随机扰动项的古典假设XiYX1X3X2X4X6X5其数据生成过程叫变量误差模

18、型残差分布均值为零(Zero Mean Error Displacement)关于随机扰动项的古典假设关于随机扰动项的古典假设0iE1,2,3.,in0iE使用最小二乘法一定会保证这个假设满足随机扰动项的方差为同方差(Homoskedasticity)关于随机扰动项的古典假设关于随机扰动项的古典假设异方差(Heteroskedasticity)同方差假定的意义是指每个i围绕其零平均值的变差,并不随解释变量X的变化而变化,不论解释变量观测值是大还是小,每个i的方差保持相同,即0iE异方差关于随机扰动项的古典假设关于随机扰动项的古典假设.x x1x2yf(y|x)x3.E(y|x)=0+1x.x1

19、x2E(y|x)=0+1xyf(y|x)HomoskedasticHeteroskedastic后果后果出现异方差之后,最小二乘法的最优性就失效。在社会科学中是必然的。识别识别 Goldfeld-Guandt检验:这种检验的思想时,如果整个总体或经济过程在研究期间都是同方差的,这意味着报研究期间划分为两个时期来考虑和研究总体或经济过程所得到的误差项方差的差异不应该是显著的。Breuch-Pagan检验:如果异方差的形式不与某个解释变量的观测值,或观测次数有关,而是与一组解释变量有关,此时无法使用Goldfeld-Guandt检验。White检验处理处理 交互回归 加权回归 稳健回归(似然法)异

20、方差异方差共线性共线性 当两个或两个以上解释变量之间高度(但非完全相关)时,乘模型中出现多重共线性。多重共线性的后果:使参数估计值的标准误差增大,导致参数估计值的t统计量减少,从而使参数估计值无法通过t检验。整体拟合很好,但个体估计很差。其含意是:整体的拟合有度R2很大,但个体参数估计值的t统计量却很小,并且无法通过检验。此时我们称模型中出现多重共线性。相关矩阵 自变量之间回归 按照实际理论意义删除自变量(看模型设定问题)忽略 增加样本(未必减少标准误反而增加变量相关)主成分回归(社会科学中不可取),偏最小二乘法,岭回归后果后果识别识别处理处理自相关自相关后果后果 相关会导致用最小二乘法求出的

21、参数估计值不是线性估计中方差最小的估计值。识别识别 Durbin-Watson检验处理处理 通过广义差分变换消除异方差(计算)模型设置模型设置 自变量存在随机误差自变量存在随机误差 非线性和不可相加性非线性和不可相加性 遗漏变量或者添加不相关的变量(自变量的选择问题)遗漏变量或者添加不相关的变量(自变量的选择问题)过度设定对我们的参数估计没有影响,OLS仍然是无偏的。但它对OLS估计量的方差有不利影响。遗漏变量将违反“零条件均值”E(u|xp)=0.OLS估计是有偏的 遗漏X2偏误方向(二元特例)谨慎使用:逐步回归 信息准则(eg.AIC)Corr(x1,x2)0Corr(x1,x2)0Pos

22、itive bias偏误为正Negative bias偏误为负2 0Negative bias偏误为负Positive bias偏误为正问题完了吗问题完了吗?你确定你会回归了?你确定你会回归了?回顾以上其实我们只是讨论了模型设定除了问题的情况,模型的元素不仅是模型的模型的形式,还包括了样本本身:如果样本并不完备又如何?样本不完备包括(1)存在测量误差(2)存在分组情况(3)样本存在缺失值存在测量误差(变量误差存在测量误差(变量误差&方程误差模型)方程误差模型)0110()iippiiiippipiiYbbXb XYbb X模型变了,更加广义了!处理处理对误差的设定:彼此独立,为均值为0的正态分

23、布;且不存在自相关;也独立与回归的随机扰动项*0,ippiiiiipiYbb Xb整理后其中:1.工具变量估计:寻找一个Z替代X使得 与 不相关,仅与 相关,越高越好。,iii ixiz2.组平均法:1的一种特例。识别识别3110131,*yyyxxx3.加权回归:必须知道自变量和因变量的误差方差比值为常数。存在分组情况存在分组情况变量不是来自同一总体的情况,变量存在分组:按一个变量来标定分类叫单向分组数据;按两个变量来标定分类叫双向分组数据。组观测个数X平均值Y平均值1n1(x1)(y1)2n2(x2)(x2):gng(xg)(xg)带有虚拟变量的模型样本存在缺失值样本存在缺失值极大的一个课

24、题,不是我现在可以讲的。极大似然法EM算法(期望步;极大化步,使用迭代直至达到收敛)贝叶斯统计多重插补Eg.零回归估计(使用缺失值的样本均值内插估计是有偏的)处理处理我对建立回归模型的建议我对建立回归模型的建议回归是建立在研究者对所有变量的性质,关系有很好的把握的基础之上。变量的选择和要解释的事实联系起来不断“拷问”回归的假设为什么?:现实是复杂的,模型是我们对真实的简化,为了让它更加接近刻画真实的规律,所以我们要在理想的回归模型上加一些贴近真实数据产生过程的约束(假设),再进行对现实的预测,这才体现了实证主义的精要!我们在做一件不可能达到的事情:追求理论和实际的统一,理论-实际=0,但是我们不要灰心,我们可以做到lim理论-实际=已知的某种统计分布,这意味,差距是我们可以理解,把握,更重要的是我们用来解释和预测事实。最后一句:千万小心形式(模型建模与估计)替代内容(理论)!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!