第四讲多层模型.pdf

上传人:小** 文档编号:16813621 上传时间:2020-10-27 格式:PDF 页数:73 大小:761.32KB
收藏 版权申诉 举报 下载
第四讲多层模型.pdf_第1页
第1页 / 共73页
第四讲多层模型.pdf_第2页
第2页 / 共73页
第四讲多层模型.pdf_第3页
第3页 / 共73页
资源描述:

《第四讲多层模型.pdf》由会员分享,可在线阅读,更多相关《第四讲多层模型.pdf(73页珍藏版)》请在装配图网上搜索。

1、第四讲 多 层 模型 (Multilevel modeling) 主要内容 数据的结构 介绍多层模型在社会科学领域中的应用 通过实例和比较多层模型的分析结果与传统线性模型的分 析结果,加深对多层模型的了解 回顾多层结构数据及统计学的几个最基本的假定,并 解释违反了基本假定可能给数据分析结果带来的偏差 介绍多层模型的优势与适应性 讲解多层线性和非线性模型的基本原理 利用 Stata软件,通过对数据的分析,演示模型的应用 数据结构的类型 横向数据:横截面数据、截面数据; cross- sectional data;合并横截面数据( pooled cross- sectional data) 纵向数

2、据:面板数据; panel data; longitudinal data 时间序列数据: time-series data 配对数据: matching or pairing data 横向数据的特点 定义 在某一时点、多个(或单个)空间收集的多个调查对 象的静态数据 横断面的、平行关系的、并列关系的数据,是一种单 维结构的数据集合( one-dimensional data set) 特点 静态性 :反映某一时点上的某些现象,突出特定时点 研究对象的现状、特点以及不同对象之间的差异 离散性 :体现个体的个性,突出个体的差异,主要用 于比较不同对象之间的差异 横向数据的优势与局限 优势: 简

3、明性 易得性 局限 无法判断因果关系 不能考察动态变化 难以应对异质性问题 横向数据的类型 单个时点数据,一个对象只有一个观察值 因其包含的信息不同,分为两个或多个层次数据 学生 年龄 性别 标准成绩 姊妹数量 父母教育 1010101 10 0 370 0 16 1010102 11 1 360 1 16 1010201 12 1 339 3 9 1010202 12 1 332 2 12 1010203 11 0 351 2 12 单层次数据示例 两个层次数据 学生 年龄 性别 标准成绩 姊妹数量 父母教育 班级 1010101 10 0 370 0 16 1 1010102 11 1 3

4、60 1 16 1 1010201 12 1 339 3 9 2 1010202 12 1 332 2 12 2 1010203 11 0 351 2 12 2 多个层次数据 学生 年龄 性别 标准 成绩 姊妹 数量 父母 教育 班级 学校 1010101 10 0 370 0 16 1 101 1010102 11 1 360 1 16 1 101 1010201 12 1 339 3 9 2 101 1010202 12 1 332 2 12 2 101 1010203 11 0 351 2 12 2 101 “中国健康与营养调查”( China Health and Nutrition

5、Survey,简称 CHNS)有四个层次数据: 省区、社区、家庭、个体,后三个层次的编码规 律分别是: 个人编码 = 省份编码 10000 + 社区原始码 1000 + 家 庭户原始码 100 + 个人行号 家庭编码 = 省份编码 1000 + 社区原始码 100 + 家 庭户原始码 社区编码 = 省份编码 100 + 社区原始码 多个层次的横向数据 学校 2班 1班 学生 1010102 学生 1010201 学生 1010101 学生 1010203 学生 1010202 第三层 第二层 第一层 ID由三个变量构成: 学校编码 10000 班级代码 100 行号 多层次的横向数据 数据结构

6、可以包含更多的层级,向上和向下都可 以继续扩展;社区、家庭、对象 通过其他途径获高层次数据,以弥以补高层单位 数据的缺失 在 Stata软件中, merge命令 在 Stata软件中, egen命令 横向数据只能考察现状,不能显示变化 纵向数据的特点 定义 :面板数据、“时空数据” 在多个时点、单一或多个地点对同一对象反复调查或 观察获得的数据;也可以通过日历方法获得纵向数据 有长、宽、高三个维度;“长”和“宽” = 横向数据, “高” = 时序数据,合起来就是面板数据 若一个调查在不同时间追踪同一对象、询问类似信息, 则该调查所获得的数据属于纵向数据 特点 动态性 :同一对象的同一特点在不同

7、时间的变化趋势 相关性 :群内关联;个体自相关 (静态性和离散性 ) 纵向数据的优势与局限 优势 提供更合理的因果关系 考察研究对象的动态变化 控制研究对象未观察到的异质性,应对遗漏变量问题 更丰富信息,增加自由度,减少共线性,改进估计效能 局限 样本的流失 选择性问题:自选择;非应答 研究设计重点的前后变化 测量误差的扭曲 纵向数据的类型 纵向数据主要分为三类: 纵向追踪数据( panel data; prospective data) 事件史数据( retrospective data) 时间序列截面数据( Time-SeriesCross-Section) 追踪数据与时序数据的差异 追踪

8、数据:大截面 (即大 N),但调查时点少 (即小 T) TSCS数据:多调查时点,但每个时点的对象却较少 纵向数据也是多层结构数据中的一种 人口普查数据是横向数据还是纵向数据? 纵向数据结构:单个观察值 1 6年级的标准成绩 学生 一年级 (2003) 二年级 (2004) 三年级 (2005) 四年级 (2006) 五年级 (2007) 六年级 (2008) 1010101 350 355 360 366 369 370 1010102 332 343 350 351 351 360 1010201 360 356 355 350 340 339 1010202 321 322 320 32

9、5 324 332 1010203 360 380 400 420 430 351 纵向数据结构 : 多个观察值 序 号 学生 年级 年份 标准 成绩 序 号 学生 年级 年份 标准 成绩 1 1010101 一年级 2003 350 16 1010201 四年级 2006 350 2 1010101 二年级 2004 355 17 1010201 五年级 2007 340 3 1010101 三年级 2005 360 18 1010201 六年级 2008 339 4 1010101 四年级 2006 366 19 1010202 一年级 2003 321 5 1010101 五年级 200

10、7 369 20 1010202 二年级 2004 322 6 1010101 六年级 2008 370 21 1010202 三年级 2005 320 7 1010102 一年级 2003 332 22 1010202 四年级 2006 325 8 1010102 二年级 2004 343 23 1010202 五年级 2007 324 9 1010102 三年级 2005 350 24 1010202 六年级 2008 332 10 1010102 四年级 2006 351 25 1010203 一年级 2003 360 11 1010102 五年级 200 7 351 26 101020

11、3 二 年级 2004 380 12 1010102 六年级 2008 360 27 1010203 三年级 2005 400 13 1010201 一年级 2003 360 28 1010203 四年级 2006 420 14 1010201 二年级 2004 356 29 1010203 五年级 2007 430 15 1010201 三年级 2005 355 30 1010203 六年级 2008 351 学校 班级 1班级 学生 1010102 学生 1010201 学生 1010101 学生 1010203 学生 1010202 一年级特点 一年级特点 一年级特点 一年级特点 一年级

12、特点 二年级特点 1010102 二年级特点 1010201 二年级特点 二年级特点 1010203 二年级特点 1010202 四年级特点 1010102 四年级特点 1010201 四年级特点 四年级特点 1010203 四年级特点 1010202 三年级特点 1010102 三年级特点 1010201 三年级特点 三年级特点 1010203 三年级特点 1010202 五年级特点 1010102 五年级特点 1010201 五年级特点 五年级特点 1010203 五年级特点 1010202 六年级特点 1010102 六年级特点 1010201 六年级特点 六年级特点 1010203 六

13、年级特点 1010202 第四层 第三层 第二层 第一层 多层模型 介绍多层模型( MLM)在包括人口学在内的社会 科学领域的应用 为什么使用多层模型 模型的技术优势 应用原理 使用方法 应用举例 比较 MLM和常规的分析结果 线性回归的理论模型 一元线性回归模型,描述因变量 y如何依赖于自变量 x和误 差项 e而异。在该模型中, y是 x的线性函数 加上误 差项 e :模型的未知参数,分别为回归常数、系数; 反映了由于 x的变化而引起的 y的变化,即 边际变化(当变 量 x变化一个单位时,变量 y改变的数量) e是误差项的随机变量,代表因主观和客观原因而不可观测 的随机误差,反映了除 x和

14、y之间的线性关系之外的随机因 素对 y的影响,是不能由 x和 y的线性关系揭示的变异性 xy 10 x10 10 、 x 10 线性回归模型的基本假定 零均值,即 。误差项是期望值 =0 的随机变量 在自变量取一定值的条件下,其总体各误差项的条件平均值为 0; 即在等式( 1)中,由于 0和 1都是常数或系数,故有 对于一个给定的 x值, y的期望值为 等方差,即对于所有的 x值, e的方差 2都相同 误差项服从正态分布,且相互独立,即 0)( E 00 )( E 11 )( E xyE 10)( ),0( 2 N 对于一个特定的 x 值, 它所对应的 与其 他 x 值对应的 不相关 对于一个

15、特定的 x 值, 它所对应的 y 与其 他 x 对应的 y 不相关 为什么使用 MLM 社会科学数据的多层结构 同一群体的样本具有相似性,不相独立 同样的样本,但提供的信息量少 常规模型可能低估标准误差 样本间的关联度越大,参数估计的误差越大 增加犯 I 类错误的可能性 多层模型:纠正标准误差,得出更为精确的结论 多层模型 多层模型( multilevel models) 等级模型( hierarchical models) 随机系数模型( random coefficient models) 随机效果模型( random effects models) 变异成分模型( variance co

16、mponent models) 情境效果模型( contextual effects models) 多层模型与生态谬误 ( Ecological Fallacy) 多层模型解决社会科学研究领域的生态谬误 生态谬误、生态学谬误、层次谬误、区群谬误 Robinson( 1950)利用 1930年美国人口普查数据,分析 48个州的识字率与新移民人口比例的关系 当以州为分析单位时,二者之间的相关系数为 0.53 当以个体资料为分析单位时,二者的相关系数仅为 -0.11 群体资料可能会掩盖群体内个体之间的差异 生态谬误 简化论 /还原论:“以偏概全” (个体 -群体 ) vs. 群体 -个体 MLM的

17、技术优势与局限 优势:与普通模型相比, MLM( Guo andZhao 2000): 纠正参数估计误差 改善置信区间( confidence intervals)和显著性检验 ( significance tests);降低犯 I类错误的可能性( Teachman and Crowder 2002) 系统地区分不同层次自变量对因变量影响的大小 局限 分析较复杂 难以处理两个关系:一是变量之间间接的影响关系;二是复杂的 实测变量和潜在变量之间的关系 MLM的适用性 可用于横向数据分析和纵向数据分析 可用于线形因变量分析和非线性因变量分析 两种情况下不适用( Hox 1998) 高层次的随机变量

18、对因变量的变异缺乏显著重要性 同一群体( cluster)内每个单元的样本量很少 MLM对样本量的要求因研究兴趣和目的而异: 如果研究兴趣在于固定参数: 30: 30 如果研究兴趣在于不同层次因素的互动: 50: 20 如果研究兴趣在于随机因素(即方差和协方差成分): 100: 10 MLM的基本原理( I) MLM分解因变量中的变异( variance): 寓于同一群体的个体差异:“群内变异” ( within-group variance) 不同群体之间的个体差异:“群间差异” ( between-group variance) 通过分解变异,多层模型区分群体效果和个体效果 方差分析 总方

19、差 = 群间方差 + 群内方差 ( Total variance = between-subject variances + within-subject variances) 群内方差 (Proportion of total variance due to subjects) )v a r ()( ijjijyV a r MLM的理论原理( II) 每个层次都可以通过一个次模型来表示。次模型: 表达同一层次变量之间的关系 描述某个高层变量对其它层次变量的影响 揭示高层单位(群体)自变量与低层单位(个体)自 变量之间的关系 其基本原理是,将低层模型的系数定义为高层模 型的因变量 常规模型和多

20、层模型的后果 普通模型 增加犯 I 类错误的可能性 提高置信区间 忽视样本之间的关联性可能会得出不正确的结论 多层模型通过对数据的聚类性质进行调节,可以 使标准误差更为精确,使分析结果更符合实际 多层模型的类型 无条件平均模型( unconditional means model)、空模型 ( empty model) 随机截距模型( random-intercept model) 随机截距模型和随机斜率模型( random-intercept and random slope model) 图 1 常规模型的截距示意图 图 2 随机截距模型的截距示意图 无 条 件 平 均 模 型 随 机 截

21、 距 模 型 随 机 截 距 和 随 机 斜 率 模 型 图 9-3 随机截距和随机斜率示意图 (3)随机截距和随机斜率模型 社区的截距和回归斜率都因社区而异 ijijjjijy 110 jjj G 0101000 jjj G 1111101 ( 7) ( 6) ( 8) 其中 (3) 随机截距和随机斜率模型 (续 ) )()( 10111111010100 ijijjjijjijjij GGy 00 = 总平均值 , 固定参数 ,与 ( 2 ) 相同 10 = 家庭 特征 的 回归参数 效果 01 = 社区特征的回归参数效果 11 = 随机斜率 j0 = 同 上 j1 = 家庭层次因素对因变

22、 量的影响在 群 间 ( 未 被 变量 所 解释 的 ) 变异 ij = 同 上 C ov ( j0 和 j1 ; ij ) = 0 ; C ov ( j0 ; j1 ) 0 j0 、 j1 、 ij : 呈 联合 多元正态分布 多层模型分析的软件 HLM MLwiN Mplus SAS SPSS Stata Stata 多层线性模型分析 Linear model: xtmixed Non-linear model: xtmelogit; gllamm .xt系列命令提供数据分析工具。适用于 纵向数据 具有明确时间成分的横向时间序列数据 纵向数据有 x_it信息( x_it 在 t时间 i单位

23、观察值的 vector 多种命令: xtset, xtdescribe, xtsum, xtreg .xtset 命令定义纵向变量和时间变量;大部分 xt 命令要求 指定纵向变量,有些还要求制定时间变量;一旦数据 xtset 以后,该信息保存在数据中,无需再次 xtset数据 Mixed 经典统计学理论假定,个案相互独立,同等分布(即 iid) 若数据的结构具有聚类性质,混合模型( mixed effects model)可合理处理:假定两类变异来源,区分两类参数: 人群均值( population-averaged):与传统统计学同类参数意义一致 聚类( cluster/subject)特性

24、:具有随机性,利用事后手段进行估计 混合模型:变异成分( variance component)和回归分析模 型的概括和总结 当组群数量不多、且群内个案较多时,如 ANOVA一样,可将组群独特 的参数处理为固定参数,一般模型即可。这就是 FEM 当组群数量较多、而群内个案较少时, REM更为合适;其组群独特的 系数即为随机系数 xtmixed 分析线性混合模型的基本命令 混合模型:包含固定效果和随机效果 固定效果:类似于标准的回归系数,直接估计而来 随机效果:不能直接估计,利用估计的方差和协方差 归纳而来 随机效果可以区分为随机截距或随机斜率两种形式, 数据的分组结构可以由多个套嵌的层次构成;

25、在线性 混合模型回归中,误差项的分布被认为呈 Gaussian (即正态)分布 多层线性模型的类型 类型 Random-intercept model, analogous to xtreg . xtmixed f-p | id: Random-intercept and random-slope (coefficient) model . xtmixed f-p | id: r-p 层次 一层线性随机效果模型 . xtmixed f-p | id: 二层线性嵌入模型( Two-level nested model) . xtmixed f-p | id1: | id2:, mle 应用举例

26、数据: hinc8904.dta;来自 中国健康与营养调查 数据内容: 1989、 1993、 1997、 2000及 2004年五次调查数据 包括社区、家庭、个人层次资料 共有 18358个家庭、 253个社区 研究问题:家庭人均年收入现状、变化趋势及影响因素 研究假定:家庭人均年收入受多种因素的作用,包括家长 特征、社区经济发展水平,等等 . useD:JYangchnshhincomehinc8904.dta, clear 二层空模型演示 .xtmixed pcinc_ad | commid: 这里, pcinc_ad 因变量( 经济调节的家庭人均年收入) 符号 | :区隔固定效果和随机

27、效果 commid::社区层次的 id变量,告诉 stata将社区作为一 个独立层次进行考察,分析社区层次因素对因变量的 影响;其后面可以接多种选项 之所以是个空模型,是因为模型没有指定任何 IV 输入因变量 输入自变量;固定效果部分 输入分层变量 可指定多个层 次: EQ1 EQ2 相当于 | 后面 的内容 输入随机斜率变 量;若不指定任 何变量,则为随 机截距模型 定义协方差结构 Mixed-effects REML regression Number of obs = 18358 Group variable: commid Number of groups = 233 Obs per

28、group: min = 16 avg = 78.8 max = 114 Wald chi2(0) = . Log restricted-likelihood = -161355.91 Prob chi2 = . - pcinc_ad | Coef. Std. Err. z P|z| 95% Conf. Interval -+- _cons | 1790.27 60.77109 29.46 0.000 1671.161 1909.379 - - Random-effects Parameters | Estimate Std. Err. 95% Conf. Interval -+- commi

29、d: Identity | sd(_cons) | 908.5178 45.03688 824.3997 1001.219 -+- sd(Residual) | 1556.164 8.175939 1540.222 1572.271 - LR test vs. linear regression: chibar2(01) = 3532.15 Prob = chibar2 = 0.0000 数据结构 模型适应性 固定效果 随机效果 估计的变异成分是否为 0 二层空模型结果解释 固定效果部分 : 反映 1989 2004年间,被调查地区平均家庭人均 年收入 随机效果部分 sd(_cons):随机截

30、距的误差项( variance component): 908.52 由于该数值远远大于其误差,表明家庭人均年收入在很大程度上 因社区而异;也表明社区特征是家庭收入的重要差异来源 sd(Residual):残差 两类误差可被用来计算层级之间的关联度,分解因变量的 变异: 908.5178/( 908.5178 + 1556.164) =0.3686, 表明因变量大约 37%的变异可以分解到社区层次 什么是 chibar2? LR检验用来检验参数界限( parameter space),即检验估 计的变异成分(有时总大于 0)是否不等于 0 假如两个模型仅变异成分不同。在这种情况下,检验统计 量

31、将展示为“ chibar(01)” ;参数 ML估计的有限分布呈正 态分布,被区分为两半或在界限之处被割裂 这里即为 0。故 LR检验统计量并非普通的、带有一个自由度的卡方, 而是一个没有自由度的、 50:50混合量(即 a point mass at zero)和带有一个自由度的卡方 LR检验的 p值考虑到上述特性;如果估计近于 0,它将被设 置为 1。否则,输出结果的 p值将被设置为带有一个自由度 的卡方概率的一半, 大于计算出来的 LR检验统计量 什么是 chibar2? 有时,除检验 K个其他参数是否为 0外(没有受到界限条件 的影响),研究者还检验变异成分是否为 0 比较混合效果模型

32、(如: xtmixed)往往遇到这种情况。 对于该检验, LR检验统计量为一个带有 k和 k+1自由度的 卡方分布的 50:50混合体。比如,在输出结果中,往往表 现为 “ chibar(4_5)” 形式 至于 chibar(01),显著性水平也因此而得到调节 如果研究者检验一个以上受到界限影响的参数,则上述理 论更为复杂,难以处理。遇到这种情况时, stata要么展示 保守的显著性水平,要么根本不显示 LR检验结果 二层随机随机截距模型 家长特征(包括家长的年龄和性别)可能作用于家庭人均 年收入 社区层次变量(如社区的社会经济发展水平)作用于家庭 人均年收入,故需要在模型中纳入社区层次变量

33、在模型纳入三个变量: age(户主的年龄) ,girl(户主为女 性,以与男性户主相比较) ,agri(社区从事农业人口比例, 用来代表社区经济发展水平) . xtmixed pcinc_ad age girl yrsch agri | commid: 这里, age、 girl、 yrsch、 agri自变量;其余内容同上 Mixed-effects REML regression Number of obs = 18358 Group variable: commid Number of groups = 233 Obs per group: min = 16 avg = 78.8 max

34、 = 114 Wald chi2(4) = 832.81 Log restricted-likelihood = -160957.26 Prob chi2 = 0.0000 - pcinc_ad | Coef. Std. Err. z P|z| 95% Conf. Interval -+- age | 17.93946 1.021606 17.56 0.000 15.93715 19.94177 girl | 172.4943 34.58114 4.99 0.000 104.7165 240.2721 yrsch | 90.06283 3.676754 24.50 0.000 82.85652

35、 97.26913 agri | -6.905025 .637501 -10.83 0.000 -8.154504 -5.655546 _cons | 519.1112 85.86257 6.05 0.000 350.8236 687.3987 - - Random-effects Parameters | Estimate Std. Err. 95% Conf. Interval -+- commid: Identity | sd(_cons) | 681.4558 36.27408 613.943 756.3928 -+- sd(Residual) | 1528.483 8.036101

36、1512.813 1544.315 - LR test vs. linear regression: chibar2(01) = 1648.27 Prob = chibar2 = 0.0000 二层随机随机截距模型分析结果解释 截距:相当于一个户主为平均年龄、女性、平均受教育程 度的家庭预期的平均家庭人均年收入 519.11元 固定效果参数: 户主的年龄每增长一岁,家庭人均年收入大约增长 18元 女性户主的家庭人均年收入比男性户主家庭的人均年收入高 172.5元 户主的教育程度每提高一年,家庭人均年收入增加 90元 社区农业劳动人口每增加一个百分点,居住于其间的家庭的人均 年收入降低近 7元

37、随机效果参数: 社区截距的误差项比空模型中的相应指标有所减小 (=681),表明社区层次变量( agri)的纳入解释了因变 量的部分变异 但该参数的数值依旧数倍于其标准误,表明该变量仅仅 解释了因变量在社区层次变异的小部分 究竟解释了多少了呢? =(908.5178-681.4558)/908.5178 0.249926;表明变量 agri解释了因变量在社区层次变量的 25 2 0 2 0 2 0 j . xtmixed pcinc_ad age girl agri | commid: Mixed-effects REML regression Number of obs = 18358 Gr

38、oup variable: commid Number of groups = 233 Obs per group: min = 16 avg = 78.8 max = 114 Wald chi2(3) = 206.90 Log restricted-likelihood = -161251.37 Prob chi2 = 0.0000 - pcinc_ad | Coef. Std. Err. z P|z| 95% Conf. Interval -+- age | 7.014926 .9329681 7.52 0.000 5.186342 8.84351 girl | -40.46881 33.

39、97456 -1.19 0.234 -107.0577 26.1201 agri | -7.779224 .6575353 -11.83 0.000 -9.06797 -6.490478 _cons | 1744.56 74.81755 23.32 0.000 1597.921 1891.2 - - Random-effects Parameters | Estimate Std. Err. 95% Conf. Interval -+- commid: Identity | sd(_cons) | 788.0012 40.69705 712.1407 871.9427 -+- sd(Resid

40、ual) | 1550.53 8.1501 1534.638 1566.587 - LR test vs. linear regression: chibar2(01) = 2229.05 Prob = chibar2 = 0.0000 比较模型: girl 比较模型 : FE . xtreg pcinc_ad age girl yrsch agri, i(commid) warning: existing panel variable is not commid Random-effects GLS regression Number of obs = 18358 Group variabl

41、e: commid Number of groups = 233 R-sq: within = 0.0360 Obs per group: min = 16 between = 0.4657 avg = 78.8 overall = 0.1336 max = 114 Random effects u_i Gaussian Wald chi2(4) = 854.18 corr(u_i, X) = 0 (assumed) Prob chi2 = 0.0000 - pcinc_ad | Coef. Std. Err. z P|z| 95% Conf. Interval -+- age | 17.98

42、864 1.02156 17.61 0.000 15.98642 19.99086 girl | 173.2055 34.58983 5.01 0.000 105.4107 241.0003 yrsch | 90.61653 3.673909 24.66 0.000 83.4158 97.81726 agri | -7.037661 .6303324 -11.16 0.000 -8.273089 -5.802232 _cons | 516.6423 84.26757 6.13 0.000 351.4809 681.8037 -+- sigma_u | 633.08951 sigma_e | 1

43、527.7708 rho | .14655175 (fraction of variance due to u_i) - 二层随机截距和随机斜率模型 随机截距和随机斜率模型不仅考虑每个社区拥有不同的截 距,而且认为一些不同层次的变量之间存在互动关系。比 如,户主的教育水平对家庭人均收入的作用可能因社区而 异(即教育的回报率受宏观环境的制约),故户主的教育 程度的斜率被处理为随机的 此外,户主的教育水平与社区经济发展水平之间也许存在 互动,并解释斜率的部分变异 为了在模型中考察不同层次因素之间的互动,首先需要生 成互动变量: . gen yrschagri=yrsch*agri 二层随机截距和随

44、机斜率模型 当估计一个以上的随机效果时,研究者需要关注第二层因 素误差项的协方差 在 Stata中,需要添加一个选项,指定随机项协方差的距 阵是非结构性的 Stata默认的是,所有的协方差均等于 0 . xtmixed pcinc_ad age girl yrsch agri yrschagri | commid: yrsch , cov(un) 这里, | commid: yrsch 中的 yrsch表示,将该变量的斜率 处理成随机的; cov( un)表示,将随机项的协方差处理 成非结构性的 Mixed-effects REML regression Number of obs = 183

45、58 Group variable: commid Number of groups = 233 Obs per group: min = 16 avg = 78.8 max = 114 Wald chi2(5) = 717.98 Log restricted-likelihood = -160885.36 Prob chi2 = 0.0000 - pcinc_ad | Coef. Std. Err. z P|z| 95% Conf. Interval -+- age | 17.49456 1.027199 17.03 0.000 15.48128 19.50783 girl | 175.46

46、75 34.60981 5.07 0.000 107.6335 243.3015 yrsch | 119.4534 6.223049 19.20 0.000 107.2564 131.6503 agri | -2.778644 .8358434 -3.32 0.001 -4.416867 -1.14042 yrschagri | -.6864494 .1081849 -6.35 0.000 -.8984879 -.4744109 _cons | 312.8486 82.30324 3.80 0.000 151.5372 474.16 - - Random-effects Parameters

47、| Estimate Std. Err. 95% Conf. Interval -+- commid: Unstructured | sd(yrsch) | 44.73267 5.587688 35.0186 57.1414 sd(_cons) | 448.842 40.7357 375.6996 536.224 corr(yrsch,_cons) | .3063501 .1930429 -.1006889 .6255407 -+- sd(Residual) | 1520.619 8.057937 1504.907 1536.495 - LR test vs. linear regressio

48、n: chi2(3) = 1663.81 Prob chi2 = 0.0000 Note: LR test is conservative and provided only for reference. 二层 RIM和 RSM分析结果解释 截距:相当于一个户主为平均年龄、女性、平均教育水平、 居住于中等发达社区的家庭预期的平均家庭人均年收入 ( 312.8486元) 固定效果参数: 户主的年龄每增长一岁,家庭人均年收入大约增长 17.5元 女性户主的家庭人均年收入比男性户主的高 175.5元 户主教育程度对因变量的主要影响是正向的 社区农业劳动人口对因变量的主要影响是负向的 模型中的交互项使

49、相关变量的边际固定效果( marginal fixed effects)依赖于其他相关变量的估计值 户主教育每增加一年的边际效果依赖于社区农业人口比例(即社 区经济发展水平): 119.4534 -.6864494 118.7669506 社区农业人口每增加一个百分点的边际效果依赖于社区户主的教 育程度: -2.778644 -.6864494 -3.4650934 当模型包括交叉层次的互动项时,最好使用图形表示边际 效应的条件性质( the contingent nature of marginal effects) 这里,对交互项最简单的解释是,户主的教育程度对因变 量的影响随着农业劳动人

50、口比例的升高而显著降低 随机效果参数: 社区截距的误差项比空模型中的相应指标有所减小 (= 448.842),表明社区层次变量( agri)及其与户主教育 的互动项的纳入解释了因变量的部分变异 但该参数的数值依旧数倍于其标准误,可见依旧有部 分社区层次的变异未能得到解释 (908.5178-448.842)/908.5178 0.505962349;表明变量 agri及其互动项 解释了因变量在社区层次变量的 51 随机斜率的误差项相对较小,但也数倍于其标准误,且十 分显著,表明研究者不能忽视该变异,也不能将所有因素 的作用都处理成固定效果 三层模型 数据的结构: 社区( commid) (第三

51、层) 家庭( hhid) ( 第二层) 调查年份 (第一层) 空模型 随机截距模型 随机截距和随机斜率模型 三层空模型: . xtmixed pcinc_ad | commid: | hhid: - | No. of Observations per Group Group Variable | Groups Minimum Average Maximum -+- commid | 233 16 78.8 114 hhid | 5860 1 3.1 10 - Wald chi2(0) = . Log restricted-likelihood = -161349.07 Prob chi2 = . -

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!