《虚拟变量模型》PPT课件

上传人:san****019 文档编号:20674915 上传时间:2021-04-12 格式:PPT 页数:86 大小:1.03MB
收藏 版权申诉 举报 下载
《虚拟变量模型》PPT课件_第1页
第1页 / 共86页
《虚拟变量模型》PPT课件_第2页
第2页 / 共86页
《虚拟变量模型》PPT课件_第3页
第3页 / 共86页
资源描述:

《《虚拟变量模型》PPT课件》由会员分享,可在线阅读,更多相关《《虚拟变量模型》PPT课件(86页珍藏版)》请在装配图网上搜索。

1、 第 8章 虚拟变量模型 一、虚拟变量的基本含义 二、虚拟变量的设置原则 三、虚拟变量作用 四、虚拟变量的引入 五、虚拟变量的特殊应用 六、虚拟被解释变量模型 一、虚拟变量的基本含义 许多经济变量是 可以定量度量 的,其取值可用数 值表示, 如: 商品需求量、价格、收入、产量等 但也有一些影响经济变量的因素 无法定量度量 , 如: 职业、性别对收入的影响,战争、自然灾害 对 GDP的影响,季节对某些产品(如冷饮)销售 的影响等等,反映这些 定性因素 的变量被称为 品 质变量 ,这些变量由于各种原因不能计量 。 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化” . 这种

2、 “ 量化 ” 通常是通过人为地 虚构 出来一种 特殊的变量来完成的 。 即根据这些因素的属性类型 , 构造只取 “ 0”或 “ 1”的人工变量 , 通常称为 虚拟变 量 ( dummy variables) , 文献中习惯用 表示 。 例如 ,反映性别这个属性的虚拟变量可取为 : 一般地,在虚拟变量的设置中:用 1表示这种属 性或特征存在,用 0表示这种属性或特征不存在。 或者说,设置虚拟变量时 ,将 比较类型、肯定类型 取值为 1;而将基础类型、否定类型取值为 0。 iD 女 男 0 1 iD 大学以下学历 大学以上学历 0 1 iD 再如: 虚拟变量模型概念: 把 包 含 虚 拟 变 量

3、 的 模 型 称 为 虚 拟 变 量 模 型 ( Dummy Variable Model) ,若仅有解释变量中包 含虚拟变量 , 称为虚拟解释变量模型;若被解释变量 是虚拟变量 , 称为虚拟 被 解释变量模型 , 或称为 离散 选择模型 。 一个以性别为虚拟变量考察企业职工薪金的模型: iiii DXY 210 其中: Yi为企业职工的薪金 , Xi为工龄 , Di=1, 若是男性 , Di=0, 若是女性 。 研究居民住房消费支出 和居民可支配收入 之间的 数量关系 。 回归模型的设定为: 现在要考虑城镇居民和农村居民之间的差异 , 如何办 ? 为了对 “ 城镇居民 ” 、 “ 农村居民

4、” 进行区分 , 分析 各自在住房消费支出 上的差异 , 设 为城镇 ; 为农村 ,则模型为 (模型有截距 , “ 居民属性 ” 定性变量只有两个相互排斥 的属性状态 ( ) , 故只设定一个虚拟变量 。 ) 虚拟变量陷阱 (一个例子 ) iXiY 01 1i i iY = + X + u ( ) 0 1 1 1 2i i iY = + X + D + u ( ) 1 =1iD iY 1 =0iD 2m 若对两个相互排斥的属性 “居民属性” ,仍然 引入 个虚拟变量,则有 则模型( 1)为 则对任一家庭都有: , 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是: 完全多重共

5、线性 。 2 1= 0iD 农 村 居 民 城 镇 居 民 0 1 1 1 2 2 3i i iY X D D u ( ) 12 1D + D = 1 1= 0iD 城 镇 居 民 农 村 居 民 12 10D + D - = 2m 虚拟变量陷阱 二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变 量的类别数少 1,即如果定性变量有 m个类型,只在 模型中引入 m-1个虚拟变量 。 每个虚拟变量定义为: 个属性类型非第 类型 iD i 0 个属性i第1 )1,2,1( mi i i iD m 当第 i种属性类型出现时,第 i 个虚拟变量取 1,

6、其它 都取 0时,则表示出现第 种属性类型 。 虚拟变量皆取 0,而当所有 例 :虚拟变量反映季节变动的影响 已知冷饮的销售量 Y除受 k种定量变量 Xk的影响 外 , 还受春 、 夏 、 秋 、 冬四季变化的影响 , 要考 察该四季的影响 , 只需引入三个虚拟变量即可: 0 1 1tD 其他 春季 0 1 2tD 其他 夏季 0 1 3tD 其他 秋季 则冷饮销售量的模型为: ttttktktt DDDXXY 332211110 在上述模型中,若再引入第四个虚拟变量 0 1 4tD 其他 冬季 则冷饮销售模型变量为: tttttktktt DDDDXXY 44332211110 其矩阵形式为

7、: D)( X ,Y 如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的: 显然, (X,D)中的第 1列可表示成后 4列的线性组合, 从而 (X,D)不满秩,参数无法唯一求出。 这就是所谓的“ 虚拟变量陷 阱 ”, 应避免。 00011 00101 10001 01001 00101 00011 )( 616 515 414 313 212 111 k k k k k k XX XX XX XX XX XX DX, k 1 0 4 3 2 1 1.可以检验和度量用文字所表示的定性因 素的影响 例如, 为了反映甲、乙两种不同的工艺过程对产 量的影响,可以在生产函数中

8、引入描述甲、乙两 种不同的工艺过程的虚拟变量: 通过对模型中 的显著性检验来确定甲、乙两 种不同的工艺过程是否对产量有显著影响。 三、虚拟变量的作用 ii uDL n KL n LL n AL n Q 1 0 iD 由甲工艺过程生产 由乙工艺过程生产 2. 可以测量变量在不同时期的影响 例如: 研究我国国民生产总值 Y随时间 X而增 长的过程 , 需要考虑反常年份这一特殊因素的 影响 。 若定义 则引入虚拟变量的模型为 通过对参数 进行 检验 , 可以检验反常年份 对社会总产值有无显著影响 , 就把受反常年份 影响的时期从总过程中区分出来 正常年份 反常年份 0 1 tD tttt uDXY

9、210 2 t 3. 可以用来处理异常数据的影响。 例如,变量 Y和 X在长期中基本满足线性回归 模型的各个假设,但在时刻有一个突发情况, 使得 Y出现一个 k单位的暂时性波动。如果用线 性回归模型 分析这两个变量的 关系,其误差项的均值是 解决的办法是引进一个针对性 的虚拟变量,其定义为 新的回归模型为: 解决了均值非 0的问题 iii uXY 10 0 00)( iik iiuE i 当 当 0 0 1 0 ii iiD i 当 当 iIii vkDXY 10 iii kDuv 其中 0 0 01 000)()()( iikk iikDEuEvE iii 四、虚拟变量的引入方式 在计量经济

10、模型中引入虚拟解释变量,一般地有 三种方式: 加法方式、乘法方式 和 混合方式 。 1.加法方式: 所谓加法方式,即将虚拟变量直接作为一个解释 变量引入模型,它同其他解释变量之间是相加的关 系。当不同类型模型的斜率相同, 截距 不相同时, 可考虑以加法形式引入虚拟变量。 以加法方式引入虚拟变量时,主要考虑的问题是 定性因素的属性和引入虚拟变量的个数。 iiii DXY 210 ( 1)解释变量只有一个定性变量而无定量变量, 而且定性变量为两种相互排斥的属性; ( 2) 解释变量分别为一个定性变量 ( 两种属性 ) 和一个定量解释变量; ( 3) 解释变量分别为一个定性变量 ( 两种以上属 性

11、) 和一个定量解释变量; ( 4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量; 加法方式分为四种情形讨论: ( 1)一个两种属性定性解释变量而无定量 变量的情形 01 0 ii ii Y Y 城 市( ) 01i i iYD 例 如 : 模 型 形 式 : Y 为 香 烟 消 费 量 ; 01 0 E = 1 = + E = 0 = ii ii Y | D Y | D 那 么 : ( ) 1 0iD 城 市其 中 : ( 比 较 的 基 础 : 农 村 ) 农 村 农村 ( 2) 一个定性解释变量(两种属性)和一个 定量解释变量的情形 01 1 0 i i i i i

12、 Y = D + X + Y X D 例 如 : 城 市 其 中 : 支 出 ; 收 入 ; 农 村 01 0 | , 1 | , 0 i i i i i i i i E Y X D X E Y X D X ( ) ( ) 01 0 i i i i i i Y = + + X + Y = + X + ( ) 城市 农村 0 1 01 ()iiYX 0 iiYX 几何意义: 两个函数有相同的斜率,但有不同的截距 Y X ( 3)一个定性解释变量(三种属性)和一 个定量解释变量的情形 在工资模型中如果我们考虑的是员工的受教 育程度,比如可以将员工的分为:高中以下, 高中毕业和大学及其以上三种。如果

13、虚拟变量 设为 高中以下 其他 高中毕业 其他 大学及其以上 其他 1 1 0D 2 1 0D 3 1 0D 则 1 2 3 1D D D 将会出现 多重共线性 ,因此需要去掉一个虚拟变量。 假设模型为: 1 1 0D 2 1 0D 高中 其他 大学及其以上 其他 模型变为: 估计出的回归方程为: 高中以下: 高中: 大学及其以上: iii DDXY 231210 iii uDDDXY 34231210 iii XDDXYE 1021 )0,0,|( iii XDDXYE 12021 )()0,1,|( iii XDDXYE 13021 )()1,0,|( y x 假定 32, 其几何意义:

14、ii XY 130 )( ii XY 120 )( ii XY 10 3 2 0 ( 3)一个定性解释变量(四种属性)和一个 定量解释变量的情形 0 1 1 2 2 3 3 12 3 4 11 00 1 0 i i i Y X D Y D D D X DD D 例 如 : 季 度 有 种 特 性 例 如 : 啤 酒 售 量 、 人 均 收 入 、 季 度 ; 一 季 度 二 季 度 其 中 : 其 它 其 它 三 季 度 其 它 1 1 2 3 0 1 1 2 1 3 0 2 1 3 1 2 0 3 1 1 2 3 0 E , 1 , 0 E , 1 , 0 ( ) E , 1 , 0 ( )

15、 E , 0 ii ii ii ii Y | X D D D X Y | X D D D X Y | X D D D X Y | X D D D X 一 季 度 : 二 季 度 : 三 季 度 : 四 季 度 : 基 准 : 四 季 度 ( ) 四个季节对某些商品的需求量分别为: 模型中系数 、 、 、 分别反映了四 、 一 、 二 、 三 、 一季度对该商品的平均影响程度 , 根据这些系 数的统计检验就可以判断季度因素对该商品的需求 量是否存在着显著影响 。 10 2 3 ( 4)两个定性解释变量(均为两种属性)和一个定 量解释变量的情形 运用 OLS得到回归结果,再用 t检验讨论因素 是否

16、对模型有影响。 男 性 、 城 市 居 民 男性、农村居民 1 2 0 1E = 1 , = 0 = +i i iY | X , D D X ( ) + 1 2 0E | , 0 , 0i i iY X D D X 1 2 0 1 2E | , 1 , 1i i iY X D D X ( ) 1 2 0 2E | , 0 , 1 ( )i i iY X D D X 女 性 、 城 市 居 民 女性、农村居民 各类型居民香烟消费量分别为: DD121, 1 DD120, 1 0DD121, 00DD12, Y X 几何意义 0 1 1 2 2 .t t t k k t t tY D D D X

17、u 加法方式引入虚拟变量的一般表达式 : 基本分析方法 : 条件期望。 1 2 0 1 1 2 2E ( / , , . . . , ) . . .t t t k t t t k k t tY D D D D D D X 加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程 截距; 2.在没有定量解释变量的情形下,主要用于 方 差分析。 基本思想 : 以乘法方式引入虚拟变量时 , 是在所设立的模型 中 , 将 虚拟解释变量与其它解释变量 的乘积 , 作 为新的解释变量出现在模型中 , 以达到其调整设模 型 斜率 系数的目的 。 或者将模型斜率系数表示为虚 拟变量的函数

18、 , 以达到相同的目的 。 乘法引入方式的特点 : ( 1) 截距不变; ( 2) 斜率发生变化; iX 2.乘法方式 例:研究文化用品消费支出 Y受收入 X、居民身份 D的 影响, 模型形式: 截距不变但 斜率发生变化 的情形: 12 12 1 () 1 0 E | , 1 ( ) E | , 0 t t t t t t t t t t t t t t Y X D X Y X D Y X D X Y X D X 城 市 其 中 : 消 费 支 出 ; 收 入 ; 农 村 城 市 居 民 农 村 居 民 在 农 村 居 民 的 基 础 上 进 行 比 较 , ( 只 有 斜 率 系 数 发 生

19、 改 变 ) 。 图 8-5 农村和城市的文化用品消费 O 3.混合方式:截距和斜率均发生变化 0 1 1 2 0 1 1 2 1 () 1 0 E | , 1 ( ) E | , 0 t t t t t t t t t t t t t t t Y X D D X Y X D Y X D X Y X D X 城 市 其 中 : 消 费 支 出 ; 收 入 ; 农 村 城 市 农 村 在 正 常 年 份 基 础 上 比 较 , 截 距 和 斜 率 系 数 都 改 变 . 例 : 同样研究消费支出 Y 、收入 X 、居民身份 D 间的影响关系。模型形式: y x 01 iiYX 几何意义: 1 0

20、 0 1 1 2 ( ) ( )iiYX 在计量经济学中,通常引入虚拟变量的方式分为 加法方式 和 乘法方式 以及 混合方式 三种:即 实质 :加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率; 混合方式引入虚拟变量既改变截距又改变斜率 0t t tY X u 1 D 1t t tY X u 2 tXD 01 12 i i i Y = + X + u = + D = + D 原 模 型 加 法 方 式 引 入 乘 法 方 式 引 入 : 虚拟变量的引入小结: 五、虚拟解释变量特殊应用 所谓特殊应用是指将引入虚拟解释变量 的加法方式、乘法方式进行综合使用。 基本分析方式:仍然

21、是条件期望分析。 本课主要讨论 ( 1)分段回归分析; ( 2)交互效应分析; ( 3)结构变化分析 在经济发生 转折时期 , 可通过建立临界指标的虚 拟变量模型来反映数量因素的不同阶段 。 例如 , 进口消费品数量 Y主要取决于国民收入 X 的多少 , 中国在改革开放前后 , Y对 X的回归关系明 显不同 。 这时 , 可以 t*=1979年为转折期 , 以 1979年的国 民收入 Xt*为临界值 , 设如下虚拟变量: 0 1 tD * * tt tt 则进口消费品的回归模型可建立如下: tttttt DXXXY )( *210 1.分段回归分析 用 OLS法得到该模型的回归方程为: 0 t

22、tttt DXXXY )( *210 几何意义: 1979年之前,回归模型的斜率为 ; 1979年之前,回归模型的斜率为 ; 若统计检验表明, 显著不为零,则我国居民的消 费行为在 1979年前后发生了明显改变。 10 图 8-7 时间分段前后的进口消费品数量 X O Y ttt XXY )()( 21*20 tt XY 10 *20 tX 0 2 例 : 是否发展油菜籽生产与是否发展养蜂生产的 差异对农副产品总收益的影响研究。 模型设定为 : ( 1)式中 , 以加法形式引入虚拟变量暗含何假设 ? 0 1 1 2 2 12 1 11 0 0 i i i i i ii Y D D X u YX

23、 DD ( ) 其 中 : ( 农 副 产 品 收 益 ) ; ( 农 副 产 品 投 入 ) 发 展 养 蜂 生 产发 展 油 菜 籽 生 产 ; 其 他 其 他 2.交互效应分析 上式以加法形式引入,暗含的假设为:菜籽生产和 养蜂生产是分别独立地影响农副品生产总收益。但 是,在发展油菜籽生产时,同时也发展养蜂生产, 所取得的农副产品生产总收益,可能会高于不发展 养蜂生产的情况。即在是否发展油菜籽生产与养蜂 生产的虚拟变量 和 间,很可能存在着一定 的交互作用,且这种交互影响对被解释变量农副产 品生产收益会有影响。 ( 1) 0 1 1 2 2i i i i iY X D D u 1iD 2

24、iD 为了反映 交互效应 ,将( 1)变为: 同时发展油菜籽和 养蜂生产: 发展油菜籽生产: 发展养蜂生产: 基础类型: 0i i iY X u 02i i iY X u ( ) 01i i iY X u ( ) 0 1 2 3i i iY X u ( ) 0 1 1 2 2 3 1 2i i i i i i iY D D D D X u 基本思想 :在模型中引入相关的两个变量的乘积 如何检验交互效应是否存在? 3.结构稳定性分析 模型结构的稳定性是指两个不同时期 (或不同空间 ) 研究同一性质的问题时所建立的同一形式的回归模 型的参数之间有无显著差异,如果存在着差异,则 认为模型结构不稳定。

25、 在现实经济生活中,往往由于某些重要因素的影响, 解释变量和被解释变量之间关系可能会发生 结构变 化; 如我国由于经济体制的变化,改革开放前后国民经 济总量指标之间的关系都会发生变化;或者研究我 国发达地区和不发达地区投资对经济增长的影响, 也会因地区不同而产生结构差异等等。 这一问题可通过引入乘法形式的 虚拟变量 来解决 例: 以 Y为储蓄, X为收入,为反映 1992年前后 储蓄与收入之间的结构关系有无明显变化,可引 入虚拟变量进行检验。设根据两个样本估计的回 归模型分别为: 1992年前: Yi=1+ 1 Xi+1i i=1,2 ,n1 1992年后: Yi= 2 +2Xi+2i i=1

26、,2 ,n2 设置虚拟变量: 将样本 1和样本 2的数据合并 , 估计以下模型: 然后利用 t检验判断 、 的系数的显著性 . 年以后 年以前 19920 19921 iD iiiiii eXDDXY )()( 121211 iD ii XD 于是有: iiii XXDYE 10),0|( iiii XXDYE )()(),1|( 4130 则有可能出现下述四种情况中的一种: (1) 1=2 , 且 1 =2 , 即两个回归相同 , 说明两个回 归 模 型 之 间 没 有 显 著 差 异 , 称为 重 合 回 归 ( Coincident Regressions) ;模型结构是稳定的 . (2

27、) 1 2,但 1 =2 , 说明两个回归模型之间的斜率 相同 , 两个回归模型结构的差异仅在其截距 , 称为 平行回归 ( Parallel Regressions) ; (3) 1= 2 , 但 1 2 , 说明两个回归模型之间的截 距相同 , 两个回归模型结构的差异仅在其斜率 , 称 为 汇合回归 (Concurrent Regressions); (4) 12 , 且 12 , 即两个回归完全不同 , 存在着 结构差异称为 相异回归 ( Dissimilar Regressions) 。 不同截距、斜率的组合图形 重合回归:截距斜率均相同 平行回归:截距不同斜率相同 共点回归:截距相同

28、斜率不同 交叉(不同)回归:截距斜率均不同 结构变化小结 结构变化 的实质是检验所设定的模型在样本 期内是否为 同一模型 。 显然 , 平行回归 、 共点 回归 、 不同的回归三个模型均不是同一模型 。 平行回归模型的 假定 是斜率保持不变 ( 加法类 型 , 包括 方差分析 ) ; 共点回归模型的 假定 是截距保持不变 ( 乘法类 型 , 又被称为协方差分析 ) ; 不同的回归的模型的假定是截距 、 斜率均为变 动的 ( 加法 、 乘法类型的组合 ) 。 邹氏结构变化的检验 为了检验两个模型的结构是否相同,可提出原 假设:两个回归方程的结构相同,然后看看能否 拒绝这个假设 ,这个检验称为 C

29、how检验 . 设两个样本待检验回归模型为 : 样本 1( n1个) 样本 2 (n2个 ) 邹检验的基本假定 : 将 n1与 n2个观察值合并,并用以估计以下回归: ),0(),0( 2221 tt uNu 和 1 2 2 1i i k k i iY X X u 1 2 2 2j j k k j iY X X u 是独立分布的和 tt uu 21 1 2 2 3i i k k i iY X X u (1).假设原假设为真 (2).用 OLS对这两个方程分别进行估计,可得到各自 的残差平方和 和 ,并求和 计算合并后的模型的残差平方和 (3).统计量 : (4).查 F分布表,得临界值 (5)

30、.结论 :F 的值 ,则拒绝回归相同的假设 ,即拒绝 结构稳定性假定 ;另外 ,若 F的 P值低 ,则拒绝结构稳 定性假定 . )2,()2( )( 21 21 knnkknnR S S kR S SR S SF UR URR F 检验步骤 : 1RSS 2RSS 21 R S SR S SR S S UR 11 , 22 , , kk RRSS F 1.用虚拟变量只需做一个回归。 2.一个回归可以做各种检验。截距检验和斜率检 验都可以一次完成。 3.邹至庄检验没有明确告诉是哪一个系数发生变 化,而虚拟变量模型则可以很清楚看出这一点。 4.合并后样本容量变大,估计精度也有所提高 虚拟变量法相比

31、邹至庄检验的优越性: 被解释变量也可以是定性变量 , 因此 , 可以用虚 拟变量表示 。 虚拟被解释变量在日常经济活动中常 表现在人们的决策行为上 , 即对某一问题人们要作 出 “ 是 ” 或 “ 否 ” 的回答 , 如是否购买家用汽车 , 是否购买人寿保险 , 企业是否在某个地区投资等 。 当被解释变量只取有限个离散值 , 特别是只取两 个值时 , 所建立的模型被称为离散选择模型 。 离散 选择模型的目的是对被解释变量取值的概率建模 , 而不是直接预测其取值 。 常用的模型有线性概率模 型和非线性概率模型 ( 包括 Logit模型和 Probit模 型 ) 。 六、虚拟被解释变量 1 线性概

32、率模型( LPM) )|0(1 )|1( )|( 0 1 一、 模型 21 21 ii ii iii i iii XYP XYP XXYE X Y uXY L P M 是则不拥有住房的概率就 概率为记家庭拥有住房的条件 条件期望: 表示家庭收入 ,没有住房 ,如果拥有住房 其中, 为以下形式:以双变量模型为例,则 1)|(0 10 )|1( )|1(1(0)|1(1 )|( ii i ii iiii ii XYE p XYP XYPXYP XYE 有约束条件 之间与必须落在概率 注意: 二者相等。 率的关系是怎样的?问:条件期望与条件概 12( / )i i iE Y X X P 即 条件期望

33、事实上可解释为 Y在给定 X下事件 (家庭拥有住宅)的条件概率,该线性模型称 为线性概率模型 ( LPM) 12 1 2 i 1 2 i 1 ( 1 1 P 0 1 P : i i i i i i i i i i i i i u Y u Y X u Y u X Y u X u 、 的 非 正 态 性 只 取 两 个 值 , 而 ) , 因 此 也 取 两 个 值 。 当 时 , 概 率 为 当 时 , 概 率 为 显 然 , 我 们 不 能 再 假 定 是 正 态 分 布 的 : 实 际 上 它 遵 循 二 项 分 布 的估计问题二、 L PM 前面假设干扰项服从正态分布。但在 线性概率模型中

34、干扰的正态性不成立 ii ii i PP XXu 1 1 1010 后果 虽然 u不服从正态分布, 即对参数的估计不会产生影响,因为 OLS估计 的无偏性、有效性与 u的概率分布无关。 但进行检验 t、 F检验等统计推断时,却要求误 差项服从正态分布。 根据中心极限定理可知,在大样本情况下二项 分布趋近于正态分布,所以这时仍然可以在正 态分布假定下进行统计推断。 O LS但 是 点 估 计 仍 然 是 无 偏 的 。 是同方差的。但是不能说 和即使 具有异方差性)( i jii u jiuuEuE u ),(0)(0)( 1 概率 总和 1 iu iX21 iX211 iP1 iP 的异方差性

35、:、 iu2 2 2 22 1 2 1 2 22 1 2 1 2 1 2 1 2 1 2 1 2 v a r ( ) ( ) ( ) ( ( ) 0) v a r ( ) ( ) ( ) ( 1 ) ( 1 ) ( ) ( ) ( 1 ) ( 1 ) ( ) ( ) ( 1 ) ( 1 ) ( i i i i i ii i i i i i i i i ii ii i u E u E u E u E u u E u X P X P X X X X XX PP u Y X 条 件 期 望 条 件 概 率 ) 的 方 差 与 的 条 件 期 望 有 关 , 而 后 者 当 然 又 依 赖 与 的 取

36、 i u O L S 值 。 不 是 同 方 差 性 的 。 因 此 具 有 异 方 差 性 , 这 时 就 不 能 用 估 计 模 型 中 的 参 数 。 随机误差项的方差 ii ii i PP XXu 1 1 1010 12 ( 2) , ( ) , ( 1 ) / / / / i i i i i i i i i i O L S W L S P P w Y w w X w u w O L S 校 正 当 异 方 差 性 出 现 时 , 估 计 虽 然 无 偏 , 却 不 是 有 效 的 。 解 决 异 方 差 的 方 法 是 进 行 模 型 变 换 用 加 权 最 小 二 乘 法 给 模

37、型 两 边 同 除 以 , 得 : 则 新 方 程 得 扰 动 项 是 同 方 差 的 。 因 此 可 用 估 计 其 中 的 参 数 。 01 ( 3 ) ( 1 ) 3 1 0 , 1 0 0 1 1 2 l og 0 , i ii i i i i w O L S Y X w w Y Y L P M it prob it 权 数 是 未 知 的 , 如 何 处 理 ? 用 方 法 估 计 原 回 归 方 程 得 到 再 由 此 求 的 估 计 值 、 条 件 期 望 的 值 域 区 间 问 题 ( ) 在 中 , 条 件 期 望 值 可 能 超 出 区 间 ; 可 以 将 小 于 的 值

38、改 为 ; 大 于 的 值 改 为 。 这 是 人 为 的 把 大 概 率 事 件 当 作 必 然 事 件 , 把 小 概 率 事 件 当 作 不 可 能 事 件 。 ( ) 在 模 型 和 模 型 中 , 可 以 保 证 条 件 期 望 的 值 域 区 间 在 1 。 线性概率模型:一个数值例子 我们用一个数值例子来说明线性概率模型的一 些问题。表 8.1给出 40各家庭的住宅所有权 Y ( 1拥有住宅, 0不拥有住宅)和家庭收入 X(千美元)的虚构数据。根据这些数据,用 OLS估计的线性概率模型如下: ( 0.1128)( 0.0082) t( -7.6984)( 12.515) ( 8.

39、1) 0 . 9 4 5 7 0 . 1 0 2 1iiYX 2 0 .8 0 4 8R 解释 首先我们来解释这一回归。截距值 -0.9457给 出零收入的家庭拥有自己的住房的概率。由于 是负值,而概率又不可能是负值,我们就把该 值当作零看待,这样做在本例中是说得过去的。 斜率值 0.1021意味着收入每增加 1单位,平均 地说拥有住宅的概率增加 0.1021或约 10。 当然,对某一给定的收入水平,我们可以从 ( 8.1)估计出拥有住宅的实际概率。例如, 对于 X 12( 12000美元),估计拥有住宅 的概率是 ( / 1 2 ) 0 . 9 4 5 7 1 2 ( 0 . 1 0 2 1

40、 ) . iYX 0 2 7 9 5 WLS估计 就是说,收入为 12000 美元的家庭拥有住宅的 概率为 28。 对于上面的估计受异方差的影响,因此我们可 以用 WLS来获得更有效的估计值。由于某些 是 负的,和某些 大于 1,对于这些 来说, 将 是负的,因此删去这些值 。得到的 WLS回归为: 11 . 2 4 5 6 0 . 1 1 9 6ii i i i YX w w w iY iY iY iw ( 0.1206) ( 0.0069) t ( -10.332) ( 17.454) 2 0 .9 2 1 4R 4、拟和优度 通常情况下,拟和优度不会太高,在 0.2至 0.6之间, 当实

41、际的散点非常密集在点 A和 B处时, 才会高 。 1 Y LPM X0 受约束 )(b . . 1 Y LPM X0 无约束 )(a . . A B 2R 非线性概率模型 2 1 2 3 0 , 1 4 i i i L PM u u Y R 问 题 的 提 出 : 的 局 限 : ( ) 非 正 态 ( ) 异 方 差 ( ) 在 之 外 ( ) 一 般 比 较 小 应当指出的是, 虽然我们可以采用 WLS解决异方差 性问题、增大样本容量减轻非正态性问题,通过约 束迫使所估的事件 Y发生的概率落入 0-1,但是, LPM与经济意义的要求不符:随着 X的变化, X对 的 “边际效应”保持不变。即

42、不论 X的变化是在什 么水平上发生的,参数都不发生变化,显然这与现 实经济所发生的情况是不符的。 2 对数单位模型( Logit Model) 因此,表现概率平均变化比较理想的模型应当具有这样的 特征: ( 1) 随着 增加, 也增加,但不超出 0-1这个区间。 ( 2)随着 X变小 ,概率趋于零的速度越来越慢,而随着 X变 得很大,概率趋于 1的速度也越来越慢”。 P随 X变化而变化, 且变化速率不是常数, P和 X之间是非线性关系。 ( 1 / )iiP E Y X X 1 P 0 iX 12 () 12 12 1 1 ( 1 | ) ( | ) ( 1 ) 1 : ( 1 | ) ( |

43、 ) 1 1 1 01 i i i i i i i X i i i i i i i i Z ii L ogi t L ogi t P P Y X E Y X e L PM P P Y X E Y X X ZX P e ZP 一 、 模 型 、 模 型 中 条 件 概 率 的 表 达 式 比 较 令 则 ( ) 变 为 (1) 当 从 变 到 , 从 变 为 。 (2) 有 一 个 拐 点 , 在 拐 点 之 前 , 随 Z 或 X 增 大 , P 的 增 长 速 度 越 来 越 快 ; 在 拐 点 之 后 , 随 Z 或 X 增 大 , P 的 增 1 长 速 度 越 来 越 慢 , 逐 渐

44、趋 近 于 。 这是一个(累积 ) 逻辑斯 蒂 分布函数为名的模型 (对数单位模型 ) 这些特征正好满足前面讨论的非线性概率模型的要求 。 机会表示有利于拥有住房的 则 且表示拥有住房的概率,如: ”(、线性化与“机会比率 1:42.0/8.0)1/( 8.0 1 1 1 1 1 1 ) 2 21 21 21 )( )( ii ii X i i Xi Xi PP PP e P P e P e P r at i oodd s i i i 即一个家庭拥有住房的概率对不拥 有住房的概率之比 。 现在 就是有利于拥有住房的机会比 率 一个家庭将拥有住房的概率对不拥有住 房的概率之比。 对 取自然对数得

45、: 即机会比率的对数 不仅对 为线性,而且对 参数也是线性。 被称为对数单位模型。 1iPP l n ( )1 ii i PL P 12 iX iL i X L 3.对数单位模型 12 1 iXi i P e P 1、 从 0变到 1,对数单位从 变到 2、虽然 对 为线性,但概率本身却不然。 3、斜率系数给出 每单位变化的 的变化,它告 知人们随着收入变化一单位,有利于拥有住房的 对数 机会比率是怎样变化的。截距是当收入为 零时的有利于拥有住房的对数 机会比率的值。 4、对给定的某个收入水平,我们其实想估计的并 不是有利于拥有住房的机会比,而是拥有住房本 身的概率。 5、对数单位模型假定机会

46、比率的对数与 有线 性关系。 P L X X L X 对数模型的特点: 会出现无穷大量。这些数代入模型的左边 。否则有住宅的数据,那么当家庭拥 庭困难。如果只有个别家数值。这时会遇到一些 ,还需要知道对数值除了解释变量的数据外 为了估计模型 模型的估计二、 0,1 ) 1 l n ( 21 ii i ii i i i PP L uX P P L L o g i t 在这种情形下只有用最大似然估计求解,另外 的一种估计方法,当我们拥有的数据如下表所 示时可以用 OLS求解。 用 OLS求解 1.数据构造 (收入以 的家庭个数) (其中拥有住房的家庭数) 6 40 8 8 50 12 10 60

47、18 40 25 20 iX iN iX in 注:有异方差 估计、 、频率代替概率 i i i i i i i X P P L O L S N n P 21 ) 1 l n ( 3 2 )1( 1 ,0 4 iii i ii PPN Nu XN 分布的二次式变量,则 视为同一个独立中的每一次观测都可以 定收入组相当大于且如果在一给当 、随机扰动项的分布 显然模型中存在异方差,因此我们考虑使用加权 最小二乘法,权重取 。用 代替 则可求 出 : 21 i iP iP 2i 2 1 (1 ) iiNP iP 。注:样本应当合理得大 设。建立置信区间和检验假用 估计用 模型的回归步骤、 O L S

48、s t ep UXwL O L Ss t ep PPN w wuwXwwLs t ep P P Ls t ep N n Ps t ep L o g i t i i i i iii i iiiiiii i i i i i i :5 / :4 ) 1( 1 / :3 ) 1 l n ( :2 :1 5 * 21 * 21 1325.4 20 ) 1( 1 /20/ ,20 20 2921.0 9627.0 4456.1429.14 0054.01115.0 0787.0/5932.1 l o g * 2 2 * iii ii i i i PPN wXX X R t XwL it i 概率?单位的家

49、庭拥有住房的问:收入水平为 )()( )()( 子模型估计的一个数值例三、 495.0 9803.0 1 ) 1 l n ( 0199.0 09441.0 * * i L i i i i i ii P e P P P P L wLL L i 得 得 而 再求 代入回归式得 为了解释二分应变量,有必要使用适 当 CDF。对数单位模型使用的是累积逻辑 斯蒂函数。在实际应用中发现正态 CDF效 果也不错。使用正态 CDF的估计模型通常 称为概率单位模型。 引入概率单位模型有两种途径:一是 模仿前面逻辑斯蒂函数的形式,直接用正 态分布函数替换;二是依据 麦克法登 的效 用理论或行为的理性选择引入概率单

50、位模 型。 3 概率单位模型 (probit Model) 直接用正态分布函数替换 用正态分布函数去拟合 S曲线时,所得到的模 型就是著名的 Probit模型。 Probit模型的具体 形式为: dteXFP iX tii 10 2 2/10 2 1)( 将其转化成线性模型: ii XPF 101 )( 对于模型上式,一般也是采用极大似然估计法 进行估计。 Probit模型和 Logit模型都是对线性概率模型的 改进,两者的区别在于趋于 0或 1的速率不同。逻 辑分布函数趋于 0或 1的速率慢于正态分布函数的 速率。 Logit模型与 Probit模型的比较 )X(i i10e1 1P i10

51、 2X 2/t i10i dte2 1)X(FP 逻辑分布函数 趋于 0和 1的速度慢于 正态分布函数 的速度 P 0 1 Logit Probit 1、几何形状 下面根据效用理论阐明使用概率单位模型的动机。 表示一种不可观测的效用指数, 表示收入, 仍然研究家庭拥有住房的概率。 当 越大时,认为拥有住房的概率越大。 现在假定有这样一个临界值 ,当 时, 该家庭拥有住房,否则不拥有。 iI iX 12iiIX iI *iI *iiII 在正态性假定下, 的概率可由标准化正态 CDF算出。 t是标准化正态变量, 。 *iIII 2* / 21Pr ( 1 ) Pr ( ) ( ) 2 iI t

52、i i i iP Y I I F I e d t 212 /21 2 iX te dt ( 0 ,1 )tN 根据获得关于效用函数 以及 和 的信息, 可得到: 如果我们掌握了的分组数据,便可由 计 算出 ,一旦有了 ,就可很轻松的估计 和 在对数单位分析中, 被称为正态等效离差 (n.e.d.)。当 时, 将是负数,在实 际 中通常把 5加到 上,其结果称为概率单位 . iI 1 2 1 ()iiI F P 12 iX iP iI iI 1 2 iI 0.5iP iI iI 现在估计 和 。通过下面的式子: 概率单位模型的估计步骤: 1、从分组数据中估计出 。 2、根据 ,从标准正态 CDF

53、中求出 n.e.d. 3、用 作为回归的应变量。 4、由于随机误差项存在异方差,因此还要进行数据转 换或用 WLS估计出最后结果。 5、用普通方式进行假设检验,但得到的结果只在大样 本下有效,同时 已没有多大价值 P r . . . 5o b i t n e d 1 2 12i i iI X u iP iP iI iI 2R 概率单位模型的例子 根据所给的数据,可以估计出如下结果。 以 n.e.d.作为应变量: 以概率单位作为应变量: 除截距外,两种回归结果没有差别。 2 1.0 088 0.0 481 ( 17. 330 ) ( 19. 105 ) 0.9 786 iiIX tR 2 Pr

54、3 . 9 9 1 1 0 . 0 4 8 1 ( 6 8 . 5 6 0 ) ( 1 9 . 1 0 5 ) 0 . 9 7 8 6 iio b it X tR 比较对数单位与概率单位的估计值 : 虽然对数单位模型和概率单位模型给出性质 相同的结果,但是两个模型参数的估计值不 可直接比较。一般两者参数有如下关系: 另外, LPM的系数与对数单位模型的系数有如 下关系: 不含截距项时 含有截距项时 l o g P r0 . 6 2 5 it o b it l o g0 . 2 5L P M it l og0 .2 5 0 .5LP M it 模型的检验与评价 对 Logit模型的检验包括参数的

55、显著性检验、 拟合优度检验等 1.参数的显著性检验 原假设是 由于参数的最大似然估计量具有渐进正态性, 因此检验统计量为: 对给定的显著性水平 当 时,不能拒绝原假设,认为变量的系数 不能通过显著性检验;当 时,可以拒绝原 假设,认为变量的系数能够通过显著性检验。 0 :0iH )( i i i SEZ /2iZZ /2iZZ 2.拟合优度检验 模型参数估计后 , 选取适当的截断值 P ( ) , 将观测数据分为两组: 归入第 一组 , 归入第二组 , 其中 。 如果样本中的一个观测数据 Y的取值为 0并且该 样本属于第一组 , 或者一个观测数据 Y的取值为 1并且属于第二组 , 就称这个观测

56、数据是分组恰 当的;否则就称这个观测数据是分组不恰当的 。 显然 , 如果模型估计与实际观测数据比较一致 , 则大多数的观测数据应该是分组恰当的 。 因此 , 可以利用分组恰当观测数据占总样本的比例来衡 量模型的拟合优度 。 这种检验方法称为 期望 -预 测表检验 。 01P 1 1 z Pe 1 1 z Pe 110 Xz 4 托比( tobit)模型 托比模型是概率的拓展,还是以住房为例, 对因变量我们不仅想知道有或是没有,还要 问一个消费者相对于其收入花在购房上的金 额。出现一个问题:如果一个消费者不买住 房就得不到这类消费者的住房支出数据。托 比模型就是针对这种情况而言的。 截取样本:仅对某些观测有因变量的 信息的样本。 本课程对此不作要求)、用最大似然法估计( 否则的话 若 、托比模型 2 0 0 1 21 R H SuX Y ii i

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!