计量经济学课件:第七章 虚拟应变量

上传人:努力****83 文档编号:124375020 上传时间:2022-07-24 格式:PPT 页数:252 大小:1.27MB
收藏 版权申诉 举报 下载
计量经济学课件:第七章 虚拟应变量_第1页
第1页 / 共252页
计量经济学课件:第七章 虚拟应变量_第2页
第2页 / 共252页
计量经济学课件:第七章 虚拟应变量_第3页
第3页 / 共252页
资源描述:

《计量经济学课件:第七章 虚拟应变量》由会员分享,可在线阅读,更多相关《计量经济学课件:第七章 虚拟应变量(252页珍藏版)》请在装配图网上搜索。

1、第七章第七章 虚拟应变量模型虚拟应变量模型 线性概率模型、对数单位、概线性概率模型、对数单位、概率单位及托比模型率单位及托比模型 经济分析中存在许多决策问题(选经济分析中存在许多决策问题(选择问题),这些选项可以用离散数据择问题),这些选项可以用离散数据表示。分别用表示。分别用0和和1表示事件发生和不表示事件发生和不发生。用发生。用0,1,2分别表示债券被评为分别表示债券被评为合格、良好和优级。合格、良好和优级。以这样的变量为被解释变量的模以这样的变量为被解释变量的模型称为离散被解释变量模型型称为离散被解释变量模型(models with discrete dependent variable

2、s)或离散选择模型或离散选择模型(DCM,discrete choice model)如果被解释变量只有两种选择,如果被解释变量只有两种选择,称为二元选择模型(称为二元选择模型(binary choice model);如果被解释变量存在多种选择,如果被解释变量存在多种选择,称为多元选择模型(称为多元选择模型(multiple choice model)离散选择模型被普遍应用于经济布离散选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题和局、企业定点、交通问题、就业问题和其它经济分析问题。其它经济分析问题。McFadden因为在离散选择模型领因为在离散选择模型领域的贡献而获得域的贡献而

3、获得2000年诺贝尔经济学奖。年诺贝尔经济学奖。假使我们想把成年男子的假使我们想把成年男子的“劳动力参劳动力参与与”(即是否就业即是否就业)当作失业率、平均工资率、当作失业率、平均工资率、家庭收入和教育等的一个函数。一个人或者家庭收入和教育等的一个函数。一个人或者在劳动力行列中或者不在,从而劳动力参与在劳动力行列中或者不在,从而劳动力参与这个应变量只能取两个值:如果这个人在劳这个应变量只能取两个值:如果这个人在劳动力行列中,则取值动力行列中,则取值1 1;如果他不在其中,;如果他不在其中,则取值则取值0 0。另一个例子。假使我们想把学院教另一个例子。假使我们想把学院教授的工会会员资格当作若干个

4、定量和定授的工会会员资格当作若干个定量和定性变量的一个函数,那么,一位学院教性变量的一个函数,那么,一位学院教授或者是工会会员或者不是工会会员。授或者是工会会员或者不是工会会员。因此,工会会员资格这个应变量就是一因此,工会会员资格这个应变量就是一个取值个取值0或或1的虚拟变量:的虚拟变量:0表示非工会表示非工会会员,会员,1表示工会会员。表示工会会员。有许多应变量可作为二分变量的例子有许多应变量可作为二分变量的例子 一个家庭或者拥有一所住宅或者不拥有一个家庭或者拥有一所住宅或者不拥有 它有残疾保险或者没有它有残疾保险或者没有 夫妻两人都在工作或者只一人在工作夫妻两人都在工作或者只一人在工作 某

5、种药物在医治一种疾病中有效或无效某种药物在医治一种疾病中有效或无效 一厂商决定宣布或不宣布一种股利一厂商决定宣布或不宣布一种股利 一位参议员是否对同等权利修正案投赞一位参议员是否对同等权利修正案投赞成票成票 总统是否对一法案行使否决权,等等。总统是否对一法案行使否决权,等等。所有这些例子的一个独特的性质所有这些例子的一个独特的性质是,应变量属于仅要求回答是或否是,应变量属于仅要求回答是或否这样一种类型;就是说它是这样一种类型;就是说它是二分性二分性质的。质的。我们怎样处理涉及二分响应变量我们怎样处理涉及二分响应变量的模型呢的模型呢?也就是,怎样估计这样的也就是,怎样估计这样的模型模型?这样的模

6、型是否带来了特殊的这样的模型是否带来了特殊的估计和估计和(或或)推断问题呢推断问题呢?或者,能不或者,能不能用平常的能用平常的OLS方式去处理它方式去处理它?我们在本章中考虑估计这类模型的四种我们在本章中考虑估计这类模型的四种最常用的方法:最常用的方法:1.1.线性概率模型线性概率模型(LPM)(LPM)2.2.对数单位模型对数单位模型3.3.概率单位模型概率单位模型4.4.托比或托宾单位托比或托宾单位(截取回归截取回归)模型模型第一节第一节 线性概率模型线性概率模型(LPM)(LPM)一一、线性概率模型的概念线性概率模型的概念为了建立概念,考虑如下最简单为了建立概念,考虑如下最简单的模型的模

7、型 iiiuXY21(7.1)(7.1)其中其中,X=家庭收入家庭收入 Y Y=1=1 如果该家庭拥有住宅如果该家庭拥有住宅 =0=0 如果该家庭不拥有住宅如果该家庭不拥有住宅 该模型把二分变量该模型把二分变量Yi 表达为表达为(诸诸)解释变量解释变量 Xi 的函数。该模型称为的函数。该模型称为线线性概率模型性概率模型(Linear probability models,简记,简记LPM)。因为,在给定因为,在给定 X Xi i 下的条件期望下的条件期望 E E(Y Yi i/X Xi i)可解释为在给定可解释为在给定 X Xi i 下事件下事件Y Yi i (家家庭拥有住宅庭拥有住宅)将发生

8、的条件概率,即将发生的条件概率,即 P Pr r(Y Yi i =1/=1/X Xi i)。例如,在上例中,。例如,在上例中,E E(Y Yi i/X Xi i)给给出一个家庭拥有自己的住宅且其收入是某给出一个家庭拥有自己的住宅且其收入是某给定的数额的概率。定的数额的概率。把式把式(7.1)这样的模型命名为这样的模型命名为LPM的理由,可从下面看出。假定的理由,可从下面看出。假定,为了得到无偏估计量,我们得到为了得到无偏估计量,我们得到 0)(iuEiiiXXYE21)|(7.2)(7.2)现在,令现在,令 (即事件发即事件发生的概率生的概率),而,而 (即事件不发生即事件不发生)的概率,则变

9、量有如的概率,则变量有如下的分布下的分布 ”“1iiYP”“01iiYPiiP Y10概率总和11iP因此,由数学期望定义,我们有因此,由数学期望定义,我们有 iiiiPPPYE )(1)1(0)(7.3)(7.3)比较比较(7.2)(7.2)和和(7.3)(7.3),便可作出等式,便可作出等式 iiiiPXXYE21)|(7.4)(7.4)就是说,模型就是说,模型(7.1)(7.1)的的条件期望值条件期望值事事实上可解释为实上可解释为Y Y 的条件概率的条件概率。由于概率必须落在由于概率必须落在0 0与与1 1之间,我们有之间,我们有约束条件约束条件 1)|(0iiXYE(7.5)(7.5)

10、就是说,条件期望值或条件概率必须落就是说,条件期望值或条件概率必须落在在0 0与与1 1之间。之间。二二、LPM的估计问题的估计问题 OLS法估计法估计LPM模型的一些问题。模型的一些问题。1.1.干扰干扰 u ui i 的非正态性的非正态性 虽然虽然OSLOSL并不要求干扰并不要求干扰 一定是正一定是正态分布的,但为了统计推断的目的,如假态分布的,但为了统计推断的目的,如假设检验,等等,我们假定这些干扰服从正设检验,等等,我们假定这些干扰服从正态分布。然而,由于态分布。然而,由于 和和 一样,在一样,在LPMLPM中只取两个值,中只取两个值,的正态性假定便的正态性假定便不成立。不成立。iui

11、uiYiu为看清这点,我们把为看清这点,我们把(9.1)(9.1)写为写为 iiiXYu21(7.6)(7.6)于是,当于是,当 =1=1时时 iiXu211而当而当 =0=0时时 iYiiXu21(7.7)(7.7)iY 显然,我们不再可能假定显然,我们不再可能假定 是是正态分布的:实际上,它遵循二项正态分布的:实际上,它遵循二项分布。分布。iu 但是,但是,OLS点估计仍然是无偏的,所以点估计仍然是无偏的,所以正态性假定不被满足,也许并不那么要紧正态性假定不被满足,也许并不那么要紧(记得,如果我们的目的是点估计,正态性记得,如果我们的目的是点估计,正态性假定就无关重要假定就无关重要)。此外

12、,随着样本无限地。此外,随着样本无限地增大,可以证明增大,可以证明OLS估计量一般都趋于正估计量一般都趋于正态分布。因此,在大样本中,态分布。因此,在大样本中,LPM的统计的统计推断可沿用正态假定下的通常推断可沿用正态假定下的通常OLS程序。程序。2.2.干扰的异方差性干扰的异方差性 即使即使 和和 对对 (即无序列相关即无序列相关),我们却不能声称干,我们却不能声称干扰是同方差性的。为看清楚这点,扰是同方差性的。为看清楚这点,(7.2)(7.2)中的中的 有如下的概率分布有如下的概率分布 0)(iuE0)(jiuuEji iu112121iiiiiP XP-1 Xu总和概率 这个概率分布得自

13、前面所给这个概率分布得自前面所给 的的概率分布。概率分布。iY现在,由定义现在,由定义 )u(E )u(EuE)u(Variiii220)(iuE 因此,利用以上的的概率分布,因此,利用以上的的概率分布,我们得到我们得到 )P()X()P()X()u(E)u(Variiiii2121221211)X()X()X()X(iiii212212122111)1)(2121iiXX(7.8)(7.8)或或)X|Y(E)X|Y(E)u(Variiiii1)1(iiPP(7.9)(7.9)这里我们利用了这里我们利用了 这一事实。这一事实。iiiiPXXYE21)|(方程方程(7.9)表明表明 的方差是异方

14、的方差是异方差性的,这是因为它依赖于差性的,这是因为它依赖于Y 的条件的条件期望值,期望值,而后者当然又依赖于而后者当然又依赖于X 的取的取值。就是说,值。就是说,的方差最终依赖于的方差最终依赖于X,从而它不是同方差性的。从而它不是同方差性的。iuiu 我们知道,当异方差性出现时,我们知道,当异方差性出现时,OLS估计虽然无偏,却不是有效的,估计虽然无偏,却不是有效的,就是说,就是说,OLS估计量不具有最小方差估计量不具有最小方差性质。然而,异方差性的问题也不是性质。然而,异方差性的问题也不是一种不能克服的障碍。在第一种不能克服的障碍。在第4章中,我章中,我们讨论过处理异方差性问题的几种方们讨

15、论过处理异方差性问题的几种方法。法。由于由于u u的方差依赖于以的方差依赖于以X X 值为条件值为条件的的Y Y的期望值,如的期望值,如(7.9)(7.9)所示,解决异所示,解决异方差性问题的一个方法是进行数据变方差性问题的一个方法是进行数据变换,将模型换,将模型(7.1)(7.1)的两边除以的两边除以)1()|(1)|(wiiiiiiiPPXYEXYEiiiiiiiwuwXwwY21即(7.10)(7.10)现在式现在式(7.10)(7.10)中的干扰项必定是同方中的干扰项必定是同方差性的了。差性的了。(为什么为什么?)?)于是,我们可以于是,我们可以对对(7.10)(7.10)进行进行OL

16、SOLS估计。估计。当然,真当然,真 是不知道的,是不知道的,从而权从而权 是不知道的,为了估是不知道的,为了估计计 ,可采取如下的二步法:,可采取如下的二步法:)|(iiXYEiwiw步骤步骤1 1 对对(7.1)(7.1)做最小二乘回归,暂且撇做最小二乘回归,暂且撇开异方差性的问题。于是得开异方差性的问题。于是得 的的OLSOLS估计值。再由此求估计值。再由此求 的估计的估计值值 。)X|Y(EYiii真iw)1(iiiYYw 用估计值用估计值 去做如同去做如同(7.10)的的数据变换,然后对变换后的数据做数据变换,然后对变换后的数据做OLS回归。回归。步骤步骤2 2iw1)|(0iiXY

17、E3.不被满足不被满足 由于线性概率模型中的由于线性概率模型中的 度量着在给定度量着在给定X X下事件下事件Y Y 发生的条件发生的条件概率,它必须落在概率,它必须落在0 0与与1 1之间。之间。)|(iiXYE 虽然先验上这是正确的,但无虽然先验上这是正确的,但无法保证法保证 的估计量的估计量 一一定能满足这一约束条件。这是定能满足这一约束条件。这是LPM的的OLS估计的真正问题所在。估计的真正问题所在。)|(iiXYEiY 有两种解决问题的方法。一种是用平有两种解决问题的方法。一种是用平常的常的OLS方法估计方法估计LPM,看估计的,看估计的 是否位于是否位于0与与1之间,如果有些之间,如

18、果有些 小于小于0(即是负的即是负的),则取其为零。如有某些大,则取其为零。如有某些大于于1,则取其为,则取其为1。iYiY 另一种方法是设计一种估计技术,另一种方法是设计一种估计技术,以保证所估的条件概率以保证所估的条件概率 必定落在必定落在0与与1之间,稍后讨论的对数单位和概之间,稍后讨论的对数单位和概率单位模型将能保证所估概率确实落率单位模型将能保证所估概率确实落在在0到到1这个逻辑界限内。这个逻辑界限内。iY 4 4.二分响应模型中的二分响应模型中的R2 在二分响应模型在二分响应模型(dichotomous(dichotomous response models)response mo

19、dels)中,习惯计算的中,习惯计算的 的的价值是有限的。为看出其中道理,考虑以价值是有限的。为看出其中道理,考虑以下图形,对于给定的下图形,对于给定的X X,Y Y 不是不是0 0就是就是1 1。因此,所有的因此,所有的Y Y值必定要么落在值必定要么落在X X 轴上,要轴上,要么落在么落在Y Y=1=1的一条直线上。的一条直线上。2R 因此,一般地说,不能期望有任何因此,一般地说,不能期望有任何LPM能很好地拟合这样的散点;能很好地拟合这样的散点;不管是不管是无约束无约束(unconstrained)LPM(图图16.1a),抑或是,抑或是断尾断尾(truncated)或或受约束受约束(co

20、nstrained)LPM(图图16.1b)。后者指用一种限制后者指用一种限制 不超越逻辑不超越逻辑带域带域“01”的方法去估计的方法去估计 LPM。结。结果是,对这样的模型,按惯例算出果是,对这样的模型,按惯例算出 的的 很可能比很可能比1小很多。在大多数小很多。在大多数实例,实例,介乎介乎0.2与与0.6之间。之间。2R2R 对这种模型,只有当实际的散点非对这种模型,只有当实际的散点非常密集在点常密集在点A A和和B B处时处时(图图16.1c)16.1c),才才会高,比方说高于会高,比方说高于0.80.8,因为这时容易,因为这时容易通过通过A A和和B B两点的连结而把直线的位置两点的连

21、结而把直线的位置固定下来。这时,预测固定下来。这时,预测 的值将非常的值将非常靠近靠近0 0或或1 1。iY2R 为了这些缘故,为了这些缘故,J.奥尔德里奇奥尔德里奇(Aldrich)和和F.纳尔逊纳尔逊(Nelson)争辩说:争辩说:“在有定性应变量的模型中应避免在有定性应变量的模型中应避免使用判定系数使用判定系数 作为一种摘要统计作为一种摘要统计量。量。2R 我们用一个数值例子来说明前节我们用一个数值例子来说明前节中关于中关于LPM的一些问题。表的一些问题。表7.1给出给出40个家庭的住宅所有权个家庭的住宅所有权Y (1=拥有住拥有住宅,宅,0=不拥有住宅不拥有住宅)和家庭收入和家庭收入X

22、(千千美元美元)的虚构数据。根据这些数据,的虚构数据。根据这些数据,用用OLS估计的估计的LPM如下如下 三三、LPM:一个数值例子一个数值例子 iiXY1021.09457.0(0.0082)1228.0()515.12)(6984.7(t8048.02R(7.11)(7.11)截距值截距值-0.9457给出零收入的家庭给出零收入的家庭拥有自己的住房的拥有自己的住房的“概率概率”。由于此。由于此值是负的,而概率又不可能是负值,值是负的,而概率又不可能是负值,我们就把该值当作零看待,这样做在我们就把该值当作零看待,这样做在本例中是说得过去的。本例中是说得过去的。斜率值斜率值0.1021意味着收

23、入每增加意味着收入每增加1单位单位(本例中是本例中是1000美元美元),平均地说,平均地说拥有住宅的概率增加拥有住宅的概率增加0.1021或约或约10%。当然,对某一给定的收入水平,我们当然,对某一给定的收入水平,我们可从可从(7.11)估计出拥有住宅的实际概率。估计出拥有住宅的实际概率。例如,对于例如,对于X X=12(12000=12(12000美元美元),估计拥有住宅的概率是估计拥有住宅的概率是 )1021.0(129457.0)12|(XYi2795.0 就是说,收入为就是说,收入为12000美元的家庭拥美元的家庭拥有住宅的概率约为有住宅的概率约为28%,表,表7.1展示展示了对应于表

24、中所列各种收入水平的了对应于表中所列各种收入水平的估计概率,该表中最值得注意的特估计概率,该表中最值得注意的特点是,有点是,有6个估计值为负值,并有个估计值为负值,并有6个值大于个值大于1。这清楚地表明了,尽管这清楚地表明了,尽管 是正是正的且小于的且小于1 1,而其估计值,而其估计值 却不一定却不一定是正的或小于是正的或小于1 1。这就是为什么当应变。这就是为什么当应变量是二分变量时不宜使用量是二分变量时不宜使用LPMLPM的一个的一个理由。理由。)|(XYEiiY 即使所估计的即使所估计的Y 全部是正值且小全部是正值且小于于1,LPM仍受异方差性问题的困扰,仍受异方差性问题的困扰,这可从这

25、可从(7.9)容易看出。这样一来,我容易看出。这样一来,我们就不能信赖们就不能信赖(7.11)所报道的估计标所报道的估计标准误。准误。(为什么为什么?)但是我们可用先前讨论过的加权最小但是我们可用先前讨论过的加权最小二乘二乘(WLS)(WLS)法以获得这些标准误的更法以获得这些标准误的更为有效的估计值。应用为有效的估计值。应用WLSWLS时所必需时所必需的权的权 也列在表也列在表7.27.2中。但注意,中。但注意,由于某些是负的,和某些由于某些是负的,和某些 大于大于1 1,对于这些对于这些 来说,来说,将是负的。将是负的。iwiYiYiYiw 因此,我们在因此,我们在WLS中不能使用这中不能

26、使用这些观测值些观测值(为什么为什么?),从而在本例中,从而在本例中把观测值的个数从把观测值的个数从40减少到减少到28。删。删去这些观测值的去这些观测值的WLS回归将是回归将是 iiiiiwXwwY1196.012456.1)0069.0()1206.0(17.454)332.10(t9214.02R(7.12)(7.12)这些结果表明,和这些结果表明,和(7.11)(7.11)相比,估计的相比,估计的标准误变小了,从而估计的标准误变小了,从而估计的t t比率比率(在绝对值在绝对值上上)变大了。然而,我们承认这一结果不免变大了。然而,我们承认这一结果不免有些难处,因为在估计有些难处,因为在估

27、计(7.12)(7.12)时,我们被迫时,我们被迫放弃了放弃了1212个观测值。而且,由于个观测值。而且,由于 是是 的的估计值,严格地说,通常的统计假设检验程估计值,严格地说,通常的统计假设检验程序仅在大样本中有效序仅在大样本中有效iwiw家庭家庭Y YX X家庭家庭Y YX X1 12 23 34 45 56 67 78 89 9101011111212131314141515161617171818191920200 01 11 10 0O O1 11 1O O0 00 01 11 10 01 1O O1 11 1O OO O1 18 81616181811111212191920201

28、3139 9101017171818141420206 61919161610108 81818212122222323242425252626272728282929303031313232333334343535363637373838393940401 11 10 00 01 10 01 11 10 00 01 1O O1 11 1O O0 01 11 10 01 12222161612121111161611112020181811111010171713132121202011118 8171716167 71717表表7.1 住宅所有权住宅所有权Y(=1若拥有,否则为零若拥有,否则

29、为零)和收入和收入X(千美元千美元)的假想数据的假想数据0.46330.46330.49900.4990O.3825O.3825O.4633O.46330.38250.38250.30910.30910.38250.38250.26500.26500.40550.40550.48590.4859O.3825O.38250.40660.40660.46330.46330.40660.4066O.2147O.21470.20160.20160.14630.14630.21470.21470.14630.14630.09560.09560.14630.14630.07020.0702O.1653O.

30、1653O.2361O.2361O.1463O.1463O.1653O.16530.21470.21470.16530.16531.3011.301 0.6880.6880.2800.2800.1780.1780.6880.688O.178O.1781.0971.097 0.8930.8930.1780.1780.0760.0760.7910.7910.3820.3821.1991.199 1.0971.097 O.178O.178-0.129-0.129*0.7910.7910.6880.688-0.231-0.231*0.7910.7911 11 10 00 01 10 01 11 10

31、00 01 1O O1 11 10 00 01 11 10 01 10.46330.46330.30910.30910.38250.38250.44900.4490O.0705O.0705O.4859O.4859O.2650O.26500.40660.40660.30910.30910.49970.49970.07050.07050.46330.46330.26500.2650O.3091O.30910.21460.21460.09560.09560.14630.14630.20160.20160.004980.004980.23610.23610.07020.07020.16530.1653

32、0.09560.09560.24970.24970.004980.004980.21470.21470.07020.07020.09560.0956-0.129-0.129*0.6880.6880.8930.8930.1780.1780.2800.2800.9950.9951.0981.098 0.3820.382-0.0265-0.0265*0.0760.0760.7910.7910.8930.8930.4840.4841.0971.097 0.3330.3330.9950.9950.6880.6880.0760.076-0.129-0.129*0.8930.893O O1 11 10 00

33、 01 11 1O O0 0O O1 11 10 01 10 01 11 10 0O O1 1 *iYiYiwiwiYiYiwiw表表7.2 7.2 住宅所有权一例中的实际住宅所有权一例中的实际Y Y,估计,估计Y Y 和权和权iw注:注:*当作零,以避免负的概率。当作零,以避免负的概率。当作当作1 1,以避免概率大于,以避免概率大于1 1。)1(*iiYY 在有了方便的计算机软件包可用来在有了方便的计算机软件包可用来估计估计(即将讨论的即将讨论的)对数单位和概率单对数单位和概率单位模型之前,位模型之前,LPM由于它的简单性,由于它的简单性,曾相当广泛地被使用着。现在我们来曾相当广泛地被使用着

34、。现在我们来阐明它的一些应用。阐明它的一些应用。四四、LPM的应用的应用例例7.17.1:科恩:科恩雷雷勒曼研究勒曼研究 在为美国劳工部做的一项研究在为美国劳工部做的一项研究工作中,科恩工作中,科恩(Cohen)(Cohen)、雷、雷(Rea)(Rea)和和勒曼勒曼(Lerman(Lerman)意欲把各类劳工的意欲把各类劳工的“劳动力参与劳动力参与”当作一些社会经当作一些社会经济济人口统计变量的函数来分析。人口统计变量的函数来分析。在所有的回归中应变量都是一个在所有的回归中应变量都是一个虚拟变量:如果一个人参与劳动队虚拟变量:如果一个人参与劳动队伍,它就取值伍,它就取值1;如果他或她不参与;如

35、果他或她不参与就取值就取值0。在表。在表7.3中我们复制了他们中我们复制了他们几个虚拟应变量回归中的一个。几个虚拟应变量回归中的一个。解释变量解释变量系数系数t t 比率比率常数常数婚姻状况婚姻状况 已婚,配偶存在已婚,配偶存在 已婚,其他已婚,其他 从未结婚从未结婚年龄年龄 22225454 55 556464 65 65及以上及以上受教育年数受教育年数 0 04 4 5 58 8 9 91111 12 121515 16 16及以上及以上失业率失业率(1966)(1966),%低于低于2.52.5 2.5 2.5-3.4-3.4 3.5 3.54.04.0 4.1 4.15.05.0 5.

36、1 5.1及以上及以上0.43680.43680.15230.15230.29150.2915-0.0594-0.0594-0.2753-0.27530.12550.12550.17040.17040.22310.22310.30610.3061 -0.0213-0.0213-0.0269-0.0269-0.0291-0.0291-0.0311-0.0311 15.415.413.813.822.022.0-5.7-5.7-9.0-9.05.85.87.97.910.610.613.313.3-1.6-1.6-2.0-2.0-2.2-2.2-2.4-2.4表表7.3 7.3 劳动参与住在最大的

37、劳动参与住在最大的9696个标准都市统计区个标准都市统计区(SMSA)(SMSA)的的 2222岁及以上的妇女岁及以上的妇女(应变量:在应变量:在19961996年参与或不参与劳动年参与或不参与劳动(力力)队伍队伍)注:注:表示基底或省略类别表示基底或省略类别 FILOWFILOW:家庭收入减去本人工薪收入:家庭收入减去本人工薪收入解释变量解释变量系数系数t t 比率比率就业变化就业变化(1965(19651966)1966),%低于低于3.53.5 3.5 3.56.496.49 6.5 6.5及以上及以上相对就业机会,相对就业机会,%低于低于6262 62 6273.973.9 74 74

38、及以上及以上FILOW,FILOW,美元美元低于低于15001500及负值及负值 1500150074997499 7500 7500及以上及以上0.03010.03010.05290.05290.03810.03810.05710.0571-0.1451-0.1451-0.2455-0.24553.23.25.15.13.23.23.23.2-15.4-15.4-24.4-24.4续表续表解释变量解释变量系数系数t t 比率比率交互作用交互作用(婚姻状况及年龄婚姻状况及年龄)婚姻状况婚姻状况 年龄年龄其他其他 55556464其他其他 6565及以上及以上从未结婚从未结婚 55556464从

39、未结婚从未结婚 6565及以上及以上交互作用交互作用(年龄与完成的受教年龄与完成的受教育年数育年数)年龄年龄 受教育年数受教育年数 6565及以上及以上 5 58 8 65 65及以上及以上 9 91111 65 65及以上及以上 12121515 65 65及以上及以上 1616及以上及以上-0.0406-0.0406-0.1391-0.1391-0.1104-0.1104-0.2045-0.2045-0.0885-0.0885-0.848-0.848-0.1288-0.1288-0.1628-0.1628-2.1-2.1-7.4-7.4-3.3-3.3-6.4-6.4-2.8-2.8-2.

40、4-2.4-4.0-4.0-3.6-3.6观测值的个数观测值的个数=25153=25153 175.02R续表续表 在解释计算结果前,注意这些特点:在解释计算结果前,注意这些特点:上述回归是用上述回归是用OLS估计的。为了对异方差估计的。为了对异方差性做校正,作者们曾在他们的某些回归中性做校正,作者们曾在他们的某些回归中使用前述的两步法,但发现这样得到的标使用前述的两步法,但发现这样得到的标准误和未经异方差校正的没多大区别。准误和未经异方差校正的没多大区别。这也许纯粹由于样本较大,即约为这也许纯粹由于样本较大,即约为25000所致。由于样本含量很大,即使误所致。由于样本含量很大,即使误差项取的

41、是二分值差项取的是二分值(dichotomous values),所估的所估的t 值仍可用于检验这个通常值仍可用于检验这个通常OLS程程序中的统计显著性。序中的统计显著性。的估计值的估计值0.1750.175看来相当低,看来相当低,但鉴于这是个大样本结果,根据但鉴于这是个大样本结果,根据F F 检验,此检验,此 仍是显著的。最后,仍是显著的。最后,注意作者是怎样把定量和定性变量注意作者是怎样把定量和定性变量融合在一起以及他们是怎样考虑交融合在一起以及他们是怎样考虑交互作用的。互作用的。2R2R 转到对所得结果的解释,我们转到对所得结果的解释,我们看到每一斜率系数都给出对应于解看到每一斜率系数都

42、给出对应于解释变量的一个给定单位变化,事件释变量的一个给定单位变化,事件发生的条件概率的变化率。发生的条件概率的变化率。比如说,附着于变量比如说,附着于变量“65岁及以岁及以上上”的系数的系数-0.2753表示在保持其他因表示在保持其他因素不变情况下,该年龄组的妇女参与素不变情况下,该年龄组的妇女参与劳动劳动(力力)队伍的概率队伍的概率(同年龄为同年龄为22到到54的基底类别妇女相比的基底类别妇女相比)要低出约要低出约27%。类似地,附着于变量类似地,附着于变量“受教育年受教育年数在数在1616及以上及以上”的系数的系数0.30610.3061表示,表示,在保持其他因素不变的情况下,受这在保持

43、其他因素不变的情况下,受这样多教育的妇女参与劳动队伍的概率样多教育的妇女参与劳动队伍的概率(同基底类别,即受教育年数少于同基底类别,即受教育年数少于5 5年年的妇女相比的妇女相比)要高出约要高出约31%31%。现在考虑婚姻状况和年龄的现在考虑婚姻状况和年龄的交交互作用项互作用项。表中数据表明,从未结。表中数据表明,从未结婚的女人婚的女人(和基底类相比和基底类相比),其劳动,其劳动力参与概率要高出差不多力参与概率要高出差不多29%,而,而年龄为年龄为65岁及以上的妇女岁及以上的妇女(仍同基仍同基底类相比底类相比),劳动力参与概率则要,劳动力参与概率则要低出约低出约28%。但从未结婚且年龄为但从未

44、结婚且年龄为6565岁或以上的妇岁或以上的妇女的参与概率和基底类相比,却低出女的参与概率和基底类相比,却低出20%20%。这意味着年龄为。这意味着年龄为6565岁及以上且岁及以上且从未结婚的女人很可能比从未结婚的女人很可能比6565岁及以上岁及以上而属于已婚或其他类的妇女更多地参而属于已婚或其他类的妇女更多地参与劳动力。与劳动力。仿照以上的程序,不难解释表仿照以上的程序,不难解释表16.3中的其余系数。从给定的这些信息中的其余系数。从给定的这些信息还容易求得各种类别的劳动参与的还容易求得各种类别的劳动参与的条件概率。条件概率。比方说,如果我们想求已婚比方说,如果我们想求已婚(其其他他)、年龄为

45、、年龄为22岁至岁至54岁、受教育年岁、受教育年数为数为12至至15年、失业率为年、失业率为2.4%至至3.4%、就业改变为、就业改变为3.5%至至6.49%、相对就业机会为相对就业机会为74%及以上以及及以上以及FILOW为为7500美元及以上的美元及以上的(参与参与)概率就得到概率就得到 O.4368+0.1523+0.2231-O.4368+0.1523+0.2231-O.0213+O.0301+0.0571-O.0213+O.0301+0.0571-0.2455=0.6326 0.2455=0.6326 换句话说,有上述特征的妇女,其劳换句话说,有上述特征的妇女,其劳动力参与概率估计约

46、为动力参与概率估计约为63%63%。例例7.2:对债券评级的预测:对债券评级的预测 根据根据19611966年期间年期间200种种Aa(优优质质)和和Baa(中等质量中等质量)债券的时间序列债券的时间序列与横截面混合数据,与横截面混合数据,J.卡佩莱利卡佩莱利(Cappelleri)估计了如下的债券评级预估计了如下的债券评级预测模型。测模型。iiiiiiuXXXXY5544332221其中其中 1iY如果债券评级为如果债券评级为AaAa(Moody(Moody评级评级)=0 =0 如果债券评级为如果债券评级为Baa(MoodyBaa(Moody评级评级)用的一种衡量负债资本比率,杠杆作2X10

47、0总资本的美元价值长期债务的美元价值利润率3X100净总资产的美元价值税后收入的美元价值率变异性的一种度量利润率的标准差,利润4X规模的一种度量净总资产(千美元),5X可以先验地预期可以先验地预期 和和 是负的是负的(为什么为什么?)?)而而 和和 是正的。是正的。2435 在对异方差性和一阶自相关做校正后,卡佩莱利得在对异方差性和一阶自相关做校正后,卡佩莱利得到以下结果:到以下结果:iiiiXXXY43220572.00486.00179.06860.0(0.0178)(0.0486)0024.0)(1775.0(5)7(378.0XE)8)(039.0(E6933.02R(7.13)(7.

48、13)注:注:0.3780.378E E-7-7表示表示0.00000003780.0000000378,等等。,等等。除除 的系数外,所有系数都有正确的系数外,所有系数都有正确的符号。为什么利润率的变异性有一的符号。为什么利润率的变异性有一个正的系数,我们让金融专业的学生个正的系数,我们让金融专业的学生去寻觅其中的道理。因为人们会预料,去寻觅其中的道理。因为人们会预料,利润的变异性越大,其他条件不变,利润的变异性越大,其他条件不变,得到得到Aa的的Moody评级的可能性越小。评级的可能性越小。4X 对回归的解释是直截了当的。例如,对回归的解释是直截了当的。例如,附着于附着于 的的0.0486

49、0.0486表示,其他条件相表示,其他条件相同时,利润率每增加一个百分点,平均同时,利润率每增加一个百分点,平均而言,将导致债券获得而言,将导致债券获得AaAa评级的概率增评级的概率增大约大约0.050.05。类似地,平方杠杆比率每提。类似地,平方杠杆比率每提高一个单位,债券被划为高一个单位,债券被划为AaAa等级的概率等级的概率将降低将降低0.020.02。3X例例7.3:预测债券违约:预测债券违约 为了预测市政府对他们的债券违约,为了预测市政府对他们的债券违约,D.鲁宾费尔德鲁宾费尔德(Rubinfeld)曾研究曾研究1930年麻萨诸塞州年麻萨诸塞州(Massachusetts)的的35个

50、市政府的一个样本,其中确个市政府的一个样本,其中确实有几宗违约的。他选用实有几宗违约的。他选用LPM模型模型并估计如下:并估计如下:AVINTTAXP063.086.4029.096.1(0.028)(2.13)009.0)(29.0(0.48WELF-007.0DAV(0.88)003.0(36.02R 其中其中P=0如果市政府违约;否则等于如果市政府违约;否则等于1。TAX=1929、1930、1931年年3年的平均税年的平均税率;率;INT=1930年分摊作利息支付的当年年分摊作利息支付的当年预算的百分比;预算的百分比;AV=1925至至1930年财产年财产估价的百分比增长;估价的百分比

51、增长;DAV=1930年直接净年直接净负债总额对财产估价总额的比率;及负债总额对财产估价总额的比率;及WELF=1930年预算中分摊作慈善事业、年预算中分摊作慈善事业、养老金和士兵福利的百分比。养老金和士兵福利的百分比。该模型的含义也是相当清楚的。该模型的含义也是相当清楚的。例如,当其他情况不变时,税率每增例如,当其他情况不变时,税率每增加千分之一,违约的概率将提高加千分之一,违约的概率将提高0.030.03或或3%3%。值相当低,但如前所看到值相当低,但如前所看到的,一般地说,总是比较低而且在判的,一般地说,总是比较低而且在判断模型的拟合优度中作用是有限的。断模型的拟合优度中作用是有限的。2

52、R 如我们已看到的,如我们已看到的,LPM受到一些问受到一些问题的困扰,诸如题的困扰,诸如(1)的非正态性,的非正态性,(2)的异方差性,的异方差性,(3)落在落在01区域的范围之外,以及区域的范围之外,以及(4)值一般值一般地说比较低。但这些困难是可以克地说比较低。但这些困难是可以克服的。服的。五、五、LPM以外的其他方法以外的其他方法iuiuiY2R 例如,我们可用例如,我们可用WLS去解决异方差去解决异方差性问题或增大样本含量以减轻非正性问题或增大样本含量以减轻非正态性问题。通过受约束最小二乘法态性问题。通过受约束最小二乘法或数学规划技术,还可迫使所估的或数学规划技术,还可迫使所估的概率

53、落人概率落人01区间。区间。但即使这样做,但即使这样做,LPMLPM的根本问的根本问题还在于其在逻辑上不是一个很有题还在于其在逻辑上不是一个很有吸引力的模型,因为它假定了吸引力的模型,因为它假定了 随随X X 而线性地而线性地增加,即增加,即X X 的边际或增补效应一直的边际或增补效应一直保持不变。保持不变。)|1(XYEPi 例如,在住房所有权一例中,我们例如,在住房所有权一例中,我们求出,求出,X 每增加一单位每增加一单位(1000美元美元),拥有住房的概率一律增加拥有住房的概率一律增加0.10,且,且不问收入水平是不问收入水平是8000美元,美元,10000美美元,元,18000美元还是

54、美元还是22000美元。这美元。这显然是不现实的。显然是不现实的。事实上,人们会预料事实上,人们会预料 对对 有非线有非线性关系:收入很低的家庭将不会拥有性关系:收入很低的家庭将不会拥有一所住房,但收入充分高,比如说一所住房,但收入充分高,比如说 超过超过 的家庭很可能拥有自己的住的家庭很可能拥有自己的住房。超过房。超过 的任何收入增加将不会的任何收入增加将不会对拥有房子的概率有什么影响。对拥有房子的概率有什么影响。iPiX*X*X 因此,在收入分布的两端,因此,在收入分布的两端,X 的的一个小小的增加实质上将不影响拥一个小小的增加实质上将不影响拥有住房的概率。因此,我们所需要有住房的概率。因

55、此,我们所需要的是具有如下二分性质的一个的是具有如下二分性质的一个(概概率率)模型:模型:(1)(1)随着随着 增加,增加,也增加,但永远不超出也增加,但永远不超出0101这个区这个区间;间;(2)(2)和和 之间的关系是非线之间的关系是非线性的,即性的,即“随着随着 变小概率趋于零变小概率趋于零的速度越来越慢,而随着的速度越来越慢,而随着 变得很变得很大,概率趋于大,概率趋于1 1的速度也越来越慢的速度也越来越慢”。iX)|1(XYEPiiPiXiXiX 从几何图形看,我们所要的从几何图形看,我们所要的(概率概率)模型有点像图模型有点像图16.2那样。注意,在那样。注意,在此模型中,概率位于

56、此模型中,概率位于0与与1之间并且之间并且随着随着X 而非线性地变化。而非线性地变化。图中的图中的S形曲线很像是一个随机变量形曲线很像是一个随机变量的累积分布函数的累积分布函数(CDF)。因此,当回。因此,当回归中的响应变量是取归中的响应变量是取01值的二分变值的二分变量时,容易用量时,容易用CDF去建立回归模型。去建立回归模型。现在的实际问题是用哪一个现在的实际问题是用哪一个CDF?因因为,尽管所有的为,尽管所有的CDF都是都是S形,但对形,但对每一随机变量有惟一的一个每一随机变量有惟一的一个CDF。由于历史和实际两方面的原因,通常由于历史和实际两方面的原因,通常选择用以代表选择用以代表01

57、01响应模型的响应模型的CDFCDF是是(1)(1)逻辑斯蒂和逻辑斯蒂和(2)(2)正态两模型,前者正态两模型,前者给出给出对数单位对数单位(logit(logit)模型,而后者给模型,而后者给出出概率单位概率单位(probit(probit)或或正态单位正态单位(normit(normit)模型。模型。第二节第二节 对数单位模型对数单位模型 一、一、对数单位模型的概念对数单位模型的概念 我们继续用住房所有权的例子我们继续用住房所有权的例子说明对数单位模型的基本概念。回说明对数单位模型的基本概念。回顾在解释住房所有权对收入的线性顾在解释住房所有权对收入的线性关系时,关系时,LPM曾是曾是 ii

58、iXXYEP21)|1(7.14)(7.14)其中其中,X X 为收入,而为收入,而Y Y=1=1表示家庭拥表示家庭拥有住房,但现在考虑如下的住宅所有有住房,但现在考虑如下的住宅所有权表达式权表达式 )(2111)|1(iXiieXYEP(7.15)(7.15)为了易于阐明,我们把为了易于阐明,我们把(7.15)(7.15)写成写成 iZieP11(7.16)(7.16)其中其中 iiXZ21 方程方程(7.16)(7.16)代表一个以代表一个以(累积累积)逻辑逻辑斯蒂分布函数斯蒂分布函数(logistic distribution(logistic distribution function

59、)function)为名的模型。为名的模型。容易证实,随着容易证实,随着 从从 变变到到 ,从从0 0变到变到1 1,而且,而且 对对 (从而对从而对 )有非线性关系,这样就满有非线性关系,这样就满足了上述两点要求。足了上述两点要求。iZiPiXiZiP 但看来似乎为了满足这些要求,但看来似乎为了满足这些要求,却造成了估计问题。从却造成了估计问题。从(7.15)可以可以清楚地看出,清楚地看出,不仅对不仅对X 非线性,非线性,而且对诸而且对诸 也是非线性的。也是非线性的。iP 这就意味着我们不能用熟知的这就意味着我们不能用熟知的OLS程序去估计参数。不过这个问题的程序去估计参数。不过这个问题的形

60、式成分多于真实成分。因为,形式成分多于真实成分。因为,(7.15)是本质上线性的,对此可参看是本质上线性的,对此可参看下面的说明。下面的说明。iiiiZZZZieeeeP1111111iiiiiiiiZZZZZZZZiiee)e(eeeeePP111111111 如果拥有住房的概率如果拥有住房的概率 由由(7.16)(7.16)给给出,则不拥有住房的概率出,则不拥有住房的概率 是是 )1(iPiPiZieP111(7.17)(7.17)因此,我们可以得到因此,我们可以得到 iiiZZZiieeePP11111(7.18)(7.18)现在就是有利于拥有住房的机会比现在就是有利于拥有住房的机会比率

61、率(odds ratio)一个家庭将拥有住一个家庭将拥有住房的概率对不拥有住房的概率之比。房的概率对不拥有住房的概率之比。比方说,如果为比方说,如果为0.8,则有利于拥有住,则有利于拥有住房的机会是房的机会是4比比1。现在如果取现在如果取(7.18)(7.18)的自然对数,的自然对数,我们就得到一个非常有意思的结果,我们就得到一个非常有意思的结果,就是就是 iiiiZPPL)1ln(iX21(7.19)(7.19)即机会比率的对数即机会比率的对数 不仅对不仅对 为线为线性,而且性,而且(从估计的观点看从估计的观点看)对参数也对参数也是线性的。是线性的。L 被称为对数单位,从而被称为对数单位,从

62、而像像(7.19)这样的模型取名为对数单位这样的模型取名为对数单位模型模型(logit model)。iLiX 1.1.随着随着P P 从从0 0变到变到1(1(就是,随着就是,随着Z Z 从从 变到变到 ),对数单位,对数单位L L 从从 变到变到 。就是说,虽然概率。就是说,虽然概率(必须必须)落在落在0 0与与1 1之间,但对数单位并不受之间,但对数单位并不受此约束。此约束。2.虽然虽然L 对对X 为线性,但概率本身为线性,但概率本身却不然。这一性质和概率随却不然。这一性质和概率随X 而线性而线性地增大的地增大的LPM模型模型(7.14)形成了对比。形成了对比。3.3.对对数单位模型的解

63、释如下:斜率系数对对数单位模型的解释如下:斜率系数 给出给出X X 每单位变化的每单位变化的L L 的变化,就是说,它告知的变化,就是说,它告知人们随着收入变化一单位人们随着收入变化一单位(比方说,比方说,10001000美元美元),有利于拥有住房的对数有利于拥有住房的对数机会比率是怎样变化的。机会比率是怎样变化的。截距截距 是当收入为零时的有利于拥有住房的对是当收入为零时的有利于拥有住房的对数数机会比率的值。像对大多数的截距所作的解机会比率的值。像对大多数的截距所作的解释那样,这种解释不一定有什么实在的意义。释那样,这种解释不一定有什么实在的意义。21 4.4.对给定的某个收入水平,比方说对

64、给定的某个收入水平,比方说 ,我们其实想估计的并不是有利于拥有住房的我们其实想估计的并不是有利于拥有住房的机会比,而是拥有住房本身的概率。不过,机会比,而是拥有住房本身的概率。不过,一旦有了一旦有了 和和 的估计值,这是容易直接的估计值,这是容易直接从从(7.15)(7.15)求出的。但这又提出了最重要的问求出的。但这又提出了最重要的问题:首先是怎样估计题:首先是怎样估计 和和 的的?答案将在答案将在下节中给出。下节中给出。*X1212 5.5.好比好比LPMLPM假定假定 与与 有有线性关系,对数单位模型假定机线性关系,对数单位模型假定机会比率的对数与会比率的对数与 有线性关系。有线性关系。

65、iPiXiX 为达到估计的目的,我们把为达到估计的目的,我们把(7.19)写成下式写成下式 二、对数单位模型的估计二、对数单位模型的估计 iiiiiuXPPL21)1ln(7.20)(7.20)我们稍后将讨论随机干扰项的性质。我们稍后将讨论随机干扰项的性质。为了估计此模型,除为了估计此模型,除 外我们还外我们还需要对数需要对数 的数值。这时我们会遇到的数值。这时我们会遇到一些困难。如果我们具备的是如表一些困难。如果我们具备的是如表16.116.1所给的个别家庭的数据,那么,所给的个别家庭的数据,那么,若某家庭拥有住宅若某家庭拥有住宅,而而表示不拥有。表示不拥有。iXiL1iP0iP如果将这些数

66、据直接代人对数单如果将这些数据直接代人对数单位位 ,就会得到,就会得到iL若某家庭拥有住宅01lniL若某家庭不拥有住宅10lniL 显然这些表达式是无意义的。因此,显然这些表达式是无意义的。因此,如果我们具备的是微观或个别家庭的如果我们具备的是微观或个别家庭的数据,我们就无法按照标准的数据,我们就无法按照标准的OLS程程序去估计序去估计(7.20)。这时只好借助于最大。这时只好借助于最大似然法去估计参数了。但由于它的数似然法去估计参数了。但由于它的数学上的复杂性,不在这里作进一步的学上的复杂性,不在这里作进一步的探讨。探讨。然而,假如我们具备像表然而,假如我们具备像表16.416.4中那中那样的数据。表中对应于每一收入水平样的数据。表中对应于每一收入水平 有有 个家庭,其中个家庭,其中 个家庭拥有住宅个家庭拥有住宅 现在,如果我们计算现在,如果我们计算 iXiNin)(iiNn iiiNnP(7.21)(7.21)即相对频率,就可把它看作对应即相对频率,就可把它看作对应于于 的真实的真实 的一个估计值。如果的一个估计值。如果 相当大,相当大,将是将是P 的良好估计的良好估计值。值。i

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!