stata学习笔记(注释)

上传人:馨*** 文档编号:64582048 上传时间:2022-03-21 格式:DOC 页数:10 大小:76KB
收藏 版权申诉 举报 下载
stata学习笔记(注释)_第1页
第1页 / 共10页
stata学习笔记(注释)_第2页
第2页 / 共10页
stata学习笔记(注释)_第3页
第3页 / 共10页
资源描述:

《stata学习笔记(注释)》由会员分享,可在线阅读,更多相关《stata学习笔记(注释)(10页珍藏版)》请在装配图网上搜索。

1、.wd经济数据的特点与类型。1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2021年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2021年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2021年中国各省的GDP小样本OLS最小二乘法:单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。拟合优度:衡量线性回归模型对样本数据的拟合程度R2,越高说明模型拟合程度越好。单系数T检验:对回归方程扰动项的具体概率进展假设显著性水平进展检验F检验:整个回归方程是否显著STATA操作简介:如

2、果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年那么使用MDY;对于月度数据那么gen newvar=monthly(varname,YM)。.describe:数据的概貌.drop keep:删除和保存.su:统计特征Pwcorr:变量之间相关系数Star.05:5%显著性水平gen:产生g intc=logtc:取自然对数.reg:OLS回归.Vce:协方差矩阵

3、reg。,noc表示在进展回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,那么应使用稳健标准误最大似然估计法:如果回归方程存在非线性,那么使用最大似然估计法MLE或非线性最小二乘法NLS三类在大样本下渐进等价的统计检验:Wald test LR似然比检验 LM操作步骤如下:sysuse auto调用数据集Hist mpg,normal画变量mpg的直方图,并与正态密度比拟直方图显示,变量mpg的分布于正态分布有一定差距。变量可以取对数解决非正态分布的问题。异方差与GLS广义最小二乘法异方差的检验:看残差图、怀特检验white test

4、、BP检验Breusch and Pagan异方差的处理:1、OLS+稳健标准误最好的 2、广义最小二乘法GLS 3、加权最小二乘法WLS实例操作:1、 使用数据:use nerlove.dta,clear2、 reg intc inq inpl inpk inpf进展回归3、 画残差图:rvfplot上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq的散点图:rvpplot inq,结果与上图几乎一致,可能存在异方差,即扰动项的方差随着观测值而变。4、 完成回归后,进展怀特检验:estat imtest,white P值显著,认为存在异方差6、完成回归后,进展BP检验:

5、estat hettest,iid estat hottest,rhs iid estat hottest inq,iid三种形式的检验都强烈拒绝同方差的原假设,存在异方差这里只放一个形式的检验结果7、 处理异方差自相关 :扰动项之间自相关自相关的例子:1、时间序列数据中通常具有某种连续性和持久性,如相邻两年的GDP增长率;2、截面数据中相邻的观测单位之间可能存在溢出效应,如相邻地区的农业产量收到类似天气变化的影响;3、对数据的人为处理如数据中包含移动平均数等;4、如果模型设定中遗漏了某个自相关的解释变量并被纳入到扰动项中,那么会引起扰动项的自相关。自相关的检验:1、画图不推荐2、BG检验es

6、tat bgodfrey 3、BOX-Pierce Q检验4、DW检验 estat dwatson. 检验都要在OLS做完后才能做。自相关的处理:1、使用OLS+异方差自相关稳健的标准误;2、OLS+聚类稳健的标准误;3、使用可行广义最小二乘法FGLS;4、修改模型设定自相关处理实例:1、使用数据 icecream 然后进展回归 BG检验显著 拒绝了原假设无自相关,那么认为存在自相关Q检验略、DW检验如下DW=1.02 距离2很远 可以认为存在自相关。由以上的检验可以看出扰动项之间存在自相关,因此OLS提供的标准误是不准确的,应使用异方差自相关稳健标准误,由于样本为30个,n四分之一=2.34

7、,故取NEWey-West估计量的滞后值为P=3,结果如下:上图显示标准误与OLS标准误无多大区别,因此将滞后阶数增加为6,从上图可以看到无论截断参数是3还是6,标准误都变化不大,比拟稳健。此外,前面提到自相关存在可能是因为模型设定不正确,因此考虑在解释变量中参加temp的滞后值,然后再进展OLS回归:然后使用BG检验是否存在自相关:结果显示无自相关,而后DW值也改良为1.58,因此修改模型后扰动项根本不再存在自相关。模型设定与数据问题遗漏变量:被解释变量可能被参加到扰动项中解决方式:参加尽可能多的控制变量;使用代理变量;工具变量法;使用面板数据;随机试验或自然实验。其中代理变量应满足两个条件

8、:多余性,仅通过影响遗漏变量而作用于被解释变量;剩余独立性,遗漏变量中不受代理变量影响的剩余局部与所有解释变量均不相关。多重共线性:某一解释变量可以由其他解释变量线性表出,即存在多重共线性。检测:先回归,然后estat vif VIF低于10即不存在多重共线性。工具变量,2SLS与GMM工具变量的适用条件:OLS成立的最重要条件是解释变量与扰动项不相关,如出现相关可以使用工具变量法来解决。其中在计量经济学中,将所有与扰动项相关的解释变量成为内生变量,一个有效的工具变量应满足一下两个条件:1、工具变量与内生解释变量相关;2、工具变量与扰动项不相关。过程:传统的工具变量法一般通过二阶段最小二乘法2

9、SLS或TSLS来实现:1、用内生解释变量对工具变量进展回归,得到拟合值PtPt实际上是内生变量中的外生局部,而另一局部是与扰动项相关;2、用被解释变量对第一阶段的拟合值Pt进展回归。工具变量的检测:1、不可识别检验;2、弱工具变量检验;3、过度识别检验estat overid。豪斯曼检验:原假设为所有解释变量均为外生变量,假设拒绝假设的话应该使用工具变量法,假设承受的话使用OLS。豪斯曼过程:reg X1 x2Estimates store ols(存储OLS的结果)Ivregress 2sls y x1(x2=z1 z2)(假设疑心X2为内生变量)Estimates store iv(存储

10、2SLS结果)Hausman iv ols,constant sigmamore(根据存储的结果进展豪斯曼检验)假设存在异方差的问题,那么可以使用杜宾-吴-豪斯曼检验。它在异方差的情况下也适用。在球形扰动项的假定下,2SLS最有效,但如果扰动项存在异方差或自相关,那么存在GMM广义矩估计这一更有效的方法:首先使用2SLS得到残差,然后GMM,但是在实际操作中使用迭代法。GMM的命令:ivregress gmm y x1(x2=z1 z2) 两步最优GMMivregress gmm y x1 (x2=z1 z2),igmm 迭代GMMestat overid 过度识别检验工具变量法的STATA命

11、令和实例:Use grilic.dta,clearSum然后考察智商和受教育年限的相关关系本文研究的是工资与受教育年限的关系具有较强的正相关关系。然后作为一个参照系,进展OLS回归并使用稳健标准误。教育投资率10.26%,显然过高,可能是遗漏了变量能力,使得能力对工资的奉献也被纳入教育的奉献。因此使用iq作为能力的代理变量,再进展OLS回归,可以发现参加iq作为能力的代理变量后,教育投资回报率降低了一些,但还是过高。如下列图使用iq来度量能力存在测量误差,因此iq为内生变量,考虑使用med kww mrt age作为iq的工具变量,进展2SLS回归 ,并使用稳健标准误。受教育年限回报上升,而i

12、q竟然是负相关,因此不可信,使用工具变量法需要验证其工具变量的有效性因此进展过度识别来检验所有工具变量是否外生。上图显示有些工具变量不合格,与扰动项相关。疑心mrt和age不满足外生性,因此仅适用med和kww作为iq的工具变量,再次进展2SLS回归,同时显示第一阶段的回归结果。如上图,第一局部回归是使用内生解释变量对工具变量进展回归,第二局部用被解释变量对第一阶段回归的拟合值进展回归。上图中教育回报率较为合理,而且iq系数也为整数,再次进展过度识别检验。结果没有拒绝外生的原假设。接下来继续考察作为工具变量的第二个条件,即工具变量与内生变量的相关性,由第一阶段的回归看出,med和kww对iq有

13、较好的解释力,但为稳健起见,还是使用对弱工具变量更不敏感的有限信息最大似然法LIML。以上结果与2SLS非常接近,侧面验证了不存在弱工具变量。还有,使用工具变量法的前提是存在内生解释变量,因此进展豪斯曼检验。结果显示拒绝了原假设,因此存在iq为内生变量,又因为传统的豪斯曼检验在异方差的情况下不成立,下面进展异方差稳健的DWH检验:DWH的P值小于0.05,故可以认为iq为内生解释变量。另外如果存在异方差,那么GMM比2SLS更有效,因此进展最优GMM估计:上图显示两步最优GMM与2SLS很接近,再进展过度识别检验结果承受原假设,说明所有工具变量外生。然后再做迭代GMM:下列图显示与两步GMM系

14、数估计值相差不大。如果希望将以上各估计值级标准误弄在同一张表中:qui reg lw s expr tenure rns smsa,r. est sto ols_no_iq. qui reg lw iq s expr tenure rns smsa,r. est sto ols_with_iq. qui ivregress 2sls lw s expr tenure rns smsa (iq=med kww),r. est sto tsls. qui ivregress liml lw s expr tenure rns smsa (iq=med kww),r. est sto liml. q

15、ui ivregress gmm lw s expr tenure tns smsa (iq=med kww). qui ivregress gmm lw s expr tenure rns smsa (iq=med kww). est sto gmm. qui ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm. est sto igmm. estimates table ols_no_iq ols_with_iq tsls liml gmm igmm,b se其中,选项b表示显示回归系数,se表示显示标准误差如果希望用一颗星表

16、示10%显著性水平等等:如果想像论文一样显示,那么如下表:se表示在括弧中显示标准误差,p表示显示P值,r2表示显示R的平方,mtitle显示使用模型名字,二值选择模型离散选择模型、定性反响模型或被解释变量取非负整数时,都不适宜使用OLS回归。1、 二值选择模型:只有两种选择,是否。Probit y x1 x2 x3,r (probit模型)Logit y x1 x2 x3,or vcecluster clustvar logit模型其中,r代表使用稳健标准误,or显示几率比而不是系数,vce表示使用以clustvar为聚类变量的聚类稳健标准误。Stata举例:美国妇女就业与否的二值选择模型。

17、然后使用logit进展估计:结果显示所有系数的联合显著性很高,继续使用稳健标准误进展logit回归:比照以上两个表格显示标准误相差不大,因此不用担忧模型设定问题。二值选择模型中的异方差问题:hetprob y x1 x2 x3,het(varlist),如果承受原假设那么为同方差。此外,二值选择模型中一般都没有扰动项的存在。二值选择模型中的异方差问题可以进展似然比检验LR:hetprob y x1 x2 x3,het(varlist)(这是在异方差情况下进展Probit估计的stata命令,hetvarlist制定对扰动项方差有影响的所有变量,如hetage married children)

18、,LR检验原假设为同方差。多值选择模型个体面临的选择有时是多值的,因此可能需要使用到多项probit或多项logit,或者在有某项条件时需要用到条件logit,还有在不随方案而变的多项logit模型和解释变量随方案而变的条件logit模型混合的logit模型。举例来说,问卷调查将受访者职业分为五类OCC,解释变量为是否白人、受教育年限、工龄,解释变量都依赖于个体而不依赖于方案,因此使用多项logit或多项probit回归:进展多项logit回归:上述结果说明白人更不可能选择效劳业或工匠;是否白人对选择蓝领或白领没显著影响。排序与计数模型1、 泊松回归:被解释变量只能取非负整数,即0,1,2.,

19、这时常用泊松回归。Poisson y x1 x2 x3,r irrPoisson y x1 x2 x3,r exposure(x1)Poisson y x1 x2 x3,r offset(x1)其中,r为稳健标准误,irr为显示发生率比,exposure表示把inx1作为解释变量并使其系数为1,offset表示将x1作为解释变量并使其系数为1.2、 负二项回归:泊松回归的局限是泊松分布的期望与方差一定相等,但如果被解释变量的方差明显大于期望,即存在过度分散,这时候可以使用负二项回归。Nbreg y x1 x2 x3,r exposure(x1)Nbreg y x1 x2 x3,r disper

20、sion(constant) offset(x1)其中dispersionconstant表示使用NB1模型。3、 零膨胀泊松回归与负二项回归:如计数数据中包含大量0值,那么可以使用零膨胀泊松回归或零膨胀负二项回归。如果vuong统计量很大为正数,那么应该使用零膨胀泊松回归,如果统计量很小为负数,那么使用零膨胀负二项回归。Zip y x1 x2 x3,inflate(varlist) vuong(零膨胀泊松回归)Zinb y x1 x2 x3,inflate(varlist) vuong(零膨胀负二项回归),其中inflate(varlist)不可缺少列出所有变量。如果研究者只关注参数的估计值

21、,那么泊松回归。Stata举例:被解释变量narr861986年被逮捕的次数,被解释变量为计数数据,尽管如此,还是使用OLS回归进展观察:R的平方为0.07,但大多数解释变量都显著,下面进展泊松回归,并使用稳健标准误:nolog表示不显示迭代记录。上俩图可以看出虽然OLS和泊松的系数相差很大,但两者并不具有可比性,为方便比拟,计算泊松回归的平均边际效应:可以看出,泊松模型的平均边际效应与OLS的回归系数很接近,为便于解释系数,下面计算发生率比:可以看出黑人被逮捕次数比白人多93.6%。此外使用泊松回归的前提之一是被解释变量的期望与方差相等,因此考察被解释变量的统计特征:结果显示样本方差几乎是样

22、本均值的两倍,为放松此假定进展负二项回归NB2:上图中alpha的置信区间为0.7-1.24,因此可在5%的显著性水平下拒绝过度分散参数alpha=0的原假设,也因此应使用负二项回归。短面板面板数据指的是一段时间内跟踪同一组个体数据,它既有横截面的维度又有时间维度。其中,如果每个时期在样本中的个体完全一样,那么称为平衡面板数据,反之为非平衡面板数据。固定效应还是随机效应:当不存在异方差的时候,使用hausman检验,如果假设成立,那么使用随机效应,如果拒绝假设,那么使用固定效应。 而当存在异方差时候,使用辅助回归然后聚类稳健标准误来检验,如果承受假设,那么使用随机效应模型。短面板的stata命

23、令及实例:Xtset panelvar timevarxt说明数据为面板数据,panelvar取值必须为整数且不重复,相当于进展编号,timevar为时间变量,假设panelvar为字串符,如国家,那么使用encode country,gencntryXtdes 显示面板的构造,是否为平衡面板Xtsum 显示组内,组间与整体的统计指标Xttab varname 显示组内,组间与整体的分布频率,tab指的是tabulate交通死亡率:首先设定state与year为面板变量及时间变量。上图显示这是一个平衡的面板数据每个时期在样本中的个体完全一样),然后显示数据集的构造:n=48,T=7,n大而T小

24、,说明这是一个短面板,然后作为参照系,首先进展混合回归:reg y x1 x2 x3,vcecluster id其中id用来确定每个个体的变量,vcecluster state表示使用以state为聚类变量的聚类稳健标准误由于每个州的情况不一样,可能存在不随时间变化的遗漏变量,故考虑使用固定效应:Xtreg y x1 x2 x3,fe rLSDV法的stata命令为:reg y x1 x2 x3 i.id,r其中r为使用聚类稳健标准误,vcecluster id也能到达这种效果,id表示用来确定个体的变量,i.id表示根据变量id而生成的虚拟变量。首先使用组内估计量:在选择随机还是固定时:使用

25、hausman检验:xtreg y x1 x2 x3,fe固定效应估计Estimates store fe存贮Xtreg y x1 x2 x3,re随机效应估计Estimates store re存储Hausman fe re,constant sigmamore豪斯曼检验长面板与动态面板在长面板中,T可能会比拟大,因此可能存在组间异方差,组内自相关或组间同期相关的问题,主要有两种处理方式:1、使用OLS即LSDV来估计系数,只对标准误差进展矫正即面板矫正误差;3、对异方差或自相关的具体形式进展假设,然后使用可行广义最小二乘法FGLS进展估计。1、 矫正标准误差即使扰动项存在组间异方差或组间同

26、期相关等,LSDV也依然有效,此时,只要使用组间异方差、组间同期方差稳健的标准误差即可,即面板校正标准误差PCSE:Xtpvse y x1 x2 x3,hetonly,其中hetonly表示存在组间异方差,但不存在组间同期相关;举例:inc为被解释变量,由于n=10,T=30,因此是一个长面板。为了考虑时间效应,生成时间趋势变量t,然后用LSDV法估计双向固定效应模型作为比照先不考虑异方差等下列图可以看出有些州虚拟变量显著,即存在固定效应,而时间效应那么不太显著,p值为0.19.然后下表未考虑组间异方差等,因此使用面板校正标准误进展估计下下列图命令xtpcse与命令reg的估计系数完全一样,只

27、是标准误不同。2、 仅解决组内自相关的FGLS:xtpcse y x1 x2,corrar1。无论是使用prais-winsten还是OLS方法都在组间异方差与组间同期相关的情况下成立。继续使用以上数据,考虑组内自相关的情形,但要求各组的自回归系数一样3、 组间异方差的检验:如果拒绝假设,那么存在组间异方差。Ssc install xttest3下载安装命令Quietly xtreg lnc lnp i.state t,r fexttest3Quietly xtgls lnc lnp i.state tXttest34、 组内自相关检验:如果拒绝假设,那么存在组内自相关Net install

28、st0039Xtserial y x1 x2 x3,output5、 组间同期相关的检验:如果拒绝假设,即存在组间同期相关。Ssc install xtest2Quietly xreg inc inp inpmin iny t,feXttest2非线性面板对于面板数据,如果被解释变量为虚拟变量、计数变量、受限变量等,那么为非线性面板。1、 如果被解释变量为虚拟变量,那么称为面板二值选择模型。一般采用混合、固定或随机效应模型。混合回归:如果不存在个体效应,那么使用混合回归Probit y x1 x2 x3,vce(cluster id) 混合probit回归Logit y x1 x2 x3,vc

29、e(cluster id) 混合logit回归 其中Id为确定面板单位的变量随即效应模型:Xtprobit x1 x2 x3,Xtlogit y x1 x2 x3,再次输出结果中,包含了对原假设的LR检验结果,如拒绝那么使用随机,承受那么使用混合固定效应模型:xtlogit y x1 x2 x3,feStata实例:被解释变量为是否起义uprising,由于面板probit无固定效应模型,因此使用面板logit模型。首先进展固定效应面板logit估计:如下列图所示,第二行有一个朝代未发生企业,因此在估计固定效应时应被去掉。然后进展混合回归logit模型,为保持与固定效应样本一样,在混合回归中也

30、去掉了dyn=2的朝代:为了在固定和混合进展选择,使用豪斯曼检验,但豪斯曼不允许在混合回归使用选择项vcecluester dyn,因此重新进展混合回归:quietly logit uprising age pop temp sfamine sfamine1 sfamine2 sfamine3 relief relief1 relief2 relief3 if dyn=2, nolog不显示结果结果拒绝假设,因此使用固定效应模型。pooled表示将回归放在一起做然后下面进展随机效应logit估计从上表最后一行的值LR检验拒绝假设,因此应使用面板随机效应模型,不宜进展混合回归。最后,为了在固定效

31、应与随机效应模型之间进展选择,再次进展豪斯曼检验:结果拒绝假设,因此应使用固定效应模型。2、 面板泊松回归:被解释变量为计数变量时,非负整数。其中,混合泊松回归:poisson y x1 x2 x3,vce(cluster id)irrirr为回报发生率比面板泊松回归:xtpoisson y x1 x2 x3,fe normal irr(自由选择fe和re)面板负二项回归:泊松回归的缺陷是如果方差与期望之间差距过大即存在过度分散,既可以采用负二项回归。 混合负二项回归:nbreg y x1 x2 x3,vce(cluster id) 面板负二项回归:xtnbreg y x1 x2 x3,fe

32、irr自由选择fe和reStata实例:被解释变量mdu为个体看医生的次数。面板变量为id,时间跨度为5年,为非平衡面板。然后进展混合泊松回归,并使用聚类稳健标准误然后进展随机效应的面板泊松回归,上图最后LR检验拒绝原假设,那么拒绝混合泊松模型,认为应使用随机效应的面板泊松模型。然后再进展固定效应的面板泊松回归:上图显示有265组数据由于仅有一期观测值而被去掉,另有666组数据由于取值全为0也被去掉,此外固定效应模型无法识别不随时间变化的变量系数lcoins,ndisease,female故这些变量也被去掉,可以看出,聚类稳健标准误大约是普通标准误的2倍,导致所有变量系数均不显著。然后初步考察是否存在过量分散:可以看出被解释变量mdu的方差是平均值的七倍多,可能存在过度分散,因此负二项回归可能更有效率。因此进展混合负二项回归,并使用聚类稳健标准误:最后一行显示过度分散系数a的置信区间拒绝了假设,即存在过度分散,使用负二项回归可以提高效率。进展随机效应的面板负二项回归,并使用自助标准误最后一行LR拒绝了混合负二项回归的原假设,认为应使用随机效应的面板负二项回归。然后使用豪斯曼检验在固定效应与随机效应的负二项回归之间进展选择:豪斯曼检验拒绝随机效应负二项回归,因此使用固定效应负二项回归。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!