缺失数据的插补调整重点

上传人:jin****ng 文档编号:181082402 上传时间:2023-01-10 格式:DOC 页数:13 大小:102KB
收藏 版权申诉 举报 下载
缺失数据的插补调整重点_第1页
第1页 / 共13页
缺失数据的插补调整重点_第2页
第2页 / 共13页
缺失数据的插补调整重点_第3页
第3页 / 共13页
资源描述:

《缺失数据的插补调整重点》由会员分享,可在线阅读,更多相关《缺失数据的插补调整重点(13页珍藏版)》请在装配图网上搜索。

1、文章编号:1002-1566(200106-0047-07缺失数据的插补调整金勇进(中国人民大学统计学系,北京100872摘要:插补是另一类对缺失数据进行调整,以减小估计偏差的方法估计,均值插补,随机插补,回归插补和多重插补。关键词:缺失数据;插补调整中图分类号:0212;C81,一种被称为“单位无回答”,它是指入选择本单位由于各种原因没有接受调查,可以说这些样本单位交的是一份白卷。另一种被称为“项目无回答”,它是指被调查单位虽接受调查,但在某些调查项目上没有提供有效回答。与单位无回答相比,项目无回答或多或少地提供了一些被调查单位的信息。上一讲中介绍的加权调整法虽然也可以应用于“项目无回答”,

2、但主要是对“单位无回答”进行的调整。而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”,但主要是对“项目无回答”进行调整的方法。所谓插补是指,采用一定的方式,为调查中的缺失数据确定一个合理的替补值,插补到原缺失数据的位置上。插补可以达到二个调整的目的:一个是减小由于数据缺失可能造成的估计量偏差,为此,就要使确定的替补值尽可能地接近缺失的原数据值。事实上缺失数据的真值我们无法得知,因此所追求的只能是确定替补值方法的合理和有效。调整的第二个目的是力图构造一个完整的数据集。在调整前,由于缺失值的存在,使原数据集上出现许多“窟窿”,给一些统计分析方法的使用带来不便。采用插补的方式填补了缺失值的空

3、缺,就为后面分析人员的工作提供了方便,他们在使用标准统计软件的同时,不必繁琐地说明对缺失值进行处理的方法,大大节省了精力和时间。而且不同分析人员使用的是同一套经过插补调整的数据,也保证了分析结果的一致性。插补的效率如何,取决于替补值与缺失值的近似程度。为了提高效率,对研究总体进行分层,使层内各单位诸方面情况尽可能相似,利用同一层内回答单位的信息产生出缺失数据的替补值,是进行插补的基本思路。因为可以利用不同的信息源,采用不同的方式生成替补值,所以有不同的插补方法。本文将对几种比较典型的方法做以简要介绍。二、演绎估计法演绎估计法适用于这样一种情况,目标变量Y的缺失值可以以很高的确定性由其它辅助74

4、缺失数据的插补调整SSS收稿日期:2000-08-20基金项目:国家教育部人文社会科学研究“九五”规划项目资助课题变量来决定。这意味着,目标变量与辅助变量之间存在着已知的函数关系,即Zi=f(Xi。式中Zi是第i个单位目标变量缺失值的估计值(替补值,Xi是第i个单位已知的辅助变量值。例如美国在一项关于医疗设备使用和费用的调查中,多处使用演绎估计法对缺失值进行插补。1.对种族缺失值的插补函数式为Zi=Xi,即如果某人种族数据缺失,可采用其配偶的种族;如果某家庭成员种族资料缺失,可使用户主的种族。2.如果年龄项目数据缺失,则利用出生年份资料进行估计。若调查是在1990年进行,令Xi为出生年份,则Z

5、i=1990-Xi。3.若就业收入的数据缺失,则利用其它4个相关的辅助变量信息推算。令X1i、X2i分别为该被调查者的主要职业和第二职业的周工资率,X3i、X4i分别为其在主要职业和第二职业上的工作周数入的估计值为Zi=X1i.X3i+X2i.X4i。由此看出,f(Xi可假定为许多不同的形式Y与关系,且X值已知。实践中,。三, 使组内各单位的主要特征相似。然后分别计算各,将各组均值作为组内所有缺失项的替补值。均值插补法的特点是操作简便,并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。但它的弱点也比较突出。一个是插补的结果歪曲了样本单位中Y变量的分布,因为同组中缺失数据的替补值都由

6、该组的平均值充当,使得其分布状况受到由各组回答单位数据计算出的组均值的制约,其次,插补结果将导致在均值和总量估计中对方差的低估,因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低,因此均值插补适用的场合是仅仅进行简单的点估计,而不适用于需要方差估计等比较复杂的分析。四、随机插补法为避免均值插补中替补值过于凝集的弱点,随机插补应运而生。这种方法是指,采用某种概率抽样的方式,从回答单位的资料中抽取缺失数据的替补值。为便于说明,令某项目回答数据个数为n1,缺失数据个数为n0,则n=n1+n0,现从n1个数据中随机抽取n0个替补值,则样本构成为:样本二yl,y2,ynl,y3nl+l,y3n1

7、+2,y3n此时,目标变量的均值估计为:yhD=n(n1y1+n0y3式中,y3匹n1i=1Hiyi/n0,如果采用不重复抽样,Hi=0或1;如果采用重复抽样,则H为多项式分配,若hl+.+hn1=n-n1,贝VPH=(h1,h2,.,hn1=(h1!h2!hn1!否贝上面所定义的概率为0,由此得出E(Hi=n184数理统计与管理20卷5期2001年Var(Hi=(n-n1(1-n1n1Cov(Hi,Hj=-n21(i为若假设i与j独立,由上面结果可以导出E(yHD=YVar(yHD=(n1-NS2+(1-n1(1-nS2式中,S2为总体方差。可以看出,随机插补法估计量yHD,第一项是仅用回答

8、单位数据进行估计的方差,即Var(y1=(N2n1=(n1-NS2,量方差增加项。,变量分布的弱点,这就使随机插补法在估计与样本分布,将样本单位进行事后分层,然后在各层中使用,。五、回归插补法回归插补的基本思想是利用辅助变量Xk=(k=1,2k与目标变量Y的线性关系,建立回归模型,利用已知的辅助变量的信息,对目标变量的缺失值进行估计。于是第i个缺失值的估计值可以表示为:zi=po+zKk=1卩kXki+ei式中的卩是回归系数。若辅助变量是定性变量时,可以采用虚拟变量的处理方法:若目标变量Y是定性变量,则考虑通过Logit变换,进行Logistic线性回归。与随机插补和均值插补的不同点在于:Zi

9、不是取自回答单位的实际值,也不是由回答单位数据计算的均值,而是利用目标变量与辅助变量的线性关系,采用标准方法(如最小平方法计算出的估计值。上面的回归模型可以有不同的演变形式。例如,对于连续性固定样本调查中的缺失值,令P0=ei=0,并指定前期调查数据为唯一的辅助变量,则上式变成:Zi=pXi,这便是简单比率插补,即用时间的变化,对前一期的回答数据进行调整,并做为本次调查缺失值的替补值。应用回归插补法中一个讨论的问题是ei的处理,因为经过回归后,Zi的估计为AZi=AP0+ZKk=1ApkXki,对于相同的Xk(k=1,2,.k,得到的替补值是相同的,这就会和均值插补一样,存在样本分布扭曲的问题

10、。为此需要构造随机残差e的数据集。构造的方法有多种,比较典型的一种方法是,根据辅助变量Xk将样本单位分层,在各层中将回答单位数值与其均值的离差视为残差e,在用回归法得到人Zi后,在该层的残差集中随机抽取AZi的残差项,并将其和作为缺失值的替补,即:Zi=AZi+ei。最后,由回答数据yi和回归替补值Zi,得到目标变量的估计值为YA=Zn1yi+ZnZin缺失数据的插补调整六、处理缺失数据的多重插补法(一什么是多重插补法在上面介绍的插补方法均是单一差补法,即对每个由于无回答造成的缺失值只构造一个插补值。单一插补法存在这样或那样的局限,如均值插补容易扭曲样本分布,随机插补的稳定性不够,等等。能否有

11、一种方法综合起单一插补法的各自特长,而将其弱点降低到最小程度?多重插补法就是在这个背景下提出的。美国哈佛大学统计系的Rubin教授70出多重插补的思想,80年代中与其他学者一起进一步扩展,。90年代许多学者对这种方法继续研讨,多重插补的主要思想是,m个完全数据集,m个处理结果,最后再综合这m处理结果,m个插补值的目的是模拟一定条件下的估,研究人员可以借此估计目标量的实际后验分布(二多重插补法的理论证明来源于贝叶斯理论,它由Rubin在80年代初期以一系列的论文提出,其基本的理论架构被他整理在一本书中(Rubin“MultipleImputationforNonresponseinSurveys

12、”,这里仅对其推断理论做一简要介绍,假定我们的目标是从一个有缺失的调查数据集中推断目标总体,并且缺失值的后验分布(给定回答值的条件分布可以获得,那么目标总体的后验分布由下式给出:h(eYobs=Jg(GYobs,Ymisf(YmisYobsdYmis式中,Yobs表示回答数据的集合,Ymis表示缺失数据的集合,h(表示目标变量0的后验密度函数,g(-为0的完全数据后验密度,f(-为缺失数据的后验密度。目标变量0通常是k维列向量,如果调查数据集是理想的,即不存在缺失值,对0的推断将有如下形式:(0-A0N(0,卩这里,比是0的一个统计量,卩是(0-A0的方差估计量(通常是一个kxk的协方差阵,N

13、(0,卩是有着均值为0和方差为卩的k元正态分布。假定由于出现缺失数据,n个样本单位中只有n1个单位提供了回答,即Y=(Y1,.,Yn1被记录下来,Yobs是n1记录值的向量,Ymis是n0个缺失值的向量(n=n1+n0。又假定在一个给定的贝叶斯模型里,采用适当的方法,对每个缺失值构造了m个插补值,由此产生了m套完全数据。于是对0和卩而言,有人01,八02.八0口和卩1,卩2pm。将m套经过插补的数据集合并,得到0的多重插补估计值为0mi=mi=1A0i/m多重插补的方差估计包括两部分,插补数据集内的方差和插补数据集间的方差。插补数据集内的方差为pA=Emipi/m插补数据集间的方差为05数理统

14、计与管理20卷5期2001年B=mi=1(A0i-0mi2/(m-1于是多重插补的方差估计Tmi表示为Tmi=人卩+(1+mB可以把调整系数(1+m-1看成a。的模拟误差。当m足够大时,对0的统计推断为:(0-0miN(0,Tmi即0的95%的置信区间是0mi1.96T1/2mi当m比较小时,对0的推断则建立在t分布基础上0mitdf(a/2T1/2mi此时的自由度df为df=(m-1(1+(,请参阅Rubin的书(见参考文献1。NORME,SOLAS(2.0版本,SAS(8.0版本SS,AMELIA(三一个例子这里用一个例子来说明多重插补法的使用,例子取自于Rubin的书(19-22页。此例

15、展示了多重插补法的三个步骤:插补、分析、合并。假定从一总体N=1000中采用简单随机抽样,抽取n=10的一个样本,目标变量Y,辅助变量X,调查中无回答率为20%,即y4,y6缺失,具体数据如下:表一有缺失的数据集xi468916182025yi420101416151822步骤插补由上数据知,目标变量Y与辅助变量X存在相关关系,假定采用简捷的最近距离法为每个缺失值插补两次,即m=2。第一个缺失值的辅助变量x=9,与其最近距离的有x=8和x=11,故取与之对应的y=10和y=14为第一个缺失值的插补值。同样的方法,第二个缺失值的插补值为y=16和y=14,由此形成两个完全数据集。表二完全数据集y

16、(2i420101416151822在三个步骤中,插补这个步骤甚为关键,实际处理中需要根据具体情况,选择适当的插补模型。步骤二分析现在我们感兴趣的是比估计量。根据比估计公式15缺失数据的插补调整(J.LSchafer数理统计与管理卷期2052001年52AYR=yEXExii=RXA将第一个数据集数据带入,且已知X=12,故YR1=AEy112Ex(ii=13.38将第二个数据集数据代入,可求出YR2=AEy212(ii=13.57由此估计方差估计量公式v=1-fn(s2+R2s2x-2Rssy人人ynn式中,f=n/N,s2=yn工(yi-y2/(n-1,s2x=(xi-x2/(n-1,sx

17、y=Kxi-x(yi-y/(n-1由表二数据可以计算出,v1=2.965,v2=3.157步骤三合并将步骤二的结果加以合并,也即m0mi=i=10/im=1(13.38+13.57=13.482B=Tmi=卩+(1+A=1m1m(v1+v2+(1+1m工(Yi-0i2/(m-1mA11(2.965+3.157+(1+0.018=3.07322由此便可以对Y的置信区间进行估计。七、总结插补调整常用于对项目缺失数据的处理。造成项目数据缺失的原因有多种,比较常见的有项目无回答,此处缺失值还产生异常值的剔除。虽然这些异常值是回答者实际提供的,但由于它们是极端值,把它们修正为正常值对分析可能更有利。当然

18、,在数据审核中,把明显的,不会逻辑的数据删去,用插补法进行调整,也是一种补救措施。与花费很高费用去寻找正确数值相比,或与用可疑数据进行分析相比,采用插补法对可数据进行修正是可以考虑的选择。多重插补法提出了处理缺失数据的一个新思路。这种方法采用模拟数据的方式,尽可能地提取调查中的有效信息。与单一插补法相比,多重插补法具有一些明显的优点:首先,该方法利用多个插补值之间的变异性反映缺失值的不确定性,进而为估计抽样误差提供了依据;其次,多重插补可以保持研究变量之间的相关性,不像单一插补那样容易扭曲变量间的关系,这样,它的应用范围就更加广泛。例如,如果调查中的无回答率较高,单一插补的估计效率会受到很大影

19、响,而多重插补所受影响则相对小得多;最后,插补的效果与构造插补值的模型有关,多重插补数据可以模拟特定方法下估计值的分布以及总体参数的贝叶斯后验分布,这就为更好地理解和进一步改进插补方法提供了发展空间。缺失数据的插补调整53当然,多重插补法的操作比较复杂,工作量大,与单一插补法相比,成本增加许多,因此有些学者置疑,估计质量的提高能否补偿增大的成本;还有,在多重插补的理论与应用方面,有些学者也持有疑议。看来,对多重插补的理论与应用研究还会继续下去。插补法的运用离不开辅助信息。相对于目标变量的缺失值而言,辅助信息既可以来自于同一次调查,也可以取自于以前的调查或其它有关资料。显然,辅助信息的质量越高,

20、与目标变量的统计关系越密切,使用插补法的效果就越好。但即便如此,在使用调整后的数据集时都应时刻注意,毕竟此“完全数据集”非彼完全数据集,在使用分析结果时对该结果抱一种客观而谨慎的态度。参考文献1Tseeler,DLKalsbeek。调查中的非抽样误差M北京:中国统计出版社,1997,12.2金勇进非抽样误差分析M北京:中国统计出版社,1996,2.3金勇进,朱琳不同插补方法的比较J数理论统计与管理,2000,(4.4JohnWiley,1987.5DonaldB.Rubin,NathanielSchenkerMultipleImputationinHealthcareDatabasesJSta

21、tisticsinmedicine,.1991,10:585-598.6Rao.DevelopmentsinSampleSurveytheory:anAppraisalTheCanadianjournalofstatistics,vol25,No1,J.1997,25(1:1-21.7赵民德,谢邦昌.探索真相抽样理论和实务台北:晓园出版社,1999.M.ImputationadjustmentmethodformissingdataJINYong2jin(TheDepartmentofStatistics,RenminUniversityofChina,Beijing,100872Abstra

22、ct:Imputationisanothersortofadjustmentmethodstoreducethebiasofestimationundermissingdata.Thispaperintroducesseveralimputationmethods:thosemethodsinclude:Deductiveimputation,Mean2valueimputation,RandomizedimputationRegressionmethodandMultipleimputation.Keywords:missingdata;imputationadjustment上接第36页O

23、nesortOfstochasticprogramminginintervalsforensurenceprobabjlityofcomplexsystemsMALiang2he,DUANHong2mei(CollegeOfAirForceLogistics,XuZhou221006,ChinaAbstract:Byinvestegatingtheensurenceprobabilityofcomplexsystems,twosortsofstochasticprogrammingareformulatedinwhichtheretargetsareminimumcostsandmaximumensurenceprobabilityrespectively,andtheaproximatecalculationsarealsogiventothesetwokindsofproblems.KeyWords:complexsystems;ensurenceprobability;cost;stochasticprogramming.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!