抽样讲稿实用教案

上传人:辰*** 文档编号:76290788 上传时间:2022-04-18 格式:PPTX 页数:43 大小:858.42KB
收藏 版权申诉 举报 下载
抽样讲稿实用教案_第1页
第1页 / 共43页
抽样讲稿实用教案_第2页
第2页 / 共43页
抽样讲稿实用教案_第3页
第3页 / 共43页
资源描述:

《抽样讲稿实用教案》由会员分享,可在线阅读,更多相关《抽样讲稿实用教案(43页珍藏版)》请在装配图网上搜索。

1、 1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30commune的样本,截至1802年9月23日总共有2,037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。 拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33.把2037615按照来分,拉普拉斯估计每年每人里有一个注册新生儿。 具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用乘以全法国年度新生儿总数来估计得出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高(t go)我们的估计精度

2、。第1页/共42页第一页,共43页。为什么要使用比率(bl)估计/回归估计利用总体的辅助信息利用总体的辅助信息(xnx)提高估计的精度。提高估计的精度。辅助指标的选择辅助指标的选择 :辅助指标应该与调查指标:辅助指标应该与调查指标有较好的正的相关关系有较好的正的相关关系 。 的抽样分布较的抽样分布较 的抽样分布变动性要小得多。的抽样分布变动性要小得多。 辅助指标的总体总量或总体均值已知。辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足够的样本量才比率估计、回归估计需要有足够的样本量才能保证估计的有效。能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚有偏估计:当样本量足够大时

3、,估计的偏倚趋于趋于0。 yxuyx第2页/共42页第二页,共43页。简单地想要估计一个比率 :假定总体由面积不同(b tn)农业用地构成, yi =i地谷物的产量, xi :i地的面积,B=每亩谷物的平均产量第3页/共42页第三页,共43页。 想要估计一个总体总数,但总体大小N是未知的。但是我们知道,于是可以通过来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行(jnxng)测量。 要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。 能称量渔网中鱼的总重量。鱼的长度与其重量

4、相关。 yNytxyyrxtt第4页/共42页第四页,共43页。调整(tiozhng)来自样本的估计量以便它们反映人口统计学的总量。 在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。 400012412404008440270013001270240160第5页/共42页第五页,共43页。 比率估计量被用来(yn li)对无回答进行调整 设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,xi为i行业的雇员数。假定对总体中的每个行业xi均已知。我们希望一个行业花费在

5、健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数 X 乘以比率 yxyx第6页/共42页第六页,共43页。一一、 Ratio Estimator 在 srs 条件下, 1)(1)(22NRXYXnfRVxyRyNXxyXxyYXxyXxyyiiRRR辅助(fzh)(fzh)指标x x,其总体均值(总量)已知第7页/共42页第七页,共43页。【例】对以下假设总体(N=6N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计(gj)(gj)及简单估计(gj)(gj)的性质。 iYiX123456平均值01358104.513111

6、8294618第8页/共42页第八页,共43页。1526C样本简单估计比估计11,221821,361831,49.517.141,51516.87551,623.521.1562,3715.7572,410.515.7582,5161692,624.520103,414.516.3113,52016.36123,628.519.73134,523.516.27144,63219.2155,637.518.75第9页/共42页第九页,共43页。 简单估计是无偏的,而比估计是有偏的。 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。 因此(ync)对这个

7、总体,比估计比简单估计的效率高。 18151)(151iiyyE87.97)(151)(1512iiyEyyV686.17151)(151iRiRyyE31356. 0)()(YyEyBRR82. 2)(151)(1512iRRiRyEyyV92. 2)()()(2RRRyByVyMSE第10页/共42页第十页,共43页。二、比率(bl)(bl)估计的性质偏倚(pin y)量会小,如果: 样本量n 很大抽样比n/N很大 很大 S x很小 相关系数R接近于1 )(1)(22xyxRSSSXnfRrExuxu第11页/共42页第十一页,共43页。比率估计(gj)(gj)的近似方差)2(1)(222

8、22xxyysRsRsxnfRvniiixRynXnfRv1221)(111)()()()()()(222RVXNYVRVXRXVyVRR当 R0.5 时,比估计比 srs 有更高的精度。分层抽样下,比估计有两种方法:1.Separate Ratio estimator,111xyr,222xyr厖.LLLxyr(h=1,2,.L)222)(1)()(XRyEXRRERVniiixRynXnfRv1221)(111)(第12页/共42页第十二页,共43页。三、比率估计(gj)(gj)的效率 1.与简单估计(gj)的比较 简单估计(gj)量无偏,而比率估计(gj)量渐近无偏。 因此这里只比较当比

9、较大的情形。 比率估计(gj)量优于简单估计(gj)量的条件是: 22212yxyxfSR SR S Sn2220 xyxR SR S S正高度(god)相关第13页/共42页第十三页,共43页。2.比率估计成为最优线性无偏估计的条件 (1).与的关系(gun x)是过原点的直线 (2).对这条直线的方差与成比例。则比率估计是最优线性无偏估计(BLUE)。 iyixixiy第14页/共42页第十四页,共43页。 【例】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记(dngj)的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨,从2860艘船舶中抽取了一个的简单随机样本

10、,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。 1780100621701202150050718231503100550814508043761091582056002010137050第15页/共42页第十五页,共43页。 该县船舶在调查月完成货运量的比率估计(gj)为 用简单估计(gj)对货运量进行估计(gj) 1123.2154626267193765RyYXxRv Y2222(1)yxNfsR sn1122.10617 10yxRsRs Y()458930Rv Y2860 1123.23212352YNy 2211(1)3.43

11、303 10yNfv Ysn( )585921v Y s Y()0.6135( )Rv Ydeffv Y实际中对于样本量较小的情形,使用(shyng)比率估计量时不能忽视其偏倚。 第16页/共42页第十六页,共43页。)()()()()(222RVXNYVRVXRXVyVRR当 R0.5 时,比估计比 srs 有更高的精度。分层抽样下,比估计有两种方法:1.Separate Ratio estimator,111xyr,222xyr厖.LLLxyr(h=1,2,.L)四、分层随机抽样下的比率(bl)(bl)估计 如果(rgu)各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总

12、得到总体指标的估计,这种方式称为分别比率估计量。separate ratio estimator 第17页/共42页第十七页,共43页。hhhhRhhRSXxyWyWy RhhhhRSRSYXxyyNY 2.Combined Ratio estimator 由hy估计sty,由hx估计stx。 第18页/共42页第十八页,共43页。XRXxyyCststRCXRyNXxyYCRCststRC第19页/共42页第十九页,共43页。方差(fn ch)的比较如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠

13、些,因为(yn wi)这时分别比率估计量的偏倚很大,从而使总的均方误差增大。2222222222()(2)()(2)hRsyhhxhhyxhhhRcyhcxhcyxhhWV YNSR SR SnWV YNSR SR SnRSYRCY第20页/共42页第二十页,共43页。六六、Regression Estimator LrLrLryNYXxyxXyy)()( 若令, 0则)(srsyyLr; 若令,R则RLryxXxyyy)((比估计) ()011uuregyxBBBxxy第21页/共42页第二十一页,共43页。回归估计应用的两种情况: 1. 事先确定 设的确定值为0,0是一常数,则: )(0

14、xXyyLr (1) 第22页/共42页第二十二页,共43页。)2()2(1)()(111)(0220220yxxyiNiLrSSSnfXXYYNnfyV第23页/共42页第二十三页,共43页。) 3 ()2(1)(02202yxxyLrsssnfy因为(yn wi)YxXEyEyElr)()()(0而)(0iilrxXyy又可表为的样本均值后者的总体(zngt)均值为Y故(2)式成立(chngl)其样本估计量:第24页/共42页第二十四页,共43页。性质: A:Lry是Y的无偏估计 B:)(Lry是)(LryV的无偏估计 C:0的最佳值是 20 xyxSS 总体(zngt)回归系数第25页/

15、共42页第二十五页,共43页。大样本(yngbn)条件下残差方差(fn ch)Se22()(1)eregnSENnSy第26页/共42页第二十六页,共43页。3.分层抽样中的回归估计 (1)分别回归估计 )()(hhhhhLrslrshhhhhLrhLnLrsxXyNyNYxXyWyWy 第27页/共42页第二十七页,共43页。当h可以事先确定时,Lrsy与LrsY都是无偏的,且 )2()1 ()(2222xhhyxhhyhhhhLrsSSSnfWyV 在).2 , 1(2LhSSxhyxhh时达到极小值 )1 ()1 ()(222minhyhhhhLrsSnfWyV 第28页/共42页第二十

16、八页,共43页。 若h不能事先确定, hhnhhinhhihhihxxxxyyb2)()( 第29页/共42页第二十九页,共43页。 当 较大时,适用(shyng)场合 ?hn2222222222(1)()(1)(1)()()() (2)(1)(1)(1)(2)hhhhLrsyhhhnnhhLrshihhhihhhhhhyhhhhWfV ySnWfyyybxxn nWfnSrn n层内残差方差(fn ch)Seh2第30页/共42页第三十页,共43页。 (2)联合回归估计 )()(,ststLrcLrcststLrchhsthhstXXYyNYxXyyxWxyWy 第31页/共42页第三十一页

17、,共43页。当事先设定时,)2()1 ()(2222xhyxhyhhhhLrcSSSnfWyV无偏(w pin)第32页/共42页第三十二页,共43页。当无法事先设定时,)2()1 ()()() 1()1 ()(222222xhcyxhcyhhhhhhichhihhhhLrcSbSbSnfWxxbyynnfWy渐近无偏(w pin)第33页/共42页第三十三页,共43页。其中(qzhng)222(1)()()(1)(1)()(1)hhhhihhihhhcnhhhihhhWfyyxxn nbWfxxn n如果是按比例分配(fnpi),则可简化为联合最小二乘估计?第34页/共42页第三十四页,共4

18、3页。 【例】某市对中央直属单位和市属单位专业技术人员总数(zngsh)进行了分层随机调查,已有98年各层人员总数(zngsh),135个中央直属单位有75650专业技术人员,1228个市属单位有315612专业技术人员。分别在两层中调查了15、20家单位,调查数据如下,试估计99年全市专业技术人员总数(zngsh)。第35页/共42页第三十五页,共43页。(1)按分别比率估计(gj)量估计(gj) (2)按联合比率估计(gj)量估计(gj) RSY210.959859 171400 1.049725 102900 272536.6hhhR XRSv Y222221(1)hhyhhxhhhNf

19、sR sn2hyxhR s9588.48RSv YRCY277310274300271956.1279700ststYXXRCv Y222221(1)hhyhxhhhNfsR sn2yxhRs9289.44RCv Y41552416074154331675第36页/共42页第三十六页,共43页。(3)按分别(fnbi)回归估计量估计,用样本回归系数估计b (2)按联合比率估计量估计 lrSY2211()hlrhhhhhhhhN yNyb Xx415331lrSv Y222221(1)12hhhyhhxhhhhNfnsb snn9480.11lrSv Y1604cb 2212221(1)756.

20、57571.0290(1)735.2535hhyxhhhhhxhhhWfsnWfsnlrcYstYcstbXX415386 lrCvY2222 21(1)hhyhc xhhhNfsbsn2c yxhbs9238.96lrCv Y1672第37页/共42页第三十七页,共43页。七 其他(qt) 估 计 如果调查时所用的辅助指标为目标量最近的普查结果,或者回归估计的回归系数接近于1,这时可以采用差值估计 (无偏(w pin)) 辅助变量X与Y负相关, X和Y都为正值, 使用乘积估计(有偏)xXyyd()XyxXdyXxNYyXxYPP第38页/共42页第三十八页,共43页。 八、比估计量与回归估计

21、量的比较: 已知: )2(1)(222yxxyRSSRSRSnfyV )1 (1)(22;yrLSnfyV )()(RLryVyV yxxySSRSRS22222 0)(2xyRSS 0)(2R 第39页/共42页第三十九页,共43页。实际中更多使用比估计的原因 n )()(RLryMSEyMSE n=12 1.15 n=8 1.36 n=6 1.51 样本量小时,回归估计偏差(pinch)大于比率估计第40页/共42页第四十页,共43页。三种(sn zhn)估计量之间的关系 对于简单随机抽样,简单估计、差值估计是无偏的,比率估计、回归估计是渐近无偏的。 小样本(yngbn)条件下回归估计偏差

22、大于比率估计和简单估计。 比估计在相关系数大于CX/2CY时优于简单估计。 当样本(yngbn)量较小时,不能忽略比率估计及回归估计的偏倚。 当辅助变量为调查指标的最近的普查值,可以考虑使用差值估计,尽管差值估计的方差可能比回归估计要大,但由于它是无偏估计,因此,总的均方误差可能比回归估计的小。 第41页/共42页第四十一页,共43页。感谢您的观看(gunkn)!第42页/共42页第四十二页,共43页。NoImage内容(nirng)总结1802年,拉普拉斯想要估计法国的人口数目。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33.把2037615按照(nzho)来分,拉普拉斯估计每年每人里有一个注册新生儿。具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用乘以全法国年度新生儿总数来估计得出法国人口总数。第41页/共42页第四十三页,共43页。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!