第17章抽样调查

上传人:仙*** 文档编号:48638810 上传时间:2022-01-12 格式:PPT 页数:54 大小:334.50KB
收藏 版权申诉 举报 下载
第17章抽样调查_第1页
第1页 / 共54页
第17章抽样调查_第2页
第2页 / 共54页
第17章抽样调查_第3页
第3页 / 共54页
资源描述:

《第17章抽样调查》由会员分享,可在线阅读,更多相关《第17章抽样调查(54页珍藏版)》请在装配图网上搜索。

1、第17章 抽样调查n抽样调查是收集统计数据的重要途径。n调查者利用抽取部分样本来了解调查总体各个部分的情况。n我们将了解抽样调查的设计、实施以及对误差的衡量等。抽样调查术语n个体:被采集数据的实体n总体:全部有关个体的集合n样本:总体的一个子集n目标总体:调查者所要推断的总体n抽样总体:实际从中抽取样本的总体n抽样单位:总体中的一个简单个体或一组个体n抽样框:罗列抽样单位的名册调查种类与抽样方法n1. 调查种类n邮寄调查(设计并使用调查表)n电话调查(设计并使用调查表)n采访调查(设计并使用调查表)n收集资料的其它各种调查(不使用调查表)n关于调查表的设计n关键在于如何将想调查的问题转化为问卷

2、上的问题。n1. 长度n2. 问题的顺序n3. 有关措辞n2. 抽样方法n(1)概率抽样n依据随机性原则从总体中抽取样本的方式成为概率抽样n在概率抽样中,总体的每个个体都以一个已知的非零概率被抽中,这个概率可以通过某种随机化操作得到,它的值是按照样本设计的要求而定的。n在概率抽样中,可以计算取得每个可能样本的概率n在概率抽样中,可以对由样本的随机性抽取所造成的抽样误差进行计量,即能客观评价调查结果的精确度。n概率抽样无论对总体反复进行多少次,按相应的抽样方法所计算的精确度和可靠度,借助于概率法则都可认识并做比较,从而能选择效果最好的设计方案。n常用的概率抽样方法有:简单随机抽样、分层简单随机抽

3、样、整群抽样和系统抽样。n(2)非概率抽样n抽取样本的过程不是依据随机性原则进行的方式成为非概率抽样n采用非概率抽样的原因是:在有些条件下无法有效实施概率抽样方案。n在非概率抽样中,样本的代表性及样本被抽取的概率是不清楚的。n非概率抽样可以得出定量的结果,但不能判断这个结果的精确性和可靠性。n非概率抽样受主管因素的影响,其样本的代表性取决于抽样者对总体的认识能力和判断能力n常用的非概率抽样有判断抽样和方便抽样n判断抽样:根据个人主观意识来选择自己认为最能代表总体的抽样单位的抽样方法n方便抽样:将便于得到的单位选进样本的抽样方式。调查误差n在调查的过程中可能产生两类误差,抽样误差和非抽样误差。n

4、1.抽样误差n它是由样本得到的点估计值和总体参数之差的量值n抽样误差仅出现在抽样调查中,且不可避免。n可以通过选择适当的抽样方法或抽样设计来控制抽样误差。n2. 非抽样误差n非抽样误差是调查中出现的除抽样误差以外的其它所有误差n其类型有测量误差、选择误差、数据处理误差等n非抽样误差可以出现在普查中,也可以出现在抽样误差中。简单随机抽样n1. 定义:从总体中抽出样本时,能保证每次抽取都是等概率的抽样方法称为简单随机抽样n2. 调查步骤:首先建立抽样框,即抽样总体中所有个体的名册;其次利用随机数表进行抽样(可以保证总体中的每个个体都有相同的被抽到的概率)n3.总体均值n在抽样调查中,总体的概率分布

5、通常是未知的。n总体均值的点估计 的抽样分布性质依赖于样本设计。n如果简单随机样本是大样本,则根据中心极限定理 抽样分布近似服从正态分布。xxn如果 的抽样分布近似服从正态分布,那么总体均值的估计区间为n其中 为 抽样分布的标准差,也称为均值的标准误差。xxxzxzx2/2/xxn从一个容量为N的有限总体中,抽取一个容量为n的简单随机样本n均值标准差的估计值为:n此时的总体均值区间估计为:n当抽样调查中,构造置信区间时,通常采用总体均值的近似95%置信区间:)(nsNnNsxxxsZxsZx2/2/xxsxsx22n例子:Great lakes recreation是一本关于划船及垂钓类主题的

6、地区性杂志。目前有8000家订户,从中抽取484户做为简单随机样本,这484户的年平均收入为30500美元,标准差为7040美元。由此,希望估计订阅该杂志订户年均收入的95%置信区间。n由题意得到,n可知n95置信区间下的杂志订户年均收入为:n30500-2310,305002310,即29880,3112030500 x7040s310)4847040(80004848000)(nsNnNsxn4. 总体总值n问题:估计500所学校的总面积X(总体总值)n若这500所学校的平均面积为 ,则总体总值为:n由于 未知,我们用 替代,从而有总体总值的点估计为:n总体总值点估计的标准误差为:NX x

7、xNX )(nsNnNNNssxXn总体总值X的近似95%置信区间:n从这500所学校抽取容量为50的样本,得到:n总体总值X的点估计为:50022000=11000000n95%区间估计近似为:XXsxNXsxN224000,22000sx53666011000000)504000(50050500500211000000211000000Xsn5.总体比率n总体比率的无偏估计:n总体比率的标准误差估计:n总体比率的近似95%置信区间:p)1)1 ()(nppNnNsppsp2n在上例中,有些学校使用天然气取暖,抽取的50所中有35所以天然气为取暖燃料。n500所学校使用天然气比率的点估计为

8、:35/50=0.7n比率的标准误差估计:n近似95%的置信区间为:0621. 0)49307 . 0)(50050500()1)1 ()(.nppNnNsp1242. 07 . 00621027 . 02.pspn6. 样本容量的确定n(1)估计总体均值时的样本容量确定n令置信区间为95%n设B为允许误差,则n解得:)( )(22nsNnNsBx222)4(sBNNsnn式中的S样本方差如何确定?一般情形下,我们是通过抽取实际样本才可计算得到样本方差。n1. 利用两步抽样:用第一步抽样的样本计算 ,然后计算n,第二步抽样将单位数补足到n。n2. 通过试点调查或事先检验估计n3。利用先前的样本

9、得到的信息。2s2sn例:调查大学毕业生刚就业的平均年薪,假设有5000名毕业生,误差不超过500美元。从去年的相同研究得知s=3000。则需要抽取的样本容量n为:14097.13930004500500030005000)4(222222sBNNsnn(2)估计总体总值时的样本容量确定n置信度95n例,在上例中,若想估计5000名毕业生的全部年薪,允许误差在2000000美元,问抽取多大的样本容量:2224sNBNsn216312153000500042000000300050004222222.sNBNsnn(3)估计总体比率是的样本容量确定:n置信度95n当 不确定时,采用0.5代替。)

10、1 ()4()1 (2ppBNppNnp分层简单随机抽样n1. 分层抽样:先将容量为N的总体分成H组(层),第h层的单位数为 ,则有,n然后从第h层中抽取容量为 的简单随机样本,将所得的H个样本联合,组成一个容量为n的样本hNHNNNN21hNHnnnn21n例:想对某大学商学院毕业生的初始年薪做一调查。今年1500名毕业生的详情如下:会计专业500名,金融专业350名,信息系统专业200名,市场营销专业300名,经营管理专业150名。n选择180名学生组成一个分层简单随机样本:会计专业45名,金融专业40名,信息系统专业30名,市场营销专业35名,经营管理专业30名。n2.总体均值n点估计:

11、n其中, 第h层的平均数hHhhHhNkHhNkhkhhhkNiiXNNxNNNxNxNhh111111)1(11HhhhstxNNx1)(hnihihhxnx11n均值标准误差的估计:HhhhhhhxnsnNNNsst122)(1HhhhhhhHhhhhhhhHhhhHhhhxnsnNNNnsNnNNNxVarNNxNNVarsst121222212212)(1)(1)(1)(n总体均值的近似95%置信区间:n上例中,各专业毕业生样本的初始年薪数据如下所示:HhhhhhhstxstnsnNNNxsxst122)(122专业平均年薪层样本标准差各层样本容量各层单位总数会计35000200045

12、500金融33500170040350信息系统41500230030200市场营销32000160035300运作管理36000225030150ixisiNin35017360001500150320001500300415001500200335001500350350001500500stx1388429090376915001)(15001)(12122122HhhhhhhHhhhhhhxnsnNNnsnNNNsst近似95%的置信区间为:276350171382350172stxstsxn3.总体总值n点估计: 总体总值 的标准误差:总体总值的近似95%的置信区间:stxNX Xst

13、xXNssstxstXstNsxNsxN22n续上例,n总收入的点估计:n总收入的近似95%的置信区间:n(52111500,52939500)52525500350171500X4140005252550013815002525255002stxstNsxNn4.总体比率n点估计:n其中 是第h层的样本比率。n标准误差的估计为:n近似95%的置信区间为:HhhhstpNNp1hpHhhhhhhhpnppnNNNsst12)1)1 ()(1stpstsp2n例:估计毕业生的初始年薪不低于36000的比率n总体比率的点估计:3149. 030151500150350150030030291500

14、200403150035045161500500stp0264. 06913.157015001)1)1 ()(1212HhhhhhhhpnppnNNNsst05280314900264023149. 02.stpstspn5. 样本容量的确定n确定样本容量分两个阶段两个阶段:先确定总样本容量,然后决定各层应分配的抽取单位数;或者先确定每层应抽取的样本的容量,然后合并这些样本得到总样本容量。n我们要寻求对估计有关总体参数提供必要精度的总样本容量和各层分配量。如果某些层的样本容量不足以提供层内估计所需的精度,则这些层的样本容量应按需要增加。n本节给出确定总样本容量及将它恰当地分配给各层的方法。n

15、分配时应考虑三个因素:各层的单位数;各层内的方差;各层选择单位的费用。n本节给出对给定水平能使抽样成本达到最小的分配方法。nNeyman分配法:n(1)估计总体均值时的样本容量:n(2)估计总体总值是的样本容量:HhhhhhhsNsNnn1HhhhHhhhsNBNsNn1222124)()(HhhhHhhhsNBsNn122124)()(B为允许误差n例:某商家欲对购买甲、乙、丙三种商品的顾客进行调查,以获得对今后制作广告有用的资料。该商家估计这些顾客的月均收入,允许误差为100美元。三种商品的顾客共有600名,甲商品顾客100名,乙商品顾客200名,丙商品顾客300名,小规模调查估计每层标准

16、差的结果为:甲商品顾客收入标准差1300美元,乙商品顾客收入标准差900美元,丙商品顾客收入标准差500美元。n问如何抽取样本容量?n根据公式得到: 即总的需要抽取162名顾客。n各层的样本容量分别为:n甲商品顾客抽取46名,n乙商品顾客抽取63名,n丙商品顾客抽取53名。162500300900200130010041006005003009002001300100422222231222312)()()()(hhhhhhsNBNsNn534600005003001621333HhhhsNsNnn46460000130010016231111hhhsNsNnn6346000090020016

17、231222hhhsNsNnnn(3)估计总体比率时的样本容量n总样本容量:n各层样本容量:HhhhhHhnnhppNBNppNn12221)1 ()4() )1 (HhhhhhhhhppNppNnn1)1 ()1 (整群抽样n1.整群抽样:将总体中的元素分成N组(群),总体中的每元素属于且只属于其中一群:抽取时的抽样单位不是一个元素,而是元素的群。n可能作为群的举例说明:总量变量元素群或抽样单位A市住户特征寓所街区B市购买衣物人寓所机场旅游信息离开旅客人数航班高中就业计划学生班级乡村人口社会态度成人村过桥年交通流量发车地与到达地机动车40分钟间隔城市土地所有者档案税务信息土地所有者档案分类账

18、的页数健康保险档案医疗数据卡片连续10张卡片为一组n整群抽样对选中群内的单位实行全面调查,其样本代表性取决于抽中群体对全部群体的代表性。因此,群体间差异越大,样本代表性越差,反之,差异越小,则样本代表性越好。n可见,整群抽样的抽样误差取决于群体间差异程度的大小,而不受各群体内部差异程度的影响。n2. 单阶段整群抽样与两阶段整群抽样:n从总体的所有群中抽取若干群组成样本称为单阶段整群抽样;n若从总体中抽出若干群,在从每群中抽取一个简单随机样本组成样本,则称为两阶段整群抽样。n例:设想从一个城市的总体为N=40000个寓所分布的A=4000个街区中选择一个大约n=400的样本:我们可以选择一个40

19、街区的群样本来组成样本。该抽取方式称为单阶段整群抽样;也可以以1/50的抽样比来抽取街区,以1/2的抽样比来抽取寓所,这样产生一个每个街区为5个寓所的80个街区的样本。此法称为两阶段整群抽样。n3. 整群抽样的群体形式:n两种:一是划分群体,即将所有的个体人为地划分为若干群;二是自然形成的群体,即那些客观存在的、在实施抽样调查之前就已经有了的群体。n4.相关记号:nN总体中的群数;n选入样本的群的数目;Mi第i群的单位数;M总体中的单位数;每群单位数=M/Nn例:事务所i注册会计师Mi年薪总额xi女注册会计师ai18384222513508341480417857657296163131271

20、576128417609125775103318809合计128656035该例中,N=1000,n=10,M=12000,每群的平均单位数12n5. 总体均值n点估计:n标准误差估计:n近似95%的置信区间为:niiniicMxx111)(122nMxxMNnnNsniicixccxcsx2第i群中所有观察值的总量n例:在会计事务所的调查中,25.51128656011niiniicMxx378.51281)(12niiciMxx19791103785128112100001010001)(2122.nMxxMNnnNsniicixcn从而计算得到95%置信区间为:n6. 总体总值:n点估计

21、:n标准误差估计:n近似95%置信区间:39585125019792512502cxcsxcxMX cxXMssXcsxM2n例:上例中,对注册会计师年薪总值的估计为:n点估计:n标准误差估计:n年薪总值的近似95%置信区间为:6150000005125012000cxMX23748000197912000cxXMss474960006150000002374800026150000002XcsxMn7.总体比率n点估计:n标准误差的估计:n近似95%置信区间:niiniicMap111)(122nMpaMNnnNsniicipccpcsp2n例:上例中,对女性注册会计师比率有如下估计:n女注册会计师比率的近似95%置信区间为:n(0.2052,0.3416)2734. 01283511niiniicMap03410920981512100009901)(2122.)(nMpaMNnnNsniicipc0682027340034102273402.cpcsp作业n1.一个分层简单随机抽样有如下的结果:nA. 计算各层总体均值的估计值nB. 建立每一层总体均值近似95%的置信区间nC. 建立整个总体均值近似95%的置信区间层1138300.5200202103250.78 250303210500.21 10025hxhshphNhnn2. 整群抽样课后习题16

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!