第六章不等概率抽样

上传人：yo****e 文档编号：64256434 上传时间：2022-03-21 格式：DOC 页数：18 大小：524.50KB

收藏版权申诉举报下载

第1页 / 共18页

第2页 / 共18页

第3页 / 共18页

下载文档到电脑，查找使用更方便

16 积分

下载资源

资源描述：

《第六章不等概率抽样》由会员分享，可在线阅读，更多相关《第六章不等概率抽样（18页珍藏版）》请在装配图网上搜索。

1、第六章不等概率抽样第一节等概率抽样概述一、不等概率抽样的必要性在简单随机抽样中，总体(或层)中的每个单元入样的概率都相等。如果总体中的每个单元在该总体中的地位(或重要性)相差不多，则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单，而且相应的数据处理公式也简单。但是在许多实际问题中，我们还需要使用不等概率抽样(sampling with unequal probabilities)。一种情况是调查的总体单元与抽样总体的单元可能不一致。例如，某学校欲对学生的家庭情况进行调查，调查总体是全校学生的家庭。在这些家庭中，许多家庭只有一个孩子在该校就读，但也有些家庭有两个或两个以上的孩子

2、在该校就读。从抽样角度来说，将学生作为抽样单元是方便的，因为相应的抽样框是现成的。而另一方面，从调查角度而言，对每个(学生)家庭实行等概率抽样又是合理的。这样就产生了一个问题：若对学生实行等概率抽样，则每个家庭被抽中的概率并不相等。例如有两个孩子在该学校就读的家庭入样的概率是只有一个孩子在该校就读的家庭入样概率的两倍。因此，为了使每个家庭入样的概率相等，就只能对学生进行不等概率抽样。方法是：对每个学生登记其家庭在该校就读的学生人数，每个学生的家庭入样的概率应与这个数字成反比。另一种需要用到不等概率抽样的情况是，抽样单元在总体中所占的地位不一致。例如若用抽样方法估计全国科技人员在近五年内的流动

3、总数，那么大的单位(研究所、高等院校、企业单位等)显然比小单位重要得多。类似的例子还有通过对企业的调查估计某地区某一时期内的总产值，对商业网点调查估计该地区的商品零售总额等等。在这些例子中，对单位(包括工厂、商店)进行等概率抽样，估计效果一般不会很好。若对单位进行不等概率抽样，使大单位入样的概率大，小单位入样的概率小，就可大大提高估计的精度。单位的大小可用适当的量来表示，例如研究所的科技人员数，企业与商店的固定资产或流动资金总额等。最重要的一种不等概率抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样(sampling with probabilities proportional to

4、sizes，简称PPS抽样)。第三种需用不等概率抽样的情况是为了改善估计量的特性。每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话，则按此进行不等概率抽样所得到的样本，用通常的比估计方法所得的估计量是无偏的。总之，在实际工作中需要我们经常采用不等概率抽样。另外，从上面列举的情况也可看到，凡需使用不等概率抽样的场合，必须提供总体单元的某种辅助信息，例如每个单元的“大小”度量Mi或辅助变量Xi等。二、不等概率抽样的主要分类不等概率抽样可按多种原则进行分类。鉴于不等概率抽样同时会带来目标量估计及其方差估计的复杂性，为了简化起见，人们常使用放回抽样：每次在总体(或层)中按一定概率抽取一个

5、单元，抽取后放回总体，再进行下一次抽样，每次抽样都是独立的。在另外一些场合，为使抽样的效率更高，也使用多种不放回抽样。其代价是：由于丧失了独立性，无论是抽样方法还是方差估计，都要比放回抽样繁复得多。另一种分类是：视每次抽样(放回抽样的情形)概率或每个单元的入样概率(不放回抽样的情形)是否严格地与单元的大小成比例。另外，看样本量n是固定的还是随机的。最重要的情形乃是当n固定，且上述概率与单元大小严格成比例的不等概率抽样。以后我们将这种情形的放回抽样称为PPS抽样，称相应的不放回抽样为PS抽样。对于不放回抽样，按其样本单元抽取方式的不同又可分为以下几种方法：1逐个抽取法。每次从尚未入样的单元中以一

6、定概率抽取一个单元，这个概率通常与已经入样的单元有关，2重抽法。以一定概率逐个进行放回抽样，若一旦抽到重复单元，则放弃所有已抽到的单元而重新抽取，直到抽到规定单元数且所有入样单元都不同为止。3系统抽取法。将总体单元按某种顺序排列，且将规定的单元入样（或其倍数）累计起来，并确定抽样间隔，在这个范围内产生一个随机数以确定初始入样单元，然后按上述抽样间隔确定其余的样本单元。4全样本方法。对每个可能样本规定一个被抽中的概率，按这个概率一次抽取整个样本。三、不等概率抽样的特点不等概率抽样的主要优点是由于使用了辅助信息，提高了抽样策略的统计效率，与简单随机抽样甚至与分层抽样相比，能显著地减少抽样误差。不等

7、概率抽样有以下的缺点：- 抽样框中的所有单元，都要有高质量的、能用作大小度量的辅助信息；- 抽样框的创建比简单随机抽样和系统抽样成本高，更复杂，因为需要度量和存储总体中每一个单元的大小；- 并非在任何情况下都能使用，因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量；- 抽样及估计（特别对不放回抽样）相当复杂；- 当单元大小度量不准确或不稳定时不适用，此时更好的办法是将单元按大小分组并使用分层抽样。第二节放回不等概率抽样一、多项抽样多项抽样是一种最简单的不等概率抽样。它是从容量为N的总体中有放回地进行独立抽样，每次抽样中，使抽到第i个单元的概率为Zi，i=1，2，N，连续

8、抽n次，从而抽到n个单元。若记为总体中第i个单元在n次抽样中被抽到的次数，显然对每个i都有：，且。作为随机变量（，），它的联合分布即是以下的多项分布：这就是多项抽样这个术语的来源。根据多项分布的性质，有当每个单元具有一个说明其大小或规模的度量时，每个单元在每次抽样中的入样概率与单元大小成比例，称这种特殊的多项抽样为放回的与大小成比例的概率抽样，简称PPS抽样。二、PPS抽样的涵义PPS抽样是与大小（或规模）成比例的概率抽样，是一种使用辅助信息从而使入样概率不相等的抽样技术。如果总体单元的大小或规模变化很大，且这些大小是已知的，这样的信息就可以用在抽样中，以提高统计效率。如果单元大小的度量是准确

9、的，而且所研究的变量与单元的大小相关，PPS抽样能极大地提高精度。但如果大小的度量不大准确，最好按大小分组并使用分层抽样。PPS抽样的入样概率。如上所述，PPS抽样时可取为第i个单元的入样概率，其中是总体中所有单元的“大小”之和，为第i个单元的大小。有时，关于单元的大小只是约略知道或这个“大小”并不是用单元所含的次级单元数来表示的，而是用其它有关尺度来计量。此时，设第i单元大小的计量尺度为，则有：这时的抽样也称作抽样。PPS抽样的一个很好的例子是商业调查，单元大小度量可用雇员数、年销售额、经营场所数等，但这些变量在不同年份发生变化的可能性要大一些。再如农产量调查中单元大小可以用面积进行度量，

10、对于大多数农户，其土地面积在各个年份都是常量。在PPS抽样中，单元的大小决定入样概率的大小。假定一个总体有六个村子，要估计这个总体的总支出。已知每个村子的耕地规模（亩），为说明问题，同时假设已知各村子的支出。下表反映了有关信息：抽样单元：村子抽样框辅助信息：以亩计的村子规模调查变量：支出（元）15026000210004700003125638004300145000550023000062512500合计2000947300对这个总体，真正的总支出为947300元。若只抽1个村子的样本进行调查，按简单随机抽样，每个单元入选的概率为1/6，大小为1的样本有六种可能，其总体总支出的估计值为抽中样

11、本的单元的支出乘以该单元的权数。所有可能的大小为1的简单随机样本样本入样概率样本权数村子的支出（元）总体总支出的估计值（元）样本1（村子1）1/6626000156000样本2（村子2）1/664700002820000样本3（村子3）1/6663800382800样本4（村子4）1/66145000870000样本5（村子5）1/662300001380000样本6（村子6）1/661250075000估计值的平均数947300用简单随机抽样时，总体的估计值随样本的不同而不同，其变化范围从75000元到2820000元。所有可能的大小为1的PPS样本样本村子规模入样概率样本权数村子的支出（元

12、）总体总支出的估计值（元）样本1（村子1）5050/20002000/50260001040000样本2（村子2）10001000/20002000/1000470000940000样本3（村子3）125125/20002000/125638001020800样本4（村子4）300300/20002000/300145000966667样本5（村子5）500500/20002000/500230000920000样本6（村子6）2525/20002000/25125001000000估计值的平均数947300对PPS抽样能得到抽样变异性较小的估计值。从六个可能的样本得到的估计值的变化范围，从最

13、低的920000元到最高的1040000元，比简单随机样本好得多（PPS抽样的入样概率是按村子规模除以所有村子总规模得到的）。本例中假定村子的支出与其规模大小有关，显然这一假定是成立的，否则PPS抽样不会这样有效。如果调查变量与衡量单元大小的辅助变量不相关，PPS抽样可能不比简单随机抽样好（甚至可能更差）。三、多项抽样的实施方法如何抽取一个不等概率样本呢？有三种主要方法：代码法、系统法及随机系统法。以下的讨论以PPS抽样为例，并假定单元大小皆为整数。1代码法(累计和法，随机法或汉森赫维茨法)设不太大，且（或）为第i单元大小的度量，且为整数，对总体中的每个单元计算累计大小，得到总体所有单元代码的

14、累计和，对总体中每个单元确定与它相对应的代码范围；在1到总的累计大小范围内抽取一个随机数，该随机数相应的代码范围中的单元即为入样单元。重复上述步骤，直到抽得n个单元为止。抽样时，单元的代码如下表：单元单元的大小累计代码例如：要从如下表所示的六个单元（村子）中抽三个组成样本，必须在1到2000之间抽三个随机数以得到三个单元。单元大小累计大小代码范围150501-5021000105051-1050312511751051-1175430014751176-1475550019751476-197562520001976-2000假定抽到的随机数是1697、624和1109，则单元5、单元2和单

15、元3被抽中。2拉希里法（二次抽样法）代码法要将累计，在N不太大时是适用的，但当N很大时，就很不方便。此时可用Lahiri（拉希里）1951年提出的方法。令每次抽取一个范围内的随机数及范围内的随机数，若，则第单元入样；否则，重抽。此时，第i个单元的入样概率与成正比，从而。重复这一过程，直到抽够所需的个单元。3系统PPS抽样方法- 对总体中的每个单元，计算累计大小；- 对总体中每个单元确定与它相对应的代码范围；- 确定抽样间隔k=总累计大小/n；- 在1和k的范围内确定一个随机起点r；- 与代码r，r+k，r+2k，r+（n-1）k所在范围相对应的单元入样。注意，当r+（n-1）k超过总累计大小时

16、，应使用圆形系统抽样中的模余数法。4随机系统抽样法在这种方法中，名录在系统抽样前要进行随机排序。如果完全按原来的排序，会把一些可能的样本排除在外。在上面介绍的系统抽样的例子中，不可能把单元3很抽入同一个样本。把名录重新随机排列后会增加潜在的可能抽到的样本数量。实际上这些方法都有些问题。例如，对系统抽样法或随机系统抽样法，一个大小大于抽样间隔的单元，就有重复被抽中的可能。只有把这些大单元放入单独的一个层，并独立地对它们进行抽样，才能克服这个问题。另一个问题是估计值的抽样方差估计比较困难。四、汉森（Hansen）赫维茨（Hurwitz）估计量及其性质对于多项抽样，由于抽样是不等概率的，每个样本单元

17、的观测值就不再是“平等的”，因此对于总体参数的估计与等概率抽样不同。汉森赫维茨提出，如果是按（0）为入样概率的多项抽样抽得的样本指标值，相应的为，则总体总和Y的无偏估计量如下：且若n1，则的无偏估计量为对于PPS抽样，所以有其中是第i个样本单元的观测值，例如商店的年销售额，而是该单元的大小，例如商店的员工人数，则即是第i个商店人均年销售额。对n个取平均即是样本商业网点人均年销售额的平均，将此数乘以，即该地所有商业网点的员工总数，即可获得该地商业销售总额的估计。举例：下表是某系统全部N=36个单位上一年职工人数及当年职工人数的数据，以为单位大小的度量，对单位进行PPS抽样，n=6，估计全系统当年

18、职工总人数Y，并与简单随机抽样做精度比较。某系统各单位职工人数单位号单位号12345678910111213141516171859821630301237214210724322161698157050249772371233526716586331865632733861641145501235177815414865167867403522991714192021222324252627282930313233343536231151722343123512521941491733182045218897218478382552418124333837128121016618934422

19、76317412224251879由已知条件可知，N=36，n=6，。对单位进行PPS抽样，则Y的汉森赫维茨估计的理论方差为而若对单位进行简单随即抽样，同样样本量时Y的简单估计的方差可计算如下：可见，对PPS抽样，估计量的精度显著提高。在实际中是未知的，只有通过抽样才能观测到。下面列出容量为6的4组PPS样本，分别计算Y的估计量并作方差估计。4组样本抽得的单位号码如下：样本一： 4，10，23，11，13， 3样本二： 1，34，18，11，29， 8样本三：12，10，36， 4，24， 4样本四：14， 4，18，28，11，34对每个样本（=1，2，3，4），计算Y的估计量，记为。为方面

20、，令则计算结果如下：样本号12341.0463548193130.015584287.64261.0709013197660.025207465.24641.0490758193630.017742327.46011.0652787196620.019740364.3344注意到不同样本计算的估计量的值相差不大，说明它的方差并不大，但方差估计量的稳定性较差，其中的原因之一是本例中样本量不够大。根据上述4个样本的计算结果还可以获得总体总值Y的综合估计及其方差估计，方法如下：令也可作为的估计。注意在计算时并没有用到的数据，是完全从样本估计量出发的。这提供了一种复杂样本方差估计的方法。第三节放回不

21、等概率抽样一、包含概率与PS抽样放回不等概率抽样实施简单，数据处理也不复杂，在不等概率抽样中占有一定的地位。但是由于放回抽样有可能重复抽到同一单元，特别是个别大单元被重复抽到的可能性比较大，这就在一定程度上影响了样本的代表性，降低了抽样效率，也不易被实际工作者所接受。即使在相同样本量下，放回抽样的精度比不放回抽样的差。因此，我们仍有必要研究不放回不等概率抽样。事实上，由于不放回抽样的样本不是独立的，因此无论是实施还是数据处理，特别是方差估计，都要比放回的多项抽样复杂得多。在放回的不等概率抽样中，每个单元的入样概率起着关键作用。在不放回抽样中，每个单元被包含到样本的概率也即入样概率及任意两个单元

22、都包含到样本的概率都起着十分重要的作用，它们通称为包含概率。对于固定的n包含概率满足以下性质：（1）（2）（3）其中性质1是显然的。性质2是对每个已在样本中的单元而言的，固定了这个特定单元，总体中其它N-1个单元在样本中只可能有n-1个单元，因此其中最后一个等式利用了性质1。性质3则直接利用性质2：与放回的PPS抽样类似，对于不放回不等概率抽样，我们最感兴趣的是与单元大小成比例的情形。若仍记，则由性质1有：以后我们将这种不放回的与单元大小成比例的概率抽样称为PS抽样。严格的PS抽样实施起来非常复杂。事实上，只有当n=2时，才有一些简单且实用的方法。在不放回抽样的情形，如果抽选的单元多于一个，要

23、使入样概率与单元大小成正比以及对调查估计值的误差进行估计都比较复杂。在用不放回PS抽样抽取多于两个单元时，情况就更加复杂。实际上，这仍是一个需要进行认真研究的问题。除了实施方面的原因外，当n大时，的计算也极其困难，而这对于方差估计是不可少的。二、霍维茨汤普森估计量及其性质对不放回的不等概率抽样，总体总和Y的估计采用霍维茨（Horvitz）与汤普森（Thompson）提出的以下估计量：注意这个估计量与多项抽样的汉森赫维茨估计量非常相似。事实上，对于PS抽样，由于，与相应PPS抽样的完全一致。霍维茨汤普森估计量具有如下性质：（1）若，则是Y的无偏估计，且它的方差为：当n固定时，又有（2）若，则是的

24、无偏估计。又当n固定时，以下的耶茨（Yates）格伦迪（Grundy）森（Sen）估计量也是的无偏估计：.需要说明的是的方差估计量不太稳定，有时可能为负值，相对而言，当n固定时，比要稳定一些。三、n=2的严格PS抽样对于PS抽样，由于作为总体总和的霍维茨汤普森估计量的形式相当简单，因此就应用角度来说，是否便利主要在于它的实施方法以及的计算。当n=2时，有几种比较实用的方法（但在具体应用中，n=2并不是一个十分严重的限制）。这些方法常用在对总体分层，在每层中抽取两个样本单元的情况。1布鲁尔（Brewer）方法该方法要求对每个i，都满足，即总体（层）中的最大单元必须小于全部单元大小总和的1/2（若

25、不然可以将这个“特大”单元作为必调查的单元）。两个样本单元采用逐个抽取法抽取：第一个单元按与成比例的概率抽取；第二个单元则在剩下的N-1个单元中按与成比例的概率抽取。此时，则有且可以证明只要所有的，则从而恒为非负数。例：在全国职工生活进步调查中，调查总体是全国县级市以上城市共622个。所用的对城市抽样方法是将所有直辖市、省会城市及计划单列市都作为必调查城市（即每个都构成自我代表层），其余策划能够市按地区（沿海、内地、边远）、城市级别（地级市与县级市）以及职工平均工资水平的高低分成若干小层。在每个小层中用布鲁尔方法抽取两个城市，其中城市规模以市区与近郊区人口数为其度量。下表列出在某假设小层的8个

26、城市中抽取两个样本城市的具体步骤作为说明。i累计累计（j5）12367823451168372027190.0920.1800.0440.2720.1480.0800.1080.0760.10240.23060.04610.43420.17910.08760.12290.08280.10240.33300.37910.81330.99241.08001.20291.28570.0920.2720.3160.588-0.6680.7760.8522501.000D=1.2857表中是城市市区人口数，对的累计总值是1.2857。为抽取第一个样本城市，产生一个0，1范围内的均匀分布随机数，设为0.7

27、61，乘以1.2857得=0.9784，这意味着城市5被抽中。为抽第二城市，将除的其它累计，总值为0.852，产生另一个0，1范围内的均匀分布随机数，设为=0.498，则得=*0.852=0.424，因而城市4即为被抽中的第二个样本城市。2德宾（Durbin）方法两个样本单元仍用逐个抽取法抽取。第一个样本单元以概率抽取，设抽到的是单元i；第二个样本单元则按与成比例的概率抽取。由于此时的，且与布鲁尔方法的相等，因此德宾方法与布鲁尔方法实际上是等价的。应用德宾方法也要求对每个i，都满足。（3）Hanurav方法（4）Narain方法（5）Fellegi方法四、n2的严格PS抽样n2的严格PS抽样要

28、比n=2的情况复杂得多，即使可以实现，的计算也相当复杂。下面仅介绍三种方法。1水野（Midzuno）方法这也是一种逐个抽取方法，关键是第一个样本单元的抽取，它是以概率抽取的。在抽取第一个单元以后，在剩下的N-1个单元中不放回地等概率抽取n-1个单元。可以证明，只要对每个i，有则这种抽样方法就是严格的，且此时为满足，要求总体中的单元大小差异不能太大。如果总体中的单元相差过大，可以通过分层使层内的单元大小相仿。2布鲁尔（Brewer）方法这是n=2的布鲁尔方法在n2情形的推广，也采用逐个抽取法。第一个单元是以与成比例的概率抽取。在第r次抽取时，以与成比例的概率从当时尚未入样的单元中抽取一个单元。可

29、以证明，但此时的计算相当复杂，不过有递推公式可以使用。3拉奥（Rao）桑普福特（Sampford）方法这种方法是先以的概率抽取第一个样本单元，然后以与成比例的概率有放回地抽取n-1个单元（设所有的）。一旦有单元被重复抽中，则放弃所有已经抽到的单元重抽，直到抽中的n个单元都不同为止。这种方法的也比较复杂，需要通过计算机计算。在n=2时，拉奥桑福特方法与布鲁尔方法等价。五、n2的两种非严格的PS抽样当n2时，严格的PS抽样比较复杂，特别是在对包含概率的计算上。为此统计学家研究了一些非严格的PS抽样方法。下面介绍两种：1莫蒂（Murthy）方法此法也是一种逐个抽取方法，实施起来相当方便和自然。第一个

30、样本单元按的概率抽取，设第i个单元入样；第二个样本单元按的概率在其余N-1个单元中抽取，设第j个单元入样；第三个样本单元则按的概率在剩下的N-2个单元中抽取；以此类推，直至抽足n个单元为止。也就是说，每个样本单元都是按与当时未入样的单元大小成比例的概率抽取的。因此从总的就不与严格成比例。由于的值不易计算，因此这种抽样总体总和的估计量就不用霍维茨汤普森估计量。莫蒂提出以下无偏估计量：式中是抽中特定样本S的概率，而则表示在第一次抽样时抽到单元i的条件下抽到S的条件概率。其方差形式如下：其中表示对所有包含单元i，j的样本求和。它的一个无偏估计是：其中表示在前两次抽中单元i和j的条件下抽到样本S的概率。以上计算必须借助计算机才能进行。在n=2时，可以有如下比较简单的形式：2拉奥（Rao）哈特利（Hartley）科克伦（Cochran）方法将总体中N个单元随机地分成n组，每组的单元数为，在每组中按与成比例的概率抽取一个单元作为样本单元。记第g组抽得的单元的指标值为，相应的Z值为，而该组个值之和记为，则第g组的总和的估计是无偏的，因而是总体总和Y的无偏估计。的方差有两个来源，一是由于分组的随机性，二是由于组内的抽样。公式为：由此可见，对于给定的总体，为使估计量的方差小，分组时每组的单元数不能相差过大。事实上，当都相等（若N/n是整数）或只相差1时，达到最小。上述方差的一个无偏估计量是18

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

点击下载此资源

第六章不等概率抽样

最新文档

相关资源

相关搜索

第六章 不等概率抽样

最新文档

相关资源

相关搜索

第六章不等概率抽样