序贯分析在分层随机抽样中的应用

上传人:沈*** 文档编号:72064073 上传时间:2022-04-07 格式:DOC 页数:23 大小:672.01KB
收藏 版权申诉 举报 下载
序贯分析在分层随机抽样中的应用_第1页
第1页 / 共23页
序贯分析在分层随机抽样中的应用_第2页
第2页 / 共23页
序贯分析在分层随机抽样中的应用_第3页
第3页 / 共23页
资源描述:

《序贯分析在分层随机抽样中的应用》由会员分享,可在线阅读,更多相关《序贯分析在分层随机抽样中的应用(23页珍藏版)》请在装配图网上搜索。

1、统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用The Applications of Sequential Analysis in Stratified Random Sampling双湖区统计局康宏二零零九年4月序贯分析在分层随机抽样中的应用摘要样本量的确定是抽样设计中的关键问题,传统的方法总是利用总体方差和调查费用的有关信息来确定样本量,传统方法的不足之处在于有可能产生以下两种问题,其一,样本量估计过低,无法保证希望的的估计精度要求;其二,样本量过大导致调查经费的浪费。序贯分层随机抽样利用已抽取的样本信息,采取逐步逼近的方法,在保证期望精度要求的情况下,采用更小

2、的平均样本量,从而达到节省费用的目的。关键词:分层抽样调查 样本容量 序贯分析 模拟试验The Applications of Sequential Analysis in Stratified Random SamplingAbstractHow to decide the sample size is the key problem in the sampling designing. The traditional way is to decide the sample size by the overall variance and the research fee. The weak

3、ness of the traditional way will generate the following two problems. First, the estimated sample size is inadequate, thus the precision can not be guaranteed. Second, too large sample size will waste a lot of money. Sequential Stratified Random Sampling makes use of the sample information that we h

4、ave known and may obtain a smaller expected sample size while guaranteeing the precision. Then we can save a lot of money.key words: Stratified Sampling, Sample Size, Sequential Analysis, Simulation Experiment 引 言目前,在抽样调查中,一般都采用固定样量的传统抽样方法,固定样本量的抽样方法是经过长期实践的比较成熟的经典抽样方法,但是它也有不足之处,由于样本容量的确定是基于对总体均值与总体

5、方差的前期估计而进行的,正是因为人们对总体的均值与总体的方差的不了解而进行抽样调查的,所以难免会存对总体均值与总体方差估计的误差而影响样本容量的确定。序贯抽样可以间接地避免这种误差。本文就如何将序贯的思想应用到分层随机抽样中及序贯分层随机抽样中确定的最终样本量的性质加以探讨与研究。一抽样调查中样本量的确定问题在抽样调查方案的设计中,样本量的确定是一个至关重要的环节,它决定了能否在预算的约束下真正满足期望的调查的估计精度要求,样本量的大小一般取决于目标总体分布的离散状况(以总体方差表示)、总的调查经费预算(以常数C表示)和单个样本的调查费用(以c表示)、以及要求的精度(以绝对误差d或相对误差r、

6、可靠性1-表示),这里的或c都是未知的,需要借助于一定的途径加以估计。如c的确定可以利用类似调查所得到的经验数据,的确定可以利用历史调查或类似调查的数据。但之所以要进行调查,恰恰是因为没有掌握目标总体足够多的信息,类似调查或历史调查的总体与当前调查的目标总体难免存在某些差距;预调查由于抽取的样本量较少,也不具有足够的说服力。因此,或c的估计量往往存在误差,从而确定的样本量也就无法保证能够满足预定的精度要求。样本量确定过小会使精度要求不能满足,样本量确定过大又会浪费调查经费,难以达到最优的抽样设计。关于最佳样本量的确定问题,在工业产品的验收领域已经得到了有效的处理。除一次抽样外,二次抽样、多次抽

7、样及序贯抽样都是利用从明确定义的总体中抽取出的一部分产品所提供的信息,来决定还需要抽取的样本量,从而保证以平均最小的产品检验数目作出在统计上成立的接受或拒绝的决策判断。这在破坏性的抽样检验中显得尤为重要。社会经济领域的抽样调查与抽样验收在实施目的、依据的理论、操作程序和实施条件等方面都存在着较大差异,前者是为了获得对某个问题较为直观而深刻的理解而对目标总体进行抽样观测,它基于参数估计的理论来建立估计精度,(及可靠性)与样本量之间的关系,只需考虑误拒的风险,利用样本观察结果可以估计、推断总体的特性。后者是为了在产品验收工作中作出科学决策,基于数理统计中的假设检验的理论来作出是否接受产品的判断,它

8、既考虑了误拒的风险,也考虑了误受的风险,从而样本量的确定及结论的得出,显现出更多的复杂性。二者的差异还在于抽样验收中观测与作出判断是同时进行的,而社会经济领域的抽样调查由于总体的分布广泛、实施需要大量的人力、物力的投入,受资源、管理与操作的限制,一般只有在调查完成之后才能对采集到的数据进行统一录入,数据分析与统计推断是调查实施完成以后的一个独立过程。因此,抽样调查一般都采用一次抽样的方法,很少考虑通过多次抽样将前期的抽样结果用于指导后期的抽样过程。二序贯分析在简单随机抽样中应用的现状(一).序贯分析序贯分析(或者说统计中的序贯方法)是数理统计学的一个分支,其名称出于A.瓦尔德在1947年发表的

9、一本同名著作序贯分析,序贯分析的研究对象是所谓的“序贯抽样方案”,及如何利用这种抽样方案得到样本去做统计推断。序贯抽样方案是指在抽样时,不事先规定总的抽样个数(观测或实验次数),而是先抽少量样本,根据其结果,再决定停止抽样还是继续抽样,若继续抽样,抽多少,这样一直下去,直至决定停止抽样为止。而那种事先确定抽样个数的抽样方案,称为固定抽样方案,也就是传统的抽样方法。例如,一个产品的抽样检验方案规定按批抽样品20件,若其中不合格品件数不超过 3,则接收该批,否则拒收。在此,抽样个数20是预定的,是固定抽样。若方案规定为:第一批抽取3个,若全为不合格品,拒收该批,若其中不合格品件数少于3个,则继续抽

10、样,直到不合格品数等于3个或者样本数等于20个,抽样结束,此种抽样方案为序贯抽样。在假设检验、参数估计及更一般的统计决策问题中,序贯分析方法一般有两个组成部分(两个要素):停止法则与判决法则。停止法则告诉我们,在对总体进行逐次观测(或抽样)的过程中何时停止下来;判决法则告诉我们,根据停止时得到的全部数据(序贯)样本对总体应如何作出推断或选择(接受或拒绝一个假设,估计参数等等)。数学上如何描述停止法则与判别法则呢?停止法则的定义如下:独立同分布的随机变量列(与总体X有相同的分布)。称随机变量是停止法则,若只取非负数整数值(但可取值),而且,或,对一切,存在集合(Borel集)使得 ,其意义为:是

11、否大于n仅由,来确定,而与尚未观测的无关,这表明停止法则乃是不依赖于将来的随机变量,当时。表示不进行任何观测(或抽样)。(二).序贯分析在简单随机抽样中的应用Stein在1954年设计了一种二次抽样方法,在满足可靠性(1-)与(L=2d)要求的置信区间下,先抽取容量为的初始样本,计算样本均值与样本方差;利用初始样本统计量计算所需要的最终样本量,记,其中是自由度为的t分布的上分位数,表示取整,L是规定的置信区间长度。如果有,则无需再进行抽样,如果,则再从总体中抽取个单位,根据两次抽样的合并样本计算估计量,其置信区间为。可见二次抽样实际上是以第一次抽样的样本方差作为总体方差的估计来去确定最终所需要

12、的样本量的。但是由初始样本所计算的方差是否能够很好地代表总体方差,就不言而知了,因此这一抽样思路在实际的抽样调查中就很难推行了。实际上序贯抽样是由A.Wald在二次抽样的基础上发展起来的。在简单随机抽样中,在可靠度(1-)下使总体均值的估计量与真实值的相对误差不超过r;总预算约束为C(已扣除固定成本)的精度要求下。通过下面几个步骤来实现的:1确定一个序贯抽样的起始点,当抽取样本量达到时,进入序贯抽样流程。2运用已经得到的个(首次k=1)观测结果来计算样本均值和样本方差分别为和,并有单位调查费用的估计量,其中为第i次访问的成本。3确定符合精度要求的最终样本量为, (1)这里忽略了有限总体的校正系

13、数,表示取整。当时,有,其中是标准正态分布上的分位数;并且随着样本量的不断增加,趋近于常数,因而在不考虑费用因素的情况下,式(1)近似为。4比较与,如果,则结束抽样或调查过程,进行最终的估计推断;如果,则再抽取一定数目(满足,的样本单位进行调查。5重复2)、3)、4)步,直到有,则以作为最终的样本量。三序贯分析在分层随机抽样中的应用(一).实施方案如何将序贯分析的思想运用到分层随机抽样中来,是本文的重点与关键所在。将样本容量为N的总体分成L个不相重迭的子总体,它们的大小分别为,其大小(h=1,2, ,L)皆已知,且。每个子总体都称其为层,在每层中独立地进行抽样,这样的抽样方法称为分层抽样(也叫

14、分类抽样),得到的样本为分层样本,如果每层中都进行随机抽样,则称为分层随机抽样。1容量为N的总体分为L层,容量,总体,第h层的总体均值,第h层的样本均值,第h层的总体方差,第h层的样本方差。2假定各层的抽样比例为,如果分层序贯随机抽样的起始点,令各层应抽取的初始样本数,则实际的分层序贯抽样的起始点,总体均值的估计量,其中层权,总体均值估计量的方差当k1时,总的样本量为,其中总体均值的估计量其中的,总体均值估计量的方差并有单位调查费用的估计量,其中的为第j次抽样第h层第i个单元的调查费用。3符合精度要求的最终样本量 ,其中,当时,为最优配置;特别当时为Neyman配置;其中,当时,有,其中是标准

15、正态分布的上分位数;并且随着样本量不断增加,趋近于常数。因而在不考虑费用因素下,式(1)近似为。4比较与,如果,则结束抽样和调查过程,进行最终的估计推断:如果,则再抽取一定数目(满足,)的样本单元进行调查。5重复2)、3)、4)步,直到有,则以作为最终的样本。需要对此抽样流程中的第4)步加以说明的是:向 有一个逐渐逼近的过程,既不能如同二次抽样那样,在,(k=1)时将确定为(直接逼近),也不必在每次续抽样本单位时,将确定为1进行逐一抽样、逐一计算。原因在于,依据前k次抽样的累积样本计算结果、(或者、所得到的、)并非单调递增数列,而是由抽样的随机性决定的在一定范围内呈现上下波动趋势的数列,随着k

16、值的不断增加,期望可以得到精度不断提高的与的估计量。当k比较小时,第k次抽样后的累计样本尚不能保证和估计的精确度,存在高估的风险,也就有可能远大于真实所需要的最佳样本量,直接导致调查费用的浪费。另一方面,如果,既距离的波动范围尚远,将确定为1进行进行序贯抽样、则降低了分层序贯抽样的效率。确定合适的步长就显得比较重要了。(二).性质探讨在分层序贯随机抽样中,最终样本量显然是一个随机变量,在这里对其性质进行简要的分析,在上述的抽样方案中最终样本量,但最适宜的样本量为,二者是有所区别的,为了分析的简化,令来进行讨论;并假设可以不必考虑调查费用因素。从理论的角度来说的期望与方差为: ) (2) (3)

17、在给定和r(或d)下式(2)与式(3)中的计算都涉及到的分布情况,从而又取决于目标总体的分布情况,但后者的分布一般都是未知的,因此理论的期望与方差公式并不具有实际计算的可行性。 另一方面,已知最终样本量可以表达成的函数。而由辛钦大数定律可知,对有限总体进行放回抽样时,样本k阶矩依概率收敛与总体k阶矩,从而样本方差,依概率收敛于总体方差,也就是说是的一致性估计量;在无放回抽样中,当很大而有限总体校正系数可以忽略时,也可以认为是的一致性估计量。因此,随着抽样过程的延续,样本量不断增加,各层样本方差对本层总体方差估计的精确度不断提高,;当时,由所有抽取样本计算的是在诸多各层总体方差的估计量(包括,以

18、及传统抽样调查中通过其他途径所估计的中期望精度最高的。由此可以认为,最终样本量是对期望样本量的一个有效近似,与传统抽样调查中样本量的确定方法相比,它能保证最少的费用满足预先的精度要求。四序贯抽样的模拟试验与实例效果的检验(一)序贯简单随机抽样与序贯分层随机抽样的模拟试验本文在3.2节对最终样本量的性质进行了理论的推导,但由于其期望、方差的计算涉及到的分布情况,其分布情况又是未知的,因此,理论的期望与方差公式不具有实际计算的可行性;在3.3节中对序贯简单随机抽样与序贯分层随机抽样优劣情况进行了理论的探讨,但觉得不够明晰、充分。下面将利用SAS统计软件通过模拟试验的方法对其性质做进一步的探讨与研究

19、。在实际工作中抽样的客体指标数据主要是来自正态分布总体、二项分布总体、指数分布总体等,所以,此次试验中也分别以正态分布、二项分布、指数分布做为总体数据的来源进行随机模拟试验。下文就模拟试验的具体步骤做一简要的说明:1分别产生来自正态分布、二项分布、指数分布的随机数各1000个,鉴于分层抽样的需要,在各总体中又分为同分布不同参数的四层,各层放入数据量为250个,模拟抽样总体的参数如表1所示,分别是不同分布类型的总体均值与总体标准差,同种分布类型不同层次的均值与标准差。表1 模拟总体参数列表 Table 1 Simulation of the whole list of parameters N=

20、1000, 正态均值标准差二项均值标准差指数均值标准差均值4.9710.963均值0.4480.498均值0.3810.3445.6065.4050.9680.6680.8560.3580.2340.2460.258标准差5.8620.952标准差0.7120.454标准差0.1970.2061.0666.1870.9670.4710.6560.4760.2600.1640.1722根据序贯简单随机抽样与序贯分层随机抽样的实施方案进行随机模拟抽样,产生最终样本量样本单元,结合分布类型与抽样类型,共有6种类型的序贯随机模拟抽样,每种序贯随机模拟抽样各重复进行1000次,每种序贯随机模拟抽样得到样

21、本容量为1000的最终样本量的样本总体,抽样精度取相对误差r=0.05,序贯抽样的步长全部为4。需要说明的是在各种不同类型的序贯模拟抽样中选取相同的数据量只是为了使其分析更加明确、更加有效。表 2 最终样本量模拟性质列表 Table 2 The final samples size of simulated nature the list 序贯抽样期望值模拟均值模拟标准差变异置信区间(95%)正态总体简单52.72254.34811.2690.20732.26 ,76.44分层43.44145.27811.2810.24923.17 ,67.39二项总体简单433.848434.52919.7

22、010.045395.92,473.14分层409.773411.37419.8290.048372.51,450.24指数总体简单656.218657.30519.9730.030618.16 ,696.45分层643.388645.22319.9910.030606.04 ,684.41 684.41 3模拟中有三种分布类型,两种抽样方法,共计六组序贯模拟抽样,表中的期望值、模拟均值、模拟标准差、变异系数、置信区间等统计量都是针对序贯模拟抽样的模拟最终样本量而得到的。在正态分布总体中根据抽样总体数据,在序贯简单随机模拟抽样下计算的最终样本量52.722大于序贯分层随机模拟抽样下计算的最终样

23、本量43.441;序贯简单模拟随机抽样的模拟最终样本量的模拟均值54.348大于序贯分层随机模拟抽样的模拟最终样本量的模拟均值43.441;序贯简单随机抽样的模拟最终样本量的模拟标准差11.269小于序贯分层随机模拟抽样的模拟最终样本量的模拟标准差11.281;序贯简单随机模拟抽样的模拟最终样本量的模拟变异系数0.207小于序贯分层随机模拟抽样的模拟最终样本量的模拟变异系数0.249;序贯简单随机模拟抽样的最终样本量的模拟区间为 32.26,76.44,序贯分层随机模拟抽样的模拟最终样本量的模拟区间为 23.17,67.39,由于两种抽样方法的模拟最终样本的模拟方差标准差不大,所以模拟最终样本

24、量的模拟置信区间的区间长度同样也相差不大。在二项分布总体中根据抽样总体数据,在序贯简单随机模拟抽样下计算的最终样本量433.848大于序贯分层随机模拟抽样下计算的最终样本量409.773;序贯简单模拟随机抽样的模拟最终样本量的模拟均值434.529大于序贯分层随机模拟抽样的模拟最终样本量的模拟均值411.374;序贯简单随机抽样的模拟最终样本量的模拟标准差19.701小于序贯分层随机模拟抽样的模拟最终样本量的模拟标准差19.829;序贯简单随机模拟抽样的模拟最终样本量的模拟变异系数0.045小于序贯分层随机模拟抽样的模拟最终样本量的模拟变异系数0.048;序贯简单随机模拟抽样的最终样本量的模拟

25、区间为395.92,473.14,序贯分层随机模拟抽样的模拟最终样本量的模拟区间为372.51,450.24,由于两种抽样方法的模拟最终样本的模拟标准差相差不大,所以模拟最终样本量的模拟置信区间的区间长度同样也相差不大。在指数分布总体中根据抽样总体数据,在序贯简单随机模拟抽样下计算的最终样本量656.218大于序贯分层随机模拟抽样下计算的最终样本量643.388;序贯简单模拟随机抽样的模拟最终样本量的模拟均值657.305大于序贯分层随机模拟抽样的模拟最终样本量的模拟均值645.223;序贯简单随机抽样的模拟最终样本量的模拟标准差19.973小于序贯分层随机模拟抽样的模拟最终样本量的模拟标准差

26、19.991;序贯简单随机模拟抽样的模拟最终样本量的模拟变异系数0.03等于序贯分层随机模拟抽样的模拟最终样本量的模拟变异系数0.03;序贯简单随机模拟抽样的最终样本量的模拟置信区间为618.16,696.45,序贯分层随机模拟抽样的模拟最终样本量的模拟置信区间为606.04,684.41,由于两种抽样方法的模拟最终样本的模拟标准差相差不大,所以模拟最终样本量的模拟置信区间的区间长度同样也相差不大。从上面的模拟试验结果不难得出以下几点结论:其一,大量重复模拟试验的结果显示序贯分层随机抽样是一种有效的、可靠的抽样方法,最终样本量(抽样样本量)的拟合程度较高,本模拟试验结果中拟合值略大于期望值,在

27、序贯抽样的理论体系中,只有当时才能停止抽样。如果已抽单元能够充分代表抽样总体,那么所确定的最终样本量就明显的大于期望样本量,而在此模拟试验中步长统一为4,而模拟样本均值与期望值之差都小于4,因此,本文认为这样的模拟结果是可以接受的,是合理的。其二,模拟试验的结果显示,序贯分层随机抽样所确定最终样本量小于序贯简单随机抽样所确定的最终样本量,而本模拟试验在选择总体时就有意地使其层间差异大于层内差异。这也验证了分层出抽样的性质结论:当层内差异小于层间差异时,序贯分层随机抽样优于序贯简单随机抽样。其三,从不同抽样总体下的模拟序贯简单随机抽样与序贯分层随机抽样所得到的最终样本量的变异系数相差不大,说明序

28、贯分层随机抽样与序贯简单随机抽样得到的最终样本量的稳健性是一样的。在可以确定层间差异大于层内差异的情况下,有更充分的理由选择序贯分层随机抽样。(二).序贯分层随机抽样的实例效果的检验为了对序贯分层随机抽样下最终样本量的性质做更进一步探讨与最终样本量确定效果的检验,本文利用实际调查所得到的数据再次实施模拟抽样过程,总体为1295位大学辅导员的住房情况。以年龄作为分层指标,其各层层权分别,;其各层均值分别为,;其各层标准差分别为,(这些结果在调查之前是未知的)要求在95%的可靠性下对估计的误差不超过10%。通过300次模拟序贯分层随机抽样,得到了300个最终样本量,其频数分布如下茎叶图所示15 图

29、1 最终样本量茎叶图Figure 1 The final samples zise of Stem and leaf display上图为的频数分布图,可以间接地了解最终样本量的分布情况。最终样本量的模拟均值, 最终样本量的标准差为16.920,根据标准化后的近似正态分布求的置信水平为95%的置信区间为(297.298,363.624),包含了根据总体数据所计算的分层随机抽样的最终样本量=328.998;而通过序贯简单模拟随机抽样所得到的最终样本量的模拟均值为351.632,模拟方差为17.9733。可见,在分层恰当的情况下,序贯分层随机抽样是优于序贯简单随机抽样的;以住房情况相关性不大的指标

30、政治面貌作为分层指标,根据抽样总体计算的最终样本量则为400.025,明显的大于根据相关性较强的年龄作为分层指标所计算的最终样本量,可见,在序贯分层随机抽样中,分层指标的选取也是一个相当重要的环节,直接影响着最终样本量的大小,由此也就影响了序贯分层随机抽样效率的高低。 五应用展望通过对来自多种分布总体数据的随机模拟试验与已调查数据的实例检验可以得出,序贯分层随机抽样是有效、可靠、经济的一种抽样方法,可以达到保证期望精度要求的情况下实现样本量的最小。同时,最终样本量的各种统计性质也是比较理想的。经过理论的推导与模拟试验,不难发现,在进行序贯简单随机抽样与序贯分层随机抽样的过程中,初始样本量与逼近

31、的速度的选择直接影响着序贯抽样效率的高低,因此,在这里就这两个量的选择提出本文的见解与思考。其一,初始样本量,第一次抽样时所抽取的样本单元个数,也就是说在抽取了多少个样本单元之后进入序贯抽样程序,如果选择的过小,则浪费一定的抽样资源,降低了序贯抽样的效率;如果选择的过大,超过了最终样本量的期望值则失去了序贯抽样的机会。本文认为初始样本量的确定可以根据类似调查或历史数据对最终样本量加以估计的情况下再做确定,其中是最终样本量的估计值。其二,逼近的速度即的选择,,),本文认为逼近速度的确定可以在的值比较大的情况下选取的比较大一些,但一般不要超过0.5;而在的值比较小的情况下,相应的取值比较小一些,以

32、便提高模拟最终样本量与期望最终样本量的接近程度。从而提高抽样效率与抽样精度。附 录模拟程序:21 libname libC:Documents and Settingskang桌面论文程序分层正态分布逻辑库;data lib.a1;do i=1 to 250;array mm1,2x nub;mm1,1=5+sqrt(1)*rannor(0);mm1,2=i;output;end; run;proc means; var x; run; data lib.a2;do i=251 to 500;array mm1,2x nub;mm1,1=5.4+sqrt(1)*rannor(0);mm1,2=

33、i;output;end; run;proc means; var x; run; data lib.a3;do i=501 to 750;array mm1,2x nub;mm1,1=5.8+sqrt(1)*rannor(0);mm1,2=i;output;end; run;proc means; var x; run; data lib.a4;do i=751 to 1000;array mm1,2x nub;mm1,1=6.2+sqrt(1)*rannor(0);mm1,2=i;output;end;data lib.new;length w 8;length n11111 8;run;

34、%macro diaoyong;data lib.shengyu11;set lib.a1;data lib.shengyu12;set lib.a2;data lib.shengyu13;set lib.a3;data lib.shengyu14;set lib.a4;run;%mend diaoyong;%macro xunhuan1;data b1;set lib.shengyu11;proc surveyselect NOPRINT data=b1 method=srs n=2 out=lib.yangbenhe11; run;data _k_;set lib.yangbenhe11;

35、y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu11 _g_;data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu11;set _rem_;run;data b2;set lib.shengyu12;proc surveyselect NOPRINT data=b2 method=srs n=2 out=lib.yangbenhe12; run;data _k_

36、;set lib.yangbenhe12;y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu12 _g_;data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu12;set _rem_;run;data b3;set lib.shengyu13;proc surveyselect NOPRINT data=b3 method=srs n=2 out=lib.yang

37、benhe13; run;data _k_;set lib.yangbenhe13;y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu13 _g_;data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu13;set _rem_;run;data b4;set lib.shengyu14;proc surveyselect NOPRINT data=b4 method

38、=srs n=2 out=lib.yangbenhe14; run;data _k_;set lib.yangbenhe14;y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu14 _g_;data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu14;set _rem_;run;%mend xunhuan1;%macro xunhuan;data b1;set lib

39、.shengyu11; proc surveyselect NOPRINT data=b1 method=srs n=1 out=lib.yangben11;run; data lib.yangbenhe11; set lib.yangbenhe11 lib.yangben11; data a10;set lib.yangbenhe11;proc means NOPRINT; var x; output out=mean mean=m11 n=l11 std=v11 ;run;data lib.aa11;merge mean ;data _k_;set lib.yangben11; y=nub

40、;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu11 _g_; data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu11; set _rem_;run;data b2;set lib.shengyu12; proc surveyselect NOPRINT data=b2 method=srs n=1 out=lib.yangben12;run; data lib.yan

41、gbenhe12; set lib.yangbenhe12 lib.yangben12; data a20;set lib.yangbenhe12;proc means NOPRINT; var x; output out=mean mean=m12 n=l12 std=v12 ;run;data lib.aa12;merge mean ;data _k_;set lib.yangben12; y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu12 _g_; data _rem_;set _re_;data _rem_;set

42、 _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu12; set _rem_;run;data b3;set lib.shengyu13; proc surveyselect NOPRINT data=b3 method=srs n=1 out=lib.yangben13;run; data lib.yangbenhe13; set lib.yangbenhe13 lib.yangben13; data a30;set lib.yangbenhe13;proc means NOPRINT; va

43、r x; output out=mean mean=m13 n=l13 std=v13 ;run;data lib.aa13;merge mean;data _k_;set lib.yangben13; y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu13 _g_; data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu13; set _rem_;run;data

44、 b4;set lib.shengyu14; proc surveyselect NOPRINT data=b4 method=srs n=1 out=lib.yangben14;run; data lib.yangbenhe14; set lib.yangbenhe14 lib.yangben14; data a40;set lib.yangbenhe14;proc means NOPRINT; var x; output out=mean mean=m14 n=l14 std=v14 ;run;data lib.aa14;merge mean ;data _k_;set lib.yangb

45、en14; y=nub;data _g_;set _k_;drop nub;data _re_;merge lib.shengyu14 _g_; data _rem_;set _re_;data _rem_;set _re_;modify _rem_;do i = 1 to 250;if i=y then remove ;end;data lib.shengyu14; set _rem_;run;data lib.aa;merge lib.aa11 lib.aa12 lib.aa13 lib.aa14;w=l11+l12+l13+l14;w1=250/1000;w2=250/1000;w3=2

46、50/1000;w4=250/1000;M=w1*m11+w2*m12+w3*m13+w4*m14;t=tinv(0.975,w-4);V=(0.1*M)*2/t*2;n1111=(1/V)*(w1*v11*2+w2*v12*2+w3*v13*2+w4*v14*2);n11111=n1111/(1+n1111/1000);call symput(n111,n11111);call symput(l11,w);run;%mend xunhuan;%macro panduan(n111,l11);%do %while(&l11&n111);%xunhuan;%end;proc iml;use li

47、b.aa varw,n11111 ;read all into aa;edit lib.new var _all_;append from aa;quit;%mend panduan;%panduan(n111,l11);%macro zong;%do l=1 %to 1000 %by 1;%diaoyong;%xunhuan1;%panduan(n111,l11);%end;%mend zong;%zong;run;data jj;set lib.new ;proc univariate plot normal; var w ;run; 参考文献1 陈家鼎 序贯分析 北京大学出版社 1995年2 梁小筠、祝大平 抽样调查的方法和原理 华东师范大学出版社 1998年3 朱世武 SAS编程技术教程清华大学出版社 2007年4 曲庆云、赵小梅、阮桂海 统计分析方法SAS实例精选5 Blackwell,D. Discounted dynamic programming ,Ann.Math.Statist 19656 K.M Woter Introduction to Variance Estimation 19867 金勇进、王华 序贯分析在计算机辅助电话调查中的应用 数理统计与管理2006年第6期

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!