抽样调查基本原理

上传人:jin****ng 文档编号:193614482 上传时间:2023-03-11 格式:DOCX 页数:15 大小:65.24KB
收藏 版权申诉 举报 下载
抽样调查基本原理_第1页
第1页 / 共15页
抽样调查基本原理_第2页
第2页 / 共15页
抽样调查基本原理_第3页
第3页 / 共15页
资源描述:

《抽样调查基本原理》由会员分享,可在线阅读,更多相关《抽样调查基本原理(15页珍藏版)》请在装配图网上搜索。

1、第二章 抽样调查基本原理第一节 有关基本概念一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总 体的每个个体叫做单位。总体可以是有限的,也可以是无限的。如果总体中所包含个体的数目为有限多个,则该 总体就是有限总体,反之是无限总体。总体也可区分成计量总体(由测量值组成的)和计数总 体(由品质特征组成的)。在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部 分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的, 而且是已知的,因此说抽样调查的总体总是有限的。抽样单元又有大小之分,一个大的抽样 单元可以分成若干个小的

2、抽样单元,最小的抽样单元就是每一个个体。如一项全国性的调查, 如果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等。 又如在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征 的综合指标称为总体参数。常见的总体参数主要有:1. 总体总和Y:例如全国人口数。Y=Eyi=y!+y2+yN2. 总体均值Y :例如职工平均工资。Y =Y/N=E y /Ni3. 总体比率R:是总体中两个不同指标的总和或均值的比值。如总收入与总支出之比。R=Y/X= Y /X4总体比例P:是总

3、体中具有某种特性的单元数目所占比重。如产品的合格率。二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n 维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。样本是总体的缩影,是总体的代表。抽样的效果好不好,依赖于样本对总体是否有充分 的代表性。样本的代表性愈强,用样本指标对总体全面特征的推断就愈精确,即推断的误差 就愈小;反之,如果样本的代表性愈弱,推断的误差就愈大,推断结果就愈不可靠。如何增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表 性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面:(1)

4、总体标志值分布的离散程度。若总体标志值的分布很集中,即平均离散程度(标准差) 很小,从中任抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强;反之, 如果标志值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必 将影响样本的代表性。(2)抽样单元数的多少(或称样本容量的大小)。抽样单元数的多少,影响样本对总体的 代表性。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一 定可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益。(3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样,或 重复抽样。它是在总体 N 个

5、单元中随机抽取 n 个单元时,每次抽取一个单元进行记录后又放 回原来的总体,参加下一个单元的抽取,即下一个单元仍然在原来的全部抽样单元中抽取, 依此类推,直到抽足所需单元数为止,因而同一个抽样单元有被重复抽中的可能。不放回抽 样也叫不重置抽样,或不重复抽样。它是在每次抽取一个新的单元之前,将已抽中的单元不 再放回原来的总体,下一个单元的抽取在剩余的抽样单元中进行,依次类推,直到抽足所需 单元数为止,因而每个抽样单元最多只能被抽中一次,不可能重复被抽中。放回抽样与不放回抽样相比,不放回抽样的样本代表性优于放回抽样。因为放回抽样中, 有些单位有被重复抽取的可能,从而使样本单元数在总体中的散布面缩小

6、,样本的代表性减 弱,故在实际工作中常采用不放回抽样。有鉴于此,在本书以后内容中,如没有特别的声明, 则一般只涉及不放回抽样。理解了不放回抽样的方法及有关内容,也就容易理解和掌握放回 抽样的方法。以上三种影响因素中,第一个因素即离散程度的大小,是由事物内部和外部联系决定的, 是客观性的因素,人们只能认识了解,不能调节控制。第二、三两因素是人们可以选择和控 制的,为主观因素,只要掌握和控制了这两个因素,在一定程度上,人们也就能控制样本的 代表性,以期达到抽样数目尽可能小,使估计和推断结论达到预定的精确程度和可靠程度的 要求。另外,等概率抽样与不等概率抽样相比,以不等概率抽样的样本代表性较等概率抽

7、样 为好。一般将反映样本数量特征的综合指标称之为统计量。统计量是 n 元样本的一个实值函 数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:1. 样本总和 y:y=Eyi=yi+y2+yn2. 样本均值y:y =y/n= E y /ni3. 样本比率r:r=y/x= y/x4. 样本比例p:是样本中具有某种特性的单元数目所占比重。三、必要样本容量和样本可能数目 样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小(后面还要进一步 讨论关于必要样本容量的问题)。总体中所含抽样单元个数称为总体容量,样本容量与总体 容量之比为抽样比,用f表示,即f=n/N。样本可能数目

8、则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。用A表示。当N和n 定时,A的多少与抽样方法有关,其计算方法列表如下:抽样方法放回抽样不放回抽样考虑顺序A = Nn人DN!A = Pn =N(N - n)!不考虑顺序A = CnN+n-1A = Cn =N!nn!( N - n)!正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽 样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。四、抽样框抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记 录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元

9、都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。在与时间有关的调查中, 也可以按时间先后顺序排列总体中的单元,这样得到的抽样框称为时序抽样框。抽样框是设 计实施一个抽样方案所必备的基础资料,一旦某个单元被抽中,也需依抽样框在实际中找到 这个单元,从而实施调查。编制抽样框是一个实际的、重要的问题,因此必须要认真对待。一般而言,如果总体中 的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单 就是一个完备的抽样框。在完备的抽样框中,每个元素必须且只能同一个号码对应。但是, 在实际中,完备的抽样框是很少见的,我们常常可能必须使用一些有严重缺陷的抽

10、样框,而 又必须发现这些缺陷并加以补救,在这一过程中,可以充分体现出抽样的艺术性。常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全; (2)多个元素对应一个号码;(3)空白(一些号码没有与之对应的元素)或存在异类元素;(4) 重复号码,即一个元素对应多个号码。抽样框存在缺陷时,我们首先想到的是如何去避免上述问题:如果已知由这此问题引 起的误差比其他原因产生的误差小,并且纠正起来又花费太大的话,可以忽略不管,但在描 述样本时,应对此加以说明;重新定义总体以适应抽样框;改正整个总体清单,也即找 出全部缺失元素、分开每一个群、清除所有的空白和异类元素、删掉重复号码。当上

11、述方法 不能有效利用时,就应该采取其它一些补救措施来抵消抽样框中存在的缺陷。对此问题的进 一步讨论将在第十一章进行。第二节 样本统计量的抽样分布标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本 然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何? 为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧 扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高 斯分布、常态分布。服从正态分布的总体称为正态总体

12、。正态分布是由德国数学家高斯(Carl Friedrich Gauss 17771855)首先发现的,故此 得名。一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为: 如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为:11( x-p )2f (x)二e-2( o),( - g X g )式中:M和0 2分别为随机变量X的数学期望和方差,n 3.1416, e为自然对数的底,e2.7183。当p =0,0 2=1时,称该分布为标准正态分布。标准正态分布的密度函数为f (x) = -= e2“,( - g x2)3、F 分布若XX 2 (n1), YX

13、2 (n2),且X与Y相互独立,则称随机变量X /nX nF =1 =Y /nY n21服从第一自由度为气,第二自由度为气的F分布,记作:F卩(气,气)。 如果X卩(片,气),则其概率密度函数为0,n + n厂()f (x)= 0)的概率趋近于1。这就是抽样估计的一致性。3、有效性 用抽样指标估计总体指标要求作为优良估计量的方差应该比其他估计量的方差小。即 用抽样平均数和总体某一变量来估计总体平均数,虽然两者都是无偏估计量,而且在每一次 的估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周 围,平均说来它的离差比较小,所以对比而言,抽样平均数是更为优良的估计量。1n2G2(nG 2)=-n由于样本变量和总体变量是同分布的,依方差性质可知:V( y)= G 2n 2ii=1故v(y)2所以,用抽样平均数估计总体平均数比用总体的变量x估计总体平均数更为有 效。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!