抽样设计(调查)

上传人:陈** 文档编号:191758571 上传时间:2023-03-04 格式:PPTX 页数:118 大小:1.93MB
收藏 版权申诉 举报 下载
抽样设计(调查)_第1页
第1页 / 共118页
抽样设计(调查)_第2页
第2页 / 共118页
抽样设计(调查)_第3页
第3页 / 共118页
资源描述:

《抽样设计(调查)》由会员分享,可在线阅读,更多相关《抽样设计(调查)(118页珍藏版)》请在装配图网上搜索。

1、第五章第五章 抽样设计抽样设计 S A M P L I N G D E S I G N 授课老师:陆 娟 汇 报 人:王 丹 江月朋学习目标学习目标l学习抽样设计原理及相关概念学习抽样设计原理及相关概念l确定符合实际的抽样调查方式确定符合实际的抽样调查方式l掌握抽样设计的具体程序步骤掌握抽样设计的具体程序步骤l了解抽样误差形成及计算方法了解抽样误差形成及计算方法l学习确定样本容量的具体规则学习确定样本容量的具体规则内容提要内容提要l1)1)抽样调查概述抽样调查概述l2)2)抽样方案设计抽样方案设计l3)3)概率抽样方法概率抽样方法l4)4)非概率抽样方法非概率抽样方法l5)5)抽样误差抽样误差

2、l6)6)样本量确定样本量确定5.1 5.1 抽样调查抽样调查(Sampling Survey)概述概述5.1.15.1.1抽样调查的概念、意义及特征抽样调查的概念、意义及特征l抽样(抽样(SamplingSampling)是指从一个较大的群组(范围或者总体)的一个子集(样本)获得信息的过程。它包括随机抽样(概率抽样,probabilityprobability)及非随机抽样(非概率抽样,non-probabilitynon-probability)l抽样调查的意义:抽样调查的意义:抽样调查做为科学研究方法中重要技术之一,旨在就所要研究的某特定现象之总体中,抽取一部份作为样本,以其为研究总体之

3、依据。将样本研究结果,在抽样信赖水准内,推算总体的可能特性,并以其为决策之参考。从概念中可得知其特征:从概念中可得知其特征:l抽样调查对象只是作为样本的一部分单位,不是全部单位,也不是个别或少数单位。l从总体中抽选出的样本对调查总体应具有一定的代表性。l抽样调查的目的是根据样本的调查结果去推测总体,达到认识总体特征。l样本特征与总体特征之间只能是一个近似情况,二者间存在着必然的差异,但这种差异可以计算和控制。5.1.2 5.1.2 抽样调查优缺点比较抽样调查优缺点比较l普查普查(census)与抽样调查相对应,普查是指对有关总体的每一个单位进行逐一的、普遍的、全逐一的、普遍的、全面的面的调查。

4、市场普查可以获得全面准确的信息资料。适用于不常进行调查领域的信息资料收集。l普查局限性:普查局限性:耗费时间长,时效性差、费用昂贵 l抽样调查既克服了普查的组织困难、费用高、时间长的缺点,也克服了重点调查和典型调查的主观随意性和样本代表性不强的弱点,具有较强的代表性和科学性。是比较客观和科学的一种调查技术。抽样调查的优点抽样调查的优点节约、高效、准确、适应节约、高效、准确、适应l节约:节约:样本单位数量是直接影响调查成本的关样本单位数量是直接影响调查成本的关键因素键因素,样本量越多,获取和分析数据的成本越高,由于人力、物力、财力和时间有限,全面调查在一些研究中无法进行,而抽样调查在实践中更容易

5、实现。l高效:高效:有些调查对时效性要求很强,与全面调查相比,抽样调查所调查的单元少,数据采集及汇总工作量较小,可以更快的提供调查结果。l准确:准确:抽样调查只调查总体中的一小部分,从而减少了在人员登记、主观影响及监督检人员登记、主观影响及监督检查查方面的误差。调查由少数优秀人员施予特殊训练并配合特殊设备进行,利用抽样技术及机率理论,可得到较深入且质量更高的调查结果。l适应:适应:全面调查适用于有限总体的调研,而大多数时候,总体量的把握并不能达到完全精确和有限。另外抽样调查还可作为已有数据的验证。因此在实地市场调查中,抽样调查是不可或缺之工具。抽样调查的缺点抽样调查的缺点l它通常只能提供总体的

6、一般资料,而缺少详细的分类资料,在一定程度上难以满足对市场经济活动分析的需要。l抽样调查存在难以计算和解释的结果,其不精确性会导致抽样误差。小知识小知识 现代抽样方法的先驱现代抽样方法的先驱盖洛普盖洛普 l“一种客观测量报刊读者阅读兴趣的新方法”是乔治盖洛普在艾奥瓦大学写博士论文时用的题目。通过对“Des Moines Register and Tribune”和瑞士数学家雅克布贝努里具有200年历史的概率统计理论的研究,盖洛普在抽样技术领域取得了进展。他指出当抽样计划中的调查对象涵盖广泛,涉及到不同地域、不同种族、不同经济层次的各种人时,你只需随机抽取而无需采访每个人。尽管当时他的方法不能为

7、每个人理解和认同,但现在,这已被广泛使用。l盖洛普通常引出一些特例来解释他自己在说什么或做什么。假设有7000个白豆子和3000个黑豆子十分均匀地混合在一起,装在一个桶里。当你舀出100个时,你大约可以拿到70个白豆子和30个黑豆子,而且你失误的机率可以用数学方法计算出来。只要桶里的豆子多于一把,那么你出错的机率就少于3%。l30年代早期,盖洛普在全国很受欢迎。他成为Drake大学新闻系的系主任,然后转至西北大学。在此期间,他从事美国东北部报刊的读者调查。1932年夏天,一家新的广告代理商电扬广告公司,邀请他去纽约创立一个旨在评估广告效果的调查部门,并制定一套调查方案。同年,他利用他的民意测验

8、法帮助他的岳母竞选艾奥瓦州议员。这使他确信他的抽样调查方法不仅在数豆子和报刊读者调查方面有效,并有助于选举人。只要你了解到抽样范围具有广泛性,白人、黑人,男性、女性,富有、贫穷,城市、郊区,共和党、民主党,只要有一部分人代表他们所属的总体,你就可以通过采访相对少的一部分人,来预测选举结果或反映公众对其关心问题的态度。盖洛普证实,通过科学抽样,可以准确地估测出总体的指标。同时,在抽样过程中可以节省大量资金。*Gallup,GeorgeHoraceGallup,GeorgeHorace,(19011984)(19011984)是美国数学家,抽样调查方法的创始人、民意调查的组织者是美国数学家,抽样调

9、查方法的创始人、民意调查的组织者 5.1.3 5.1.3 抽样调查适用范围抽样调查适用范围l对一些不可能或不必要进行全面调查的社会经济现象,最宜用抽样方式解决。如:破坏或损坏性的产品质量检验:轮胎耐磨性如:破坏或损坏性的产品质量检验:轮胎耐磨性 如顾客满意度调查如顾客满意度调查l在经费、人力、物力和时间有限的情况下,采用抽样调查方法可在节省费用,争取时效的前提下达到满意的调查效果。l对全面调查进行验证。全面调查涉及面广、工作量大、花费时间和经费多,组织起来比较困难。但调查质量的检查验证,无法再次用全面调查方式进行。l可运用于企业管理,尤其是产品质量管理。5.1.4 5.1.4 抽样调查核心问题

10、及原则抽样调查核心问题及原则l调查核心调查核心选好样本选好样本:样本准确估计总体的要诀就在于选择哪些个体作为样本进行估算,所以以科学的方式选择样本,以确保其代表性(可作为总体的缩影)是至关重要的。l结论:结论:构成总体的主要类型在样本中的比例越与他们在较大总体中的比例接近,其代表性越好。抽样应遵循的基本原则抽样应遵循的基本原则l抽样调查基本目的在于通过信息搜集形成结论以供决策参考。因此有效抽样调查应具有下几点原则:l有效原则有效原则 抽样调查应该符合调查目的之需要 所获信息价值应超过所支付成本。l可测量原则可测量原则抽样的正确程度必须能够测量,否则抽样调查就失去意义。l简单原则简单原则抽样调查

11、必须保持简单性要求,使抽样调查顺利进行,以避免不必要之节外生枝。5.1.5 5.1.5 抽样调查涉及的基本术语概念抽样调查涉及的基本术语概念 总体和样本总体和样本 重置抽样与不重置抽样重置抽样与不重置抽样 总体指标和抽样指标总体指标和抽样指标抽样误差与非抽样误差抽样误差与非抽样误差 精度与费用精度与费用指标与标志指标与标志抽样框与抽样单元抽样框与抽样单元l全及总体全及总体:简称总体(population)或母体,抽样中的“总体”与“范围”、“母群”均指所调查研究对象的全体,它由若干个相同性质的调查单位所构成,其单位数体现了其容量,用N N表示。按照总体容量大小,我们可将总体分为:按照总体容量大

12、小,我们可将总体分为:有限总体有限总体:总体单位数有限,可进行全面调查和抽样调查 无限总体:无限总体:总体单位数无限不可数,只能进行抽样调查l柯赫伦(W.G.Cochran):凡样本单位数占总体单位数5%以上的可视为有限总体,不够5%就按无限总体处理。即:即:n/N5%n/N5%有限总体;有限总体;n/Nn/N5%5%无限总体。无限总体。l样本样本:总体中被选择调查的对总体具有代表性的个体的集合。其单位数体现了其容量,用n n表示。l总体是所要研究的对象,样本是所要观察的总体是所要研究的对象,样本是所要观察的对象对象。例:例:从北京市所有居民户中抽取1500户进行生活质量调查,则抽中的居民户就

13、组成了一个样本。l指标:指标:是用来说明总体数量特征的基本概念和具体数值。指标都可以用数值表示出来。例如:例如:2006年10月我国职工工资总额是万元,这句话包括了以下几个指标要素:基本概念-职工工资;具体数值-万元;空间限制-我国;时间限制-2006年10月l标志:标志:用来说明个体特征名称,如个人年龄、性别、职业等。标志可以是数量标志也可以是质量标志。1.用数量来加以反映的,叫数量标志,有标志值。如:年龄、收入年龄、收入等;2.不可以用数值来加以反映的,叫品质标志。如:职业、职业、性别性别等。他们虽然可以用1,0来表示,但它只是一种代号,不代表数值。l总体指标总体指标总体参数总体参数(Pa

14、rameters)是描述总体特征的综合指标,用表示。指标是未知的,需推断的。常用的总体指标:总体平均数 、总体成数 P P、总体标准差(p p)l抽样(样本)指标抽样(样本)指标统计量统计量(Statistics)是描述样本特征的综合指标,用 表示。用来推断总体数量特征,是可计算的。常用的样本指标:抽样平均数 、样本成数 p、样本标准差s s(s sp p)总体指标和抽样指标计算公式(图总体指标和抽样指标计算公式(图1 1)重置抽样重置抽样不重置抽样不重置抽样回置抽样、有放回的抽样不回置抽样,即无放回的抽样从总体N个单位中抽取一个容量为n的样本,每次抽中的单位经登录其有关标志后又放回放回总体中

15、重新参加下一次抽选。具体指从总体N个单位中抽取一个容量为n的样本,每次抽中的单位经登录其有关标志后不再放回不再放回总体中参加下一次抽选。每次抽取均是在相同条件下进行的。上次抽选结果会直接影响到下次抽选。经过连续n次不重复抽选单位构成样本,实际上相当于一次性同时从总体中抽中n个单位构成样本l抽样框抽样框(Sampling frame):可以从中抽出样本单位的总体数据目录或单位的名单。完整性完整性:不遗漏总体中的任意一个个体 唯一性唯一性:任意一个个体都是唯一的抽样框几种形式抽样框几种形式名单抽样框名单抽样框区域抽样框区域抽样框时间表抽样框时间表抽样框例如:例如:1.1.名单抽样框名单抽样框:从1

16、0万名大学生中抽取2000名大学生组成一个样本,则10万大学生名册就是抽样框。(以名单一览表形式列出总体所有单位)(以名单一览表形式列出总体所有单位)2.2.区域抽样框:区域抽样框:农产品抽样调查中,把土地划分为相同面积的单位进行编号。(按自然地理区(按自然地理区域划分并排列出总体所有单位)域划分并排列出总体所有单位)3.3.时间表抽样框:时间表抽样框:对流水线生产的产品进行产品质量检验,把24小时划分为许多抽样时间单位并按先后顺序排列,再按一定要求进行抽样。(按(按时间顺序排列总体单位)时间顺序排列总体单位)l抽样单元抽样单元(Sampling unit):):为方便实行抽样,将总体按某些特

17、征划分为有限且互不重叠有限且互不重叠的部分,每个部分就是一个抽样单元。它是构成抽样框的基本要素。它是构成抽样框的基本要素。l与基本抽样单元的区别:与基本抽样单元的区别:不一定是组成总体的最小单位。l抽样单元分级抽样单元分级 例:例:对“北京市中高档商品房的市场需求调查”可以先按区域将北京划分为,东城区、西城区、丰台区、海淀区、朝阳区等。这是一级抽样单位,然后再按各区街道划分成二级抽样单位。l抽样误差抽样误差(Sampling error)及非抽样误差及非抽样误差l精确度精确度(Precision)精确度指关于被测特征的不确定性程度。例如例如:在物价统计中,经济家若认为物价如上升0.02将影响经

18、济决策,则精确度须订在0.02。l精确度要求越高,成本越高,精确度要求越高,成本越高,但我们一般要求二者之间的平衡而不是一味追求精确度100%。l精确度的具体体现就是抽样误差l精确度和费用与样本量成正比,但样本量与精确度呈非线性关系。抽样调查费用与精确度之间的关系抽样调查费用与精确度之间的关系(图)(图)最优设计:最优设计:核定费用内达到最高精度或在达到精度要求条件下调查费用使用最少。5.2 5.2 抽样方案设计抽样方案设计定义目标总体定义目标总体选择资料收集方式选择资料收集方式 选择抽样框架选择抽样框架 确定抽样方法与技术确定抽样方法与技术确定样本量确定样本量 实施抽样步骤实施抽样步骤5.2

19、.1 5.2.1 定义总体定义总体l目标总体目标总体(Target population):指抽样设计者根据调查目的界定的调查研究对象的集合体。l确定调查目的和范围对定义目标总体具有关键性的作用l总体同质性:总体同质性:指构成总体的各个单位至少有一种性质是共同的,同质性是将总体各单位结合起来构成总体的基础,也是总体的质的规定性。l通常以问卷中的过滤性问题过滤性问题来识别合格的答题者 为确定应答者是否合格的过滤性问题实例为确定应答者是否合格的过滤性问题实例l定义总体定义总体就是确定那些应排除在外的人的特征地域因素地域因素认知程度认知程度产品或服务产品或服务使用情况使用情况人口统计学人口统计学特征

20、特征同质总体同质总体定义基础定义基础例:例:某空调制造商拟进行一项空调满意度调查某空调制造商拟进行一项空调满意度调查 l目标总体:目标总体:在调查前6个月内接受过该公司售后服务的所有国内用户。l抽样总体:抽样总体:在调查前6个月内接受过该公司售后服务,并留了 联系方式的所有国内用户。思考:思考:北京现代汽车公司拟进行一项用户满意北京现代汽车公司拟进行一项用户满意度的调查,应该如何定义目标总体呢?度的调查,应该如何定义目标总体呢?5.2.2 5.2.2 选择资料收集方式选择资料收集方式l资料收集的方法对抽样过程有重要影响。优优 点点缺缺 点点座机座机/手机手机搜集资料速度快、费用低、覆盖面广,易

21、于控制质量及纠正误差,操作简单,易解除受访人压力。缺少无座机(手机)用户样本,容易屏蔽,难于调查深入,无法了解被调查者当时的态度信件信件 扩大调查范围,增加样本容量,减轻人力负担,给被访者充足时间,可以增加敏感信息调查反馈周期长,要求阅读能力,难以确定总体,低回复率导致偏见。入户入户/访谈访谈样本代表性强,利于认真作答,易于纠正填写错误,便于回访和核实,便于补充调查。便于调查员追问,便于观察被调查者的失真回答人力、时间及费用消耗大,易出现因个人失误导致全部失败,对调查员业务素质要求高,难度越来越大,涉及隐私的内容难以获取互联网互联网花费少,速度快,有效性高,操作简单特殊区域及特殊人群之间难以适

22、用,复杂问卷不适宜,缺乏信息来源可靠性5.2.3 5.2.3 选择抽样框架选择抽样框架l抽样框是组织抽样调查的重要依据抽样框是组织抽样调查的重要依据l抽样框根据其划分标准的不同,可以在不同层面上进行构建,从而使抽样框呈现不同等级,不同等级的抽样框可以用于各级抽样。l编制抽样框时应当注意的问题编制抽样框时应当注意的问题:l遗漏遗漏部分样本单位;遗漏遗漏部分样本单位;l重复同一样本单位重复出现;重复同一样本单位重复出现;l混杂抽样框架中包括部分非样本总体成员。混杂抽样框架中包括部分非样本总体成员。5.2.4 5.2.4 确定抽样方法与技术确定抽样方法与技术概率抽样概率抽样简单随机抽样简单随机抽样系

23、统抽样系统抽样分层抽样分层抽样整群抽样整群抽样非概率抽样非概率抽样便利抽样便利抽样判断抽样判断抽样配额抽样配额抽样滚雪球抽样滚雪球抽样抽样方法抽样方法l随机抽样随机抽样(Probability Samples)概率抽样概率抽样 即在抽样时,总体中每一个抽样单位被选为样本之机率相同。随机抽样对调查员要求较高,须严格遵守程序,避免不合理或有偏见的选择抽样单位。l随机抽样具有健全之统计理论基础,概率论中的法则均有效,是一种客观而科学的抽样方法 l存在被允许的抽样误差l非随机抽样非随机抽样(Non-Probability Samples)非概率抽样非概率抽样 在抽样时,抽样单位被选为样本之机率为不可知

24、。不同抽样方法利弊之比较不同抽样方法利弊之比较 优优 点点弊弊 端端概率抽样概率抽样调查员可获取不用年龄、层次人员的信息;能估算误差;调研结果可推断总体。同规模抽样成本比非概率要高;需要更多的时间策划和实施。非概率抽样非概率抽样费用低;合理运用的情况下可以产生极具代表性的合理的抽样结果调查人员不知道抽中单位的代表性程度;不能估算出抽样误差;不可推及总体。确定抽样方式应考虑的四因素确定抽样方式应考虑的四因素l总体方差大小:抽样误差受总体方差影响。l对抽样误差大小的要求:抽样方式不同误差不同。l调查对象本身特点:没有总体单位的资料就不能进行分类或等距抽样。l人力、物力、财力和时间等各种调查条件限制

25、。可综合运用,结合利用。可综合运用,结合利用。5.2.5 5.2.5 确定样本量确定样本量 5.2.6 5.2.6 实施抽样步骤实施抽样步骤l一个适于操作的抽样计划更利于抽样调查的成功适于操作的抽样计划适于操作的抽样计划案例练习:案例练习:民意调查民意调查 该调查由全国范围内1000名在校的年龄在8-17岁的年轻人组成。该样本代表了所有8-17岁正在上学的人口总体。研究内容包括他们的愿望和烦恼,他们的家庭和学校,以及他们对涉及范围很广的各种论题的观点。调查中采用了一个三阶段分层概率抽样技术来选择访谈地点。第一阶段:将国内所有县根据每个地理区域内的人口规模进行 分层后,按照大体人口比例随机定出1

26、00个县。第二阶段:按照大体人口比例随机抽出样本县内的城市和城镇 第三阶段:在城市或城镇内可以利用普查小区统计资料的地 方,根据大体人口比例随机选择普查小区;在没有 统计资料的地方,随机抽出农村的路段。在每个人口普查小区或农村路段内都要给访谈人员指定地点。l抽样设计的六个步骤抽样设计的六个步骤1.1.定义目标总体定义目标总体:如上述案例中正在上学的年龄在8-17岁的年轻人2.2.选择资料收集方式:选择资料收集方式:访谈模式3.3.确定抽样框架:确定抽样框架:例如上述案例中的所有县及县内的城市和城镇。4.4.选择一种抽样技术:选择一种抽样技术:如上述案例中的三阶段分层概率抽样。5.5.确定样本量

27、:确定样本量:1000名6.6.执行抽样过程:执行抽样过程:步骤1、2、3和对调查员的指令5.3 5.3 概率抽样调查概率抽样调查5.3.1 5.3.1 概率抽样的概念及分类概率抽样的概念及分类:l调查者为了特定的调研目的,按照随机原则按照随机原则,运用科学的抽样方式,从研究对象的全体中抽取部分样本单位进行调查,并在一定条件下,运用数理统计的原理和方法,对总体数据特征进行估计和推断的一种非全面调查。l随机抽样的具体方法随机抽样的具体方法:(一)简单随机抽样(二)分层随机抽样(三)系统随机抽样(四)整群随机抽样5.3.2 5.3.2 简单随机抽样简单随机抽样(Simple Random Samp

28、ling)即纯随机抽样纯随机抽样,对总体单位不进行任何分组、规划、排序,仅按随机原则直接抽取样本,是最基本的概率抽样方法。主要包括以下类型:1.1.抽签法抽签法:先将调查总体的每个单位按1、2、3N编号,把号签混合后从中抽取,然后按抽出的号码,查对调查单位加以登记,组成样本。2.2.直接抽取法直接抽取法:从调查单位中直接随机抽取样本进行调查,如对存放在仓库里的同类产品直接随机抽出若干产品为样本进行质量检查。乱 数 表03 47 43 73 8697 74 24 67 6216 76 62 27 6612 56 85 99 2655 59 56 35 6401 22 77 94 3936 96

29、47 36 6142 81 14 57 2056 50 26 75 0796 96 68 27 3137 54 82 46 2249 54 43 55 8246 98 63 71 6242 53 32 37 3232 90 79 78 5305 03 72 93 1531 62 43 09 9017 37 93 23 7841 11 17 53 7161 26 63 78 5933 21 12 86 2957 60 17 34 4470 28 17 12 1356 62 37 35 18 57 24 55 06 8816 95 55 67 1978 64 56 07 8209 47 27 96

30、 5440 33 20 38 2698 83 50 87 7577 04 74 47 6798 10 50 71 7552 42 07 44 3849 17 45 09 6278 83 51 03 7483 11 25 93 473.随机乱数法(随机数表法)随机乱数法(随机数表法):把0到9的数字按双位随机编排成一张大小数互相间杂的数表。例:例:要从94家上市公司中抽取12家作为调查样本,可先将94个公司由1至94编号N=94,然后在乱数表上任意上一点一行(或一列)中一个数字作为起点数,从这个数字按上下或左右顺序读起,每出现两个数字,即为被抽中的单位码号。假定本例是从第四行左边第五个数字向右顺

31、序读起,则所抽取单位是:68 27 31 05 03 72 93 15 55 59 56 35 ,此过程中的96因大于94,舍去不用是因为在顺序抽取的过程中,遇到比编号大的数字,应该舍去。l使用对象:使用对象:l调查总体中各单位之间差异较小;l调查总体内样本单位不多且有完备名册可以编号;l调查对象难以分组、分类的情况。需要注意的是:需要注意的是:计算机随机抽样产生的是伪随机数伪随机数,有循环周期,因此不能保证其随机性。l优点:优点:l每个样本被抽中的概率相等,各个样本完全独立,彼此间无一定的关联性和排斥性,完全排除了抽样中主观因素的干扰。l众多抽样方法中最简单,操作方法最容易理解。l缺点:缺点

32、:1.完整总体名册不易取得,或取得成本很大时实行困难。2.当总体样本单位过多时,抽样作业相对不便(如总体名册几万户)。3.样本分配较分散,增加调查行政作业困难(如某地区住户580万户要抽18000户)。4.当样本单位差异大时,样本代表性恐有不足(如估计所得,抽到高所得或偏低所得)。例:例:对某一地区的学生进行抽样,测试该地区学生的智力水平,重点学校与一般学校的学生是有差异的,如果不考虑这个因素,则所抽取的样本很可能重点学校的学生多些,或根本没有重点学校的学生。这样样本的代表性是不理想的,若充分考虑并利用重点与一般存在差异这一已有信息,可以设计出更好的抽样方法。(如分层随机抽样)5.3.3 5.

33、3.3 分层抽样分层抽样(Stratifled Sampling)l又称类型抽样类型抽样,即将总体单位按照一定的特征进行分层,然后在每一层里按照等比或不等比的方式采用随机抽样,构成一个调查的样本。例:例:要了解某市800个私营企业的生产经营情况,决定分类抽取100个作为样本进行调查。首先分类,第一产业80个,占10;第二产业320个,占40;第三产业400个,占50。l分层抽样的目的:分层抽样的目的:是为了提高样本的代表性,避免简单随机抽样时可能出现样本过于集中于某种特性的现象。l分层抽样应注意问题分层抽样应注意问题:1.分组标志与总体特征相关;2.必须有清楚的分层界限,在划分时不致发生混淆;

34、3.必须知道各层中的单位数目和比例;4.分层的数目不宜太多,否则将失去分层的特征,不便在每层中抽样。l分层抽样的步骤包括:分层抽样的步骤包括:1.确认目标总体2.决定样本数3.决定分层标志4.将总体按照分层标志分成若干类,每一类称为一层。5.在每一层中随机抽取出足够的样本。l分层的方法分层的方法1.1.等比例分层抽样等比例分层抽样 各类样本单位数的分配比例与总体单位在各类的分配比例一致。(i=1,2,k)式中ni各层中抽出的样本数量;n 样本量;Ni各层的调查单位数;N 总体单元总量。nNNnii例:例:某教授对甲大学的学生消费倾向产生了兴趣,想对全校学生做抽样调查,总体有5000人,欲抽样5

35、00人,则:总体 样本一年级2000人一年级200人二年级1500人二年级150人三年级1000人三年级100人四年级500人 四年级50人如:求二年级样本数ni=(1500/5000)*500 2.2.不等比例分层抽样不等比例分层抽样 又称分层最佳抽样分层最佳抽样。这种抽样法根据各层的标准差的大小来调整各层样本数目。(i=1,2,k)式中:K 分层的层数或分层群体的个数;Si各层的样本标准差;Ni各层的调查单位数;n 样本量;ni各层中抽出的样本数量。kiiiiiiSNSNnn1l例:例:某地有居民20000户,其中高、中、低收入户分别为4000户、12000户、4000户。又已知高收入户的

36、标准差为300元,中收入户的标准差为200元,低收入户的标准差为100元。现要抽选200户做样本,进行购买力的调查,用分层最佳抽样法分配各层的样本数目。l思考思考:1.1.求各层样本数目;2.如用比例分层计算各层样本应为多少?NiSil答:答:按照公式计算,得出各类型应抽选的样本单位数为:高收入样本单位数目高收入样本单位数目:200(12000004000000)=60(户)中收入样本单位数目中收入样本单位数目:200(24000004000000)=120(户)低收入样本单位数目为低收入样本单位数目为:200(4000004000000)=20(户)l应用分层最佳抽样方法计算出的各层样本抽取

37、数同分层比例抽样法抽出的样本数相比较:1.家庭收入高的分层样本增加了20个(从40个变为60个);2.家庭收入中等的分层样本数不变;3.家庭收入低的分层样本数减少了20个(从40个变为20个)。高收入户和低收入户在调查总体中单位数都是4000户,为什么从高收入户中产生样本数目是60户,从低收入户中产生样本数目只有20户。这是因为,高收入户的标准差大(300元),从中抽取样本数目就要多一些。低收入户的标准差小(100元),从中抽取的样本数可以少一些。这样抽选到的综合样这样抽选到的综合样本比原先仅考虑分层比例抽样得的综合样本更具有对调查总本比原先仅考虑分层比例抽样得的综合样本更具有对调查总体的代表

38、性,其抽样调查推断的总体结果准确性程度会有所体的代表性,其抽样调查推断的总体结果准确性程度会有所提升。提升。分层抽样的优缺点分层抽样的优缺点优点优点l抽样精度、抽样效率高。分层抽样比简单随机抽样和等距抽样更为精确,特别是当总体较大、内部结构复杂时,分层抽样常能取得令人满意的效果;l不但可估计总体的参数,也可以估计每层的参数;l适用于总体单位数量较多,单位之间差异较大的调查对象;l便于管理与实施控制;l所得样本更具代表性。缺点缺点l分层的收益与组内相关成正比,选择正确的分层标准很重要;l在实际工作中分层并不容易,必须对总体各单位的情况有较多的了解,否则无法科学分类,抽样难度加大,从而耗费额外的费

39、用;l分层抽样要求各层的大小都是已知的,当它们不能精确得知时,就需要通过别的手段进行估计,这不仅增加了抽样设计的难度,而且也会带来新的误差。5.3.4 5.3.4 系统抽样系统抽样(Systematic Sampling)l也叫机械随机抽样机械随机抽样或等距随机抽样等距随机抽样。是将总体各单位按一定标志顺序排列,然后依固定的顺序和间隔抽取样本单位。l具体步骤具体步骤1.将N个总体单位按一定顺序排列,编号为1,2,3,N。2.计算抽样间隔k=N/n(k 为整数)。3.在1k 之间随机选择一个数字作为随机起点i。4.根据i和k从总体中抽取n个样本单位,总体中第i 个单位即作为第一个样本,以k 为间

40、隔增加第二个样本单位即为i+k,以此类推,n个单位号码为:i,i+k,i+2ki+(n-1)k。系统抽样单位排序分类系统抽样单位排序分类l无关标志排队无关标志排队:排列顺序可以与调研项目无关,如按户口册、姓氏笔画、地理位置等排列。这种排队方式类似于简单随机,因此也称为无序系统抽样无序系统抽样。l有关标志排队有关标志排队:排列顺序可以与调研项目直接或间接相关,如在职工家庭收入调查中,先按总收入或平均工资由低到高排队,然后再抽取调研单位。这种方式抽取的样本单元更具有代表性,减小抽样误差,提高估计的效率,称为有序系统抽样。有序系统抽样。系统抽样方法系统抽样方法(一)随机起点系统抽样(一)随机起点系统

41、抽样 当间隔k确定后,在第一组随机抽取一个样本单位,顺序号为i,根据间隔以此类推第n个样本单位顺序号为(n-1)k+i。当总体按有关标志排队时,随机起点系统抽样会产生系统性误差。(二)循环系统抽样(二)循环系统抽样 当N不能被n整除时,总体各单位按顺序排成首尾相接的环,取最接近N/n的整数为抽样间隔k,然后在1到N中随机抽取一个单位为起点,沿着圆圈方向按k为间隔抽取单位,直到取足n个单位。按此法可保证样本量n不变,但首尾间隔可能不一定恰好为k。(三)半距起点系统抽样(三)半距起点系统抽样 要求各样本单位都选在各组中点。各样本单位顺序号为:第一个样本单位是k/2,第二个则是k+k/2,以此类推第

42、n个样本单位是(n-1)k+k/2。优点优点:简单易懂,易于实践;缺点缺点:随机性不明显,不能进行样本轮换。(四)对称系统抽样(四)对称系统抽样 要求第一组随机抽取第一个样本单位,顺序号为i,第二组与第一个样本对称的位置抽取第二个样本单位,顺序号为2k-i,第三组则抽取与第二组对称位置的第三个样本单位为2k+i,以此类推。此种抽样保留了半距起点系统抽样的优点,又避免了其局限性。系统抽样优缺点系统抽样优缺点优点优点l简单易行,易确定样本单位。甚至可以不需要抽样框,无需编号,易为非专业人员所掌握且便于监督检查;l样本单元在总体中分布均匀,具有较高代表性,利于提高精度;l更适合大样本的使用适合大样本

43、的使用;l样本分布比较分散 缺点缺点l调查总体的单位不能太多;l要有全及总体每个单位的有关资料,特别是按有关标志排队时,往往要有较为详细具体的资料,否则难以进行;l如果单元的排列存在周期性变化,而抽样者对此缺乏了解,抽出样本的代表性就很差。即当抽选间隔和被调查对象本身的节奏性相重合时,就会影响调查的精度;l误差计算比较复杂。5.3.5 5.3.5 整群抽样(整群抽样(Cluster Sampling)l又叫聚类抽样聚类抽样或集体抽样集体抽样,先将总体各单位按一定标准分成许多群体,以群体作为抽样单位,从总体中抽出若干群体作为样本,而后对样本群体中的所有单位进行全面调查。l例:例:某中学有1200

44、个学生,分为6个年级24个班。采取整群抽样方法调查该校学生健康状况。随机抽六个班,对中选班级中的全部学生作为样本进行调查。l单阶段整群抽样单阶段整群抽样:每个被选中的群中所有个体都被包括进样本。l两阶段整群抽样两阶段整群抽样:从每个被选出群中按概率抽出一个个体的样本。分层抽样和分群抽样的比较分层抽样和分群抽样的比较相同之处相同之处l都是先对总体中的群体再对个体进行操作;l都不是完全随机地抽取样本,都涉及一定的规则:分层随机抽样涉及的规则是分层群体之间属性的差异,而分群随机抽样涉及的规则是子群体之间的相似;u都能提高随机抽样的效率和改善随机抽样的结果。不同之处不同之处u操作的群体不同,分层抽样操

45、作的是分层群体,而分群抽样操作的是子群体;u适用的总体不同,分层抽样适用于容易按属性差异进行群体划分的总体,而分群抽样适用于不容易按属性差异但容易按可见标志进行群体划分的总体。适用范围适用范围1.当缺少基本单位的名单,而难以直接从总体中抽取所要调查的基本单位,但以由基本单位组成的群体作为抽样单位却又现成的名单或有明显的空间界限时,整群抽样就避免了编制基本单位名单的问题;2.整群抽样样本相对集中,节省费用及时间;3.为满足抽样调查本身目的的要求:如出生率、流动率等。只能通过整群调查说明问题。4.如果某些总体的各个群之间的差异不大,精度不比直接抽取样本低。整群抽样优缺点整群抽样优缺点优点优点l样本

46、单位比较集中,调查动作比较方便,可以节省人力、物力、财力和时间。l抽样架构中每个元素的资料不易得到或不完整时,使用此法会较方便。缺点缺点l选样不只一次,依调研目的可能要选两次或三次。l群体内的元素值通常类似,因此估计量的精确度通常较低。l分群的大小差异会影响抽样的正确性。l样本分布不均匀、代表性差,与上述几种抽样方法相比较,在样本数量相同的情况下抽样误差较大。5.3.6 5.3.6 多段随机抽样多段随机抽样(Multistage Sampling)l又称多级随机抽样多级随机抽样或分段随机抽样分段随机抽样,就是把从总体中抽取样本的过程分成两个或两个以上阶段进行的抽样方法。l特点特点1.对基本调查

47、单位的抽选不是一步完成的;2.组织调查比较方便,尤其对那些基本单位多且分散的总体,由于编制抽样框较困难或难以直接抽取所需样本,可以利用地理区域或行政系统进行;3.多阶段抽样是多种抽样方法的结合产物。基本理论基本理论 1.将总体各单位按一定标志分成若干群体,作为抽样的第1级单位。然后将第1级单位又分成若干小群体,作为抽样的第2级单位。以此类推,还可以分为第3级、第4级单位。2.依随机原则,先在第1级单位中抽出若干群体作为第1级样本,然后再在第1级样本中抽出第2级样本,以此类推,还可以抽出第3级样本、第4级样本。3.对最后抽出的样本单位逐个进行调查 l例:例:欲实施全省性的防治犯罪相关问题之民意调

48、查,就可以采取多阶段随机抽样方法进行:(1)分层拟针对的人口为全省居民,按犯罪率程度从各市、县、区依一定比例随机抽出100个单位(各市、县、区均有)。(2)粗分在这100个单位中,以镇、街道为类,在同一单位中抽出3个村(居委会)。(3)细分这一阶段以户为单位,随机抽出5户作为样本,所以最后样本数为1500(10035)。多段抽样优缺点多段抽样优缺点优点优点:l有利于把各种抽样方法的优点综合起来,从而达到以最小的人财物消耗和最短的时间获得最佳调查效果的目的。l特别适合于调查总体范围大、单位多、情况复杂的调查对象。l样本个体相对集中,易于实施操作 缺点缺点:l样本量相同的情况下,抽样误差较大,它是

49、各阶段抽样误差之和,抽样阶段越多抽样误差就越大。非概率抽样方法非概率抽样方法名称名称定义定义种类种类优点优点弊病弊病非 概 率 抽 样又叫非随机抽样,总体中每一个体不具有被平等抽取的机会,而是根据一定的主观标准来抽取样本任意抽样费用低无法确定样本的代表性程度判断抽样用时少不能估计出抽样误差配额抽样合理运用,可产生极具代表性的合理的抽样结果不能推及总体滚雪球抽样非概率抽样方法非概率抽样方法l从方便角度出发或根据主观选择来抽取样本。l无法估计和控制样本误差,无法用样本的定量资料,采用统计方法推断总体。l但简单易行,适合探测性研究。非概率抽样方法非概率抽样方法-任意抽样任意抽样l又称便利抽样法,是调

50、查人员按工作方便,随意抽选样本的一种抽样方法。l街头拦人法;l空间抽样法:对某一聚集的人群,从空间的不同方位对他们随机进行抽样调查,如商场内询问顾客对商场意见。非概率抽样方法非概率抽样方法-判断抽样判断抽样l又称目的抽样法,凭调查人员的主观意愿、经验和知识,从总体中选择具有典型代表性的样本作为调查对象。l这是一种根据调查人员经验或者某些有见解的专家选定样本的抽样方法。非概率抽样方法非概率抽样方法-判断抽样案例判断抽样案例l关于天通苑地区出行情况的抽样调查l选择标准:双职工家庭,夫妻二人带一个上学或幼儿园的儿童,居住在天通苑地区,夫妻双方工作时间朝九晚五,工作地点和居住地点固定。非概率抽样方法非

51、概率抽样方法-配额抽样配额抽样l按照一定标准,分配样本数额,然后在规定数额内由调查人员随意抽选样本的一种抽样方法。l分为独立控制配额抽样和相互控制配额抽样。配额抽样配额抽样-独立控制配额抽样独立控制配额抽样l根据调研、总体的不同特性,对具有某个特性的调查样本分别规定单独分配数额,而不规定必须具有两种或两种以上特性的样本数额。案例案例l例如,某项初中学生课外补习班的调查中,确定样本总数为200,可单独选择年级、性别、学习水平三个标准中的一个进行抽样。采用独立控制配额抽样,各标准样本配额比例和样本数如下案例案例性别性别人数人数男100女100合计200年级年级人数人数初一36初二74初三90合计2

52、00学习成绩学习成绩人数人数优秀406060及格70不及格30合计200配额抽样配额抽样-相互控制配额抽样相互控制配额抽样l对调查对象的各个控制特性的样本数额交叉分配案例案例初一初一初二初二初三初三合计合计男女男女男女优秀34789940(20%)良好651111131460(30%)及格661313161670(35%)不及格33657630(15%)小计181837374545200合计36(18%)74(37%)90(45%)200非概率抽样方法非概率抽样方法-雪球抽样雪球抽样l雪球抽样(Snowball Sampling)利用随机方法或社会调查选出原始受访者。再根据原始受访者提供信息去

53、取得其它受访者。本法之目的乃母体很难寻找或十分稀少。例如单亲家庭计抽样属之。抽样误差抽样误差l抽样误差是所选样本结果不能完全代表总体而导致的误差。确切地说,是指随机抽样调查中样本指标与总体指标之间的差值。l误差种类:非抽样误差和抽样误差。抽样误差抽样误差-几个概念几个概念l总体指标:根据调研总体中各个个体标志值计算的综合指标。包括l总体平均数l总体成数l总体方差和均方差抽样误差抽样误差-几个概念几个概念l总体平均数:总体平均数:调研总体研究标志的平均值,分简单式和加权式。l总体成数:总体成数:一个现象有两种表现时,其中具有某种标志的个体数在总体中所占比重。例如,一批产品的合格率和不合格率。l总

54、体方差总体方差:一组资料中各数值与其算术平均数离差平方和的平均数。用希腊字母的平方表示l标准差:标准差:也称均方差是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。抽样误差抽样误差-几个概念几个概念l抽样指标:根据样本总体的各个体标志值计算的综合指标,常用的指标有抽样平均数、抽样成数、抽样方差和均方差。抽样误差抽样误差-几个概念几个概念 总体总体 样本样本参数参数统计量统计量平均值平均值 标准差标准差成数(比例)成数(比例)SP非抽样误差非抽样误差(人为因素造成)(人为因素造成)l覆

55、盖误差覆盖误差-被调查总体范围被人为缩小被调查总体范围被人为缩小l无响应误差无响应误差-调查回收率低调查回收率低l响应误差响应误差-没有反映真实情况(理解有误、有意欺瞒)没有反映真实情况(理解有误、有意欺瞒)l道德误差道德误差-调查人员缺乏业务培训或职业道德调查人员缺乏业务培训或职业道德l测量误差测量误差-测量工具不准确测量工具不准确抽样误差抽样误差l抽样误差(只存在概率抽样中):抽样误差(只存在概率抽样中):由于只调查了部分单元,用局部的数据来推断整体而造成的。在抽样调查中是不可避免的抽样误差抽样误差-定义定义l按照随机原则抽样时,所得样本指标与总体指标的实际差数,主要是指样本平均数与总体平

56、均数之差,样本成数与总体成数之差。l抽样误差越大,样本的代表性越低。抽样误差抽样误差-影响因素影响因素l被研究总体各个体标志值的变异程度。总体的方差和均方差越大,抽样误差越大,反之,越小。l抽取的调查个体数目。数目越大,抽样误差越小,反之越大。l抽样调查方法和技术。按照系统抽样和分层抽样方式其抽样误差要比简单随机方式小。抽样极限误差抽样极限误差-定义定义lMargin of Error一定概率下抽样误差的可能范围,也称允许误差,误差幅度。抽样误差抽样误差-解决措施解决措施一、要准确选定抽样方法 选择正确的抽样方法有利于使抽取的样本能真正代表样本总体,减小误差。一般随机抽样具有更大的适用性。抽样

57、误差抽样误差-措施措施二、要准确确定样本数目 一般而言,样本数目与抽样误差呈反比关系,即样本量越大,抽样误差越小。但抽样误差又与调查总体中的特征差异有关,如果总体中的差异大,则样本数目也应该大一些。抽样误差抽样误差-措施措施l三、要加强对抽样调查的组织领导,提高抽样调查工作的质量。抽样平均误差抽样平均误差l所有样本抽样误差的平均数,是抽样平均数或抽样成数的标准差,既可能出现的样本指标的平均离差。l被作为衡量样本指标对总体指标代表性高低的尺度。抽样平均误差抽样平均误差-注意点注意点l重复抽样和不重复抽样相比,不重复抽样的平均误差总是小于重复抽样的抽样平均误差。l如果样本个体数很小,总体数很大,对

58、抽样平均误差影响不大。抽样平均误差抽样平均误差-计算中注意点计算中注意点总体标准差资料来源:l用样本方差代替总体方差l用估计的资料,可用预计数量计算总体方差。l用此类过去调查所得数据,标准是时间最近或数值最大。l在大规模调查前,组织小规模试点调查,获取有关方差资料。抽样平均误差的估算方法抽样平均误差的估算方法-总体方差总体方差重复抽样条件下的计算公式 其中 抽样平均误差 n样本单位数 总体方差 总体标准差nnx2x2抽样平均误差的估算方法抽样平均误差的估算方法-总体方差总体方差不重复抽样条件下的计算公式)1()(2nnnNx)1(2Nnnx抽样平均误差的估算方法抽样平均误差的估算方法-成数指标

59、成数指标l重复抽样条件下的计算公式l其中 成数的抽样误差l p 总体成数l n样本数nppp)1(p抽样平均误差的估算方法抽样平均误差的估算方法-成数指标成数指标l不重复抽样条件下的公式计算)1()1(NnnPPp样本量确定样本量确定1、抽样推断的可靠程度 2、总体标志的变异程度 3、抽样极限误差的大小4、抽样方法与组织方式5、人力、物力和财力的可能条件 确定样本容量的考虑因素确定样本容量的考虑因素l尽可能增大样本容量,以发现尽可能多的个体的类型和特征l避免在抽样中的偏差,保证每个个体都有同样的可能性被包括在样本中l有重复性的任意抽样和滚雪球抽样会产生非抽样偏差,排除一些有代表性的个体作为样本

60、l为参与者提供一些需要的激励l当有疑惑的时候,咨询统计学家概率抽样中样本容量的确定概率抽样中样本容量的确定l可支配预算l以往类似调研的经验l拟分析的“子群数”l传统的统计方法。需要知道总体标准差的估计值、能够接受的抽样误差范围、以及总体至不超过可接受范围的置信度确定样本量的方法确定样本量的方法博伊德的样本容量表博伊德的样本容量表正态分布正态分布l现实:市场调研的很多变量和概率分布都趋于正态分布l理论:中心极限定理:对于任何总体,不论其分布如何,随着样本容量的增加,抽样平均数和抽样比例的分布趋于正态分布。正态分布特征正态分布特征l呈钟形且只有一个众数,众数代表集中的趋势,是发生频率最高的那个特殊

61、值。l正态分布关于其平均值对称。l一个正态分布的特殊性由其平均数和标准差决定l正态曲线下方面积等于1,表明包括了所有的观测值l正态曲线下方在任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。l所有的正态分布平均值与给定的标准差之间的面积是相等的所有的正态分布在平均数1个标准差之间的面积相同,都占曲线下方面积的68.26%,这叫做正态分布的比例性。标准正态分布标准正态分布l平均值为0,标准差为1.l标准正态分布曲线下的各块面积标标 准准 差差标准正态曲线下方面积(标准正态曲线下方面积(%)168.26295.44399.74标准正态分布标准正态分布抽样结构估计总体平均值抽样结

62、构估计总体平均值l点估计:样本平均值作为总体平均数的估计值l区间估计:对变量值如总体平均值的区间或范围进行估计,即置信区间。实际总体平均值在区间内的概率,叫做置信度。平均数区间估计的推导平均数区间估计的推导l抽取随机样本,计算样本平均数l样本平均数在所有样本平均数的抽样分布中,但不知确切位置。l正态分布特性可知,实际值等于样本值加上或减去1个标准差的置信度是68.26%。比例的抽样分布比例的抽样分布l比率抽样分布(Sampling distribution of the proportion)从特定总体中抽出大量随机样本,这些样本抽样比率的相对频率分布。l特征:近似正态分布所有比率抽样的平均值

63、等于总体比率比率抽样分布的标准误差计算公式如下S-比率抽样分布的标准误差P-总体比率的估计值N-样本单位数样本容量的确定样本容量的确定l1、平均值样本容量公式Z-标准误差的置信水平 -总体标准差E-可接受的抽样误差范围案例案例l样本容量的确定样本容量的确定l案例案例lP值的特殊说明值的特殊说明如无P值的估计依据,可对P值做最悲观假设,即为0.5,此时计算的样本容量最大。参考书目当代市场调研,作者:Carl McDaniel,Jr和Roger Gates市场调研与预测,李灿,清华大学出版社试论市场经济条件下的抽样调查,屈小娥,内蒙古统计谢谢观看/欢迎下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!