第二章数据的收集与整理

上传人:无*** 文档编号:151783742 上传时间:2022-09-14 格式:PPT 页数:58 大小:864KB
收藏 版权申诉 举报 下载
第二章数据的收集与整理_第1页
第1页 / 共58页
第二章数据的收集与整理_第2页
第2页 / 共58页
第二章数据的收集与整理_第3页
第3页 / 共58页
资源描述:

《第二章数据的收集与整理》由会员分享,可在线阅读,更多相关《第二章数据的收集与整理(58页珍藏版)》请在装配图网上搜索。

1、2-12第二章第二章 数据的收集和整理数据的收集和整理通过本章的学习,我们应该知道:通过本章的学习,我们应该知道:1.数据来源数据来源2.数据是如何收集的数据是如何收集的3.数据是如何整理的数据是如何整理的4.如何做次数分布表如何做次数分布表S t a t i s t i c s2-2有组织、有组织、有计划地有计划地搜集资料。搜集资料。要求:准确、要求:准确、完整、及时完整、及时对调查资料对调查资料去伪存真、去伪存真、去粗取精、去粗取精、科学分类、科学分类、浓缩简化浓缩简化描述性分析描述性分析推断分析、推断分析、决策分析。决策分析。要求:定性要求:定性定量结合定量结合2-3数据来源数据来源 D

2、ata Sources数据数据来源来源直接来源直接来源间接来源间接来源试验试验出版物出版物(或者网上或者网上)问卷调查问卷调查观察观察2-41 1 数据的收集数据的收集主要包含如下三方面的内容:统计调查方案的设计 统计调查方法 统计调查的组织形式1.1 数据的来源原始数据原始数据和次级数据1.2 统计调查统计调查是统计资料收集的主要形式统计调查是统计资料收集的主要形式,是统计工作过程的第一阶段。重要性:2-5查阅公开出版物;查阅公开出版物;向政府统计机构咨询;向政府统计机构咨询;向其他机构咨询;向其他机构咨询;网上查询。网上查询。2-6常用的统计数据来源美国经济分析局美国经济分析局www.be

3、a.doc.gov美国人口普查局美国人口普查局www.census.gov美联储经济数据库美联储经济数据库www.stls.frb.org/fred中国国家统计局中国国家统计局上海市统计局上海市统计局www.stats-世界银行世界银行www.worldbank.org国际货币基金组织国际货币基金组织www.imf.orgOECD www.oecd.org2-7返回2-8统计调查方案的设计统计调查方案的设计组织调查之前统计调查方案的设计内容:1、明确调查目的(为什么调查?)2、确定调查对象和调查单位(调查谁?)3、确定调查项目(调查什么?)4、调查表与问卷设计5、确定调查时间和调查期限6、制定

4、调查的组织实施计划统计调查方案:用来指导整个调查工作的纲领性统计调查方案:用来指导整个调查工作的纲领性文件,是统计设计在统计调查阶段的具体化文件,是统计设计在统计调查阶段的具体化返回2-9统计调查方法统计调查方法2-10现场观察法现场观察法2-11调查者调查者强制、约束强制、约束报告法报告法2-12访问调查访问调查调查者调查者被调查者被调查者 平等合作平等合作返回2-13主要指非政府性统计机构或个人所主要指非政府性统计机构或个人所从事的对人的主观意见的调查工作,从事的对人的主观意见的调查工作,也称作民意调查或民意测验也称作民意调查或民意测验表头表头表体表体表脚表脚解释调查意解释调查意义、表达感

5、激之情等义、表达感激之情等被调查者被调查者基本情况、调查项目基本情况、调查项目时间、操时间、操作者等作者等问卷调查2-14危害自身健康危害自身健康影响他人健康影响他人健康浪费钱财浪费钱财容易引起火灾容易引起火灾破坏家庭团结破坏家庭团结容易控制,容易控制,但不易全面但不易全面调查问卷的问题类型:调查问卷的问题类型:容易造成人际容易造成人际关系紧张关系紧张不易控制,不易控制,但内容丰富但内容丰富您认为吸烟有哪您认为吸烟有哪些害处?些害处?危害自身健康危害自身健康影响他人健康影响他人健康浪费钱财浪费钱财容易引起火灾容易引起火灾破坏家庭团结破坏家庭团结其他其他 。2-152-16问卷设计问卷设计 Qu

6、estionnaire Design 问卷的长度问卷的长度(Questionnaire Length)尽可能简短,只保留调查所必须的关键问题尽可能简短,只保留调查所必须的关键问题 调查方式调查方式(Mode of Response)面谈面谈回答率较高,费用较高回答率较高,费用较高 电话访问电话访问居中居中 信函调查信函调查回答率较低,费用较低回答率较低,费用较低 问题设计问题设计(Formulating Questions)语言简明易懂,避免含糊其词语言简明易懂,避免含糊其词 考虑完备而避免重复考虑完备而避免重复2-17您是否吸烟(如果选您是否吸烟(如果选,则跳过,则跳过2 2、3 3题)题)

7、吸烟吸烟不吸不吸您每天大约吸多少支烟您每天大约吸多少支烟5支以下支以下5-10支支 10-15支支 15-20 20-25支支 25支以上支以上您的吸烟历史大约有多长您的吸烟历史大约有多长 1年以下年以下1-5年年5-10年年10年以上年以上您是否认为吸烟有害健康(请写出理由)您是否认为吸烟有害健康(请写出理由)调查单位中吸调查单位中吸烟人所占比例烟人所占比例吸烟人群日吸吸烟人群日吸烟数量情况烟数量情况吸烟人群吸烟吸烟人群吸烟历史情况历史情况调查对象对吸调查对象对吸烟的看法烟的看法返回2-18按调查单位的范围大小分为按调查时间是否连续分为按调查的组织方式不同分为按调查的组织方式不同分为普查抽样

8、调查典型调查重点调查统计调查的种类统计调查的种类2-19统计调查的组织形式统计调查的组织形式统计报表普 查重点调查典型调查抽样调查制度化的经常性调查专门组织的一次性调查全面调查非全面调查2-20由政府部门组织,采用统一的表格,自上而下布置,自下而上报告。任务:搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。优点:概念:统计报表制度(statistical report forms)能保证统计资料的全面性和统一性能保证统计资料的连续性和及时性能满足各级部门对统计资料的需要统计报表过多会增加基层负担有可能由于虚报瞒报而影响统计资料质量缺点:2-21普查(c

9、ensus)特点:工作量大,时间性强,需要大量人力和财力。特别领域,专门组织;一次性;全面性任务:搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。概念:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料发表调查。原则:规定统一的标准时点。规定统一的普查期限。规定调查的项目和指标。2-22重点调查(key point survey)概念:在总体中选择个别或部分重点单位进行调查。任务:及时了解总体基本情况,为主管部门指导工作服务。方式:一次性调查;专门设计和备配人员现场调查。重点单位指在总体中有举足轻

10、重地位的单位,其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表调查。能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料;只适用于客观存在重点单位的情况特点:2-23典型调查(model survey)概念:在全面分析的基础上,有意识地选择代表性的典型单位进行现场调查。任务:为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的本质特征、因果关系、变化趋势。为理论和政策性问题研究提供依据。作用:适宜于研究处于萌芽状态事物和倾向性问题;一定条件下能估计总体指标数值;可以补充全面调查的不足;方法:解剖麻雀;划类选典2-24抽样调查(sampling s

11、urvey)特点:1(随机抽样)按照随机原则从总体种选择样本;2 以样本指标(统计量)为依据,推断总体参数或进行假设检验;3 抽样误差可以事先计算并加以控制。作用:在自然科学和社会科学中具有广泛应用不可能全面调查的(无限总体;破坏性实验)不必要全面调查的(经济性)2-25抽样调查的组织方式1 简单随机抽样;2 分层抽样;3 系统抽样;4 整群抽样;2-26总体单位总体单位调查单位调查单位2-27总体单位总体单位调查单位调查单位报表制度报表制度可以全面调查,但可以全面调查,但通常是调查限定规通常是调查限定规模以上的总体单位模以上的总体单位2-28总体单位总体单位调查单位调查单位普普 查查对全部单

12、位对全部单位进行调查进行调查2-29总体单位总体单位调查单位调查单位重点调查重点调查只调查重点单位(单位只调查重点单位(单位数不多但其标志量占标数不多但其标志量占标志总量比重较大的单位)志总量比重较大的单位)2-30总体单位总体单位调查单位调查单位典型调查典型调查对典型单位进行调对典型单位进行调查,典型单位的选查,典型单位的选择并不一定按规模择并不一定按规模2-31总体单位总体单位调查单位调查单位抽样调查抽样调查按随机原则选择调按随机原则选择调查单位,各单位被查单位,各单位被选中的机会相同。选中的机会相同。2-322-332 数据的整理数据整理的内容数据的审定;数据的分组数据的分组;统计资料汇

13、总;编制统计表;统计图2-34数据的审定数据的审定2-35数据分组数据分组2-36统计分组的作用作用1:划分现象的类型社会经济现象中存在复杂多样的类型,不同类型的现象具有不同的特点和发展规律。2533422-37作用2:揭示现象内部结构对现象分组后的数据可以反映现象内部结构的特点;结合时间的推移进行分析,可以认识现象发展变化的规律性统计分组的作用例:上海市按GDP计算的三次产业结构(%)1980年 1990年 1996年 1997年 GDP100 100 100 100 第一产业3.2 4.32.5 2.3 第二产业75.7 63.854.5 52.2 第三产业21.1 31.943.0 45

14、.5 2005年1000.948.650.52-38统计分组的作用作用3:分析现象之间的依存关系社会经济现象之间存在着广泛的相互联系和制约关系。其中比较广泛和紧密的一种联系就是现象之间的依存关系依存关系。研究现象之间依存关系的方法很多,如相关与回归分析法、指数因素分析法、分组分析法等,其中统计分组分析法是最基本的方法,是其他分析方法的基础。例:中国农民家庭按收入分组的恩格尔系数(1984年)按收入分组(元)200 300 400 500 600 800 1000恩格尔系数(%)64.9 60.2 56.7 54.4 50.5 49.9 43.62-39选择分组选择分组标志标志确定分组确定分组体

15、系体系总体单位总体单位归类归类科学性:组科学性:组间差异大,间差异大,组内差异小。组内差异小。完备性和互斥性:完备性和互斥性:每个单位均能且只每个单位均能且只能归到某个组中。能归到某个组中。统计分组的程序与原则2-40统计分组的种类根据分组标志的个数分类:根据分组标志的个数分类:简单分组:仅按照一个标志进行分组简单分组:仅按照一个标志进行分组复合分组:按照两个或两个以上的标志进行层叠分组复合分组:按照两个或两个以上的标志进行层叠分组分组体系:一系列相互联系相互补充的标志进行多种分组分组体系:一系列相互联系相互补充的标志进行多种分组根据分组标志的性质分类:根据分组标志的性质分类:品质标志分组:如

16、上市公司的行业分类;学生的成绩评定品质标志分组:如上市公司的行业分类;学生的成绩评定数量标志分组:数量标志分组:2-41变量数列变量数列品质数列品质数列将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列分布数列分布数列分分类类分组标志的具体表现分组标志的具体表现各组的次数或频率各组的次数或频率构成要素构成要素异距数列异距数列等距数列等距数列组距数列组距数列单项数列单项数列3 3 次数分布次数分布2-42指每个组值只用一个具体的变量值指每个组值只用一个具体的变量值表现的数列表现的数列变量数列的编制变量数列的编制己知某车间有己知某车间有2424名工人,他们的

17、日产量(件)分别是:名工人,他们的日产量(件)分别是:2020,2323,2020,2424,2323,2121,2222,2525,2626,2020,2121,2121,2222,2222,2323,2222,2222,2424,2525,2121,2222,2121,2424,23.23.要求根据以要求根据以上资料编制变量数列。上资料编制变量数列。2-432-44指每个组的变量值用一个区指每个组的变量值用一个区间来表现的变量数列间来表现的变量数列变量数列的编制变量数列的编制变量值变动区间的长度相等变量值变动区间的长度相等2-45指每组两端表示各组界限的变量值,各组指每组两端表示各组界限的

18、变量值,各组的最小值为下限,最大值为上限的最小值为下限,最大值为上限每组变量值变动区间的长度,为上下限每组变量值变动区间的长度,为上下限之差之差每组变量取值范围的中点数值每组变量取值范围的中点数值 2下限上限组中值=2-46销售额销售额(万元)(万元)商店商店数数(个)(个)每百元商品每百元商品销售额中支销售额中支付的流通费付的流通费(元)(元)50以下以下50100100200200300300以上以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L如:组距d=U-L=100-50=50(万元)如:组中值x=(U+L)/2 =(100+200)/2=150

19、(万元)2-47适用于总体单位的标志值变动比适用于总体单位的标志值变动比较均匀的情况较均匀的情况2-48变量数列中的组距数列组距数列编制比较复杂,下面主要研究它:(1)组数的确定经验法则:一般分为5-7组;组数尽可能取奇数,避免偶数Sturges rule:分组组数(2)组距的确定 R=Xmax-Xmin i=R/m(小数进一)(3)组限和组中值的确定确定组限的原则:“上组限不在内”原则计算组中值的作用Nmlg322.31 2-49q对于离散变量,相邻组组限可以间断,也可重叠;q对于连续变量,相邻组组限必须重叠;q符合“上组限不计入”原则;q首末两组可使用“以下”及“以上”的开口组。2-50【

20、例】江浦县苗圃对【例】江浦县苗圃对110110株树苗的高度进行测量(单位:株树苗的高度进行测量(单位:厘米),数据如下,编制次数分布表。厘米),数据如下,编制次数分布表。154 133 116 128 85 100 105 150 118 97 154 133 116 128 85 100 105 150 118 97 110 131 119 103 93 108 100 111 130 104 110 131 119 103 93 108 100 111 130 104 135 113 122 115 103 90 108 114 127 87 135 113 122 115 103 90

21、108 114 127 87 127 108 112 100 117 121 105 136 123 108 127 108 112 100 117 121 105 136 123 108 89 94 139 82 113 110 109 118 115 126 89 94 139 82 113 110 109 118 115 126 106 108 115 133 114 119 104 147 134 117 106 108 115 133 114 119 104 147 134 117 119 91 137 101 107 112 121 125 103 89 119 91 137 10

22、1 107 112 121 125 103 89 110 122 123 124 125 115 113 128 85 113 110 122 123 124 125 115 113 128 85 113 143 80 102 132 96 129 83 142 112 120 143 80 102 132 96 129 83 142 112 120 107 108 111 100 97 111 131 109 145 93 107 108 111 100 97 111 131 109 145 93 135 98 142 127 106 110 101 116 110 123 135 98 1

23、42 127 106 110 101 116 110 123 2-51第一步,先将第一步,先将110110个数据排序,找出最大值个数据排序,找出最大值154154和最小值和最小值8080,这个数列的全距这个数列的全距R R154-80154-807474厘米。厘米。第二步,根据斯透奇斯规则确定组数:第二步,根据斯透奇斯规则确定组数:m=1+m=1+3.3223.322(lg110)=7.78(lg110)=7.78,再根据组数与组距的关系确定组,再根据组数与组距的关系确定组距:距:i=Ri=Rm=74/7.78=9.51m=74/7.78=9.51(厘米)。根据以上的计算(厘米)。根据以上的计

24、算结果,组数定为结果,组数定为8 8组;组距定为组;组距定为1010厘米。厘米。第三步,根据所定组数和组距确定组限。第一组下组限定第三步,根据所定组数和组距确定组限。第一组下组限定为为8080,第一组上组限则为,第一组上组限则为9090(即(即80+1080+10);第二组下组限就);第二组下组限就是第一组上组限,第二组上组限为是第一组上组限,第二组上组限为100100;依此类推,;依此类推,第八组下组限是第八组下组限是150150,其上组限则为,其上组限则为160160。这样共有。这样共有8 8个下组个下组限和限和8 8个上组限。由于有重合值,故只有个上组限。由于有重合值,故只有9 9个组限

25、值。个组限值。2-52第四步,进行归组,即将各个变量值归入相应的组中,比第四步,进行归组,即将各个变量值归入相应的组中,比如如154154归入第八组(归入第八组(150-160150-160););133133归入第六组(归入第六组(130-130-140140););依此类推。最后的结果用次数分布表显示,;依此类推。最后的结果用次数分布表显示,见下表。见下表。2-53树苗高度树苗高度x(厘米)(厘米)树苗数树苗数f80-90890-1009100-11026110-12030120-13018130-1402144-1505150-1602合计合计110树苗高度次数分布表树苗高度次数分布表2

26、-54各组单位数占总体单位总数的比重各组单位数占总体单位总数的比重表示低于某分组上限的频数与频率。表示低于某分组上限的频数与频率。表示高于某分组下限的频数与频率。表示高于某分组下限的频数与频率。2-55树苗高度树苗高度x/x/厘米厘米频数频数f f/棵棵频率频率/%向上累积向上累积向下累积向下累积频数频数/棵棵频率频率/%/%频数频数/棵棵频率频率/%/%80-9080-908 87.37.390-10090-1009 98.28.2100-110100-110262623.623.6110-120110-120303027.327.3120-130120-130181816.416.4130

27、-140130-1402 210.910.9140-150140-1505 54.54.5150-160150-1602 21.81.8合计合计1101101001002-56树苗高度树苗高度x/x/厘米厘米频数频数f f/棵棵频率频率/%向上累积向上累积向下累积向下累积频数频数/棵棵频率频率/%/%频数频数/棵棵频率频率/%/%80-9080-908 87.37.38 87.37.390-10090-1009 98.28.2171715.515.5100-110100-110262623.623.6434339.139.1110-120110-120303027.327.3737366.46

28、6.4120-130120-130181816.416.4919182.782.7130-140130-1402 210.910.910310393.693.6140-150140-1505 54.54.510810898.298.2150-160150-1602 21.81.8110110100.0100.0合计合计1101101001002-57树苗高度树苗高度x/x/厘米厘米频数频数f f/棵棵频率频率/%向上累积向上累积向下累积向下累积频数频数/棵棵频率频率/%/%频数频数/棵棵频率频率/%/%80-9080-908 87.37.3110110100.0100.090-10090-10

29、09 98.28.210210292.792.7100-110100-110262623.623.6939384.584.5110-120110-120303027.327.3676760.960.9120-130120-130181816.416.4373733.633.6130-140130-1402 210.910.9191917.317.3140-150140-1505 54.54.57 76.46.4150-160150-1602 21.81.82 21.81.8合计合计1101101001002-58树苗高度树苗高度x/x/厘米厘米频数频数f f/棵棵频率频率/%向上累积向上累积向

30、下累积向下累积频数频数/棵棵频率频率/%/%频数频数/棵棵频率频率/%/%80-9080-908 87.37.38 87.37.3110110100.0100.090-10090-1009 98.28.2171715.515.510210292.792.7100-110100-110262623.623.6434339.139.1939384.584.5110-120110-120303027.327.3737366.466.4676760.960.9120-130120-130181816.416.4919182.782.7373733.633.6130-140130-1402 210.910.910310393.693.6191917.317.3140-150140-1505 54.54.510810898.298.27 76.46.4150-160150-1602 21.81.8110110100.0100.02 21.81.8合计合计110110100100树苗高度次数分布表树苗高度次数分布表

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!