数据收集和整理PPT课件

上传人:仙*** 文档编号:47440145 上传时间:2021-12-20 格式:PPT 页数:67 大小:969.50KB
收藏 版权申诉 举报 下载
数据收集和整理PPT课件_第1页
第1页 / 共67页
数据收集和整理PPT课件_第2页
第2页 / 共67页
数据收集和整理PPT课件_第3页
第3页 / 共67页
资源描述:

《数据收集和整理PPT课件》由会员分享,可在线阅读,更多相关《数据收集和整理PPT课件(67页珍藏版)》请在装配图网上搜索。

1、本章内容回顾 内容:统计与统计学统计与统计学统计学的分类统计学的分类统计学与其他学科的关系统计学与其他学科的关系统计学产生与发展统计学产生与发展统计学在经济管理中的应用统计学在经济管理中的应用 课后习题:第二章 数据收集和整理数据(data)是统计分析的基础.本章主要介绍:数据的分类(类型);数据的来源(搜集方法);调查方案的设计;统计数据的质量要求.二、统计数据的间接来源二、统计数据的间接来源1. 公司内部保存2. 专门从事数据收集的公司财经资讯:Dow Jones & Company股票研究:CRSP(Center for Research in Securities Prices

2、)国内:CSMAR(China Stock Market & Accounting Research Database ),例子: CRSP(Center for Research in Securities Prices) The Center for Research in Security Prices (CRSP) is a financial research center at the University of Chicago Graduate School of Business. CRSP creates and maintains premier historica

3、l US databases for stock (NASDAQ, AMEX, NYSE), indices, bond, and mutual fund securities. These databases are used by leaders in academic and corporate communities for financial, economic, and accounting research. 3.公开出版物: 中国统计年鉴中国工业经济统计年鉴中国金融统计年鉴地方统计年鉴世界统计年鉴,;4.有关网站: 中国统计信息网: 国研网: 中国经济信息网: 美国国家统计局:

4、 www.stat-usa.gov 日本国家统计局: www.stat.go.jp/ 台湾统计局: www.stat.gov.tw本章小节 数据定义 数据分类: 定性资料:变量类别的名称和代码 定量资料:对象数量的大小和多少 原始数据收集(统计调查) 已有数据来源第二章 课后作业第三章 数据资料的统计描述:统计表与统计图 本章内容简介: 数据分组与频数分布: 定性资料 定量资料 频数数据的图示: 定性资料 定量资料 软件介绍:EXCEL 相关表与相关图第一节 数据分组与频数分布数据分组与频数分布 统计分组统计分组是将预处理过的数据按照某种特征或标是将预处理过的数据按照某种特征或标准分成不同的组

5、别。准分成不同的组别。 统计分组标志统计分组标志:分组时所依据的特征或标准,有品质标志品质标志和数量标志数量标志。 频数分布表频数分布表:对分组后的数据,计算各组中数对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。据出现的次数或频数所形成的汇总表。 预处理数据分组计算频数描述统计数据分组与频数分布数据分组与频数分布 频数分布频数分布或次数分布次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数频数或次数次数。 A frequency distribution is

6、 a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes. 相对频数相对频数(Relative frequency)/频率频率/比重比重:各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of

7、 the class/n) 百分数频数百分数频数(Percentage frequency):is the relative frequency multiplied by 100. 概念:概念:频数频数/次数分布;相对频数;百分数频数次数分布;相对频数;百分数频数 (一)品质数据(定性数据)的分组与频数分布一)品质数据(定性数据)的分组与频数分布Table, Data from a sample of 50 computer purchases(11/15,1994)IBMIBMPackard BellCompaqIBMPackard BellGateway200Packard BellCo

8、mpaqCompaqGateway200Packard BellIBMAppleCompaqIBMPackard BellAppleAppleCompaqGateway2000CompaqPackard BellCompaqCompaqApplePackard BellPackard BellAppleIBMIBMAppleAppleGateway2000Packard BellAppleAppleIBMAppleIBMPackard BellAppleCompaqAppleCompaqPackard BellGateway200CompaqAppleCompaq 例例1: 50个计算机购买者

9、所购买的不同品牌的机型数据个计算机购买者所购买的不同品牌的机型数据 Table, Frequency Distribution/Relative and Percentage Frequency of Computer Purchases Company Frequency Relative Frequency Percentage Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gatewy2000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100分组与求频数分组与求频

10、数 :The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.分组计频分组计频基本步骤基本步骤: 确定组数确定组数 确定组距确定组距(按组)整理成分布频数表整理成分布频数表 例例2:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表: (二)数值(定量)数据的分组与频数分布(二)数值(定量)数

11、据的分组与频数分布 可先先将数据进行排序排序,然后后根据需要分组分组; 对较少的数据也可不排序直接根据需要分组。Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13 第一步第一步,确定组数确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。21010loglog1NK 经验上经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 实际分组实际分组时常按斯特格斯(Sturges)提出的经验公式来

12、确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。 例例7中:中:K=1+lg20/lg2=1+4.32=5.32 5 第二步第二步,确定组距确定组距(Width of classes):组距组距是是一个组的上限与下限之差一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距组距=(最大值(最大值 - 最小值)最小值)/组数组数 例例2中,组距中,组距=(33-12)/5=4.2,可取整数,可取整数5为最为最后选定的组距。后选定的组距。 第三步第三步,确定各组组限确定各组组限(Class limits)并据此整并据此整理频数分布表理频数分布表。

13、1、分组所遵循的主要原则主要原则是“不重不漏不重不漏”(each data value belongs to one class and only one class)。因此, 最低组限最低组限(The lower class limit) 数据的最小值, 最大组限最大组限(The upper class limit) 数据的最大值; 另外另外,数据在每组中的归属习惯上采用“上组限上组限不在内不在内”。 注意:注意: 2、对离散型数据离散型数据,可采用相邻两组组限间断的办可采用相邻两组组限间断的办法解决法解决“不重不重”的问题的问题(如610,1115,1620等); 对连续型数据连续型数据,

14、往往采用相邻两组组限重叠,往往采用相邻两组组限重叠,根据根据“上限不在内原则上限不在内原则”解决解决“不重不重”问题问题(如5,10),10,15),15,20)等)。 例2是离散型数据(天),采用组限间断方法,因此可得频数分布表如下: Table, Frequency distribution, relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time(days) Frequency Frequency 1014 4 0

15、.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 20 1.00 100 1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用“XXXX以下以下”及“XXXX以上以上”这样的开口组开口组; 2、在组距分组时,如果各组组距相等则称为等等距分组距分组,否则为不等距分组不等距分组。 3、有时为了统计需要,需进一步计算累积频数累积频数(某数值以上或以下的频之数和)。 注意:注意:练习:频数分布表的编制 练习要求:编制等距分组的频数表 写出分组步骤; 编制频数表频数分布表的编制(步

16、骤)1. 确定组数:根据 Sturges 提出的经验公式得组数K为:等距分组表第二节 频数分布的图示频数分布的图示 定性数据往往使用条形图条形图(Bar graphs)和饼状图饼状图(Pie Charts);Fig1, Bar Graph of Computer Purchases频数分配的图示频数分配的图示02468101214A ppleCompaqGatew ay2000IBMP ackard BellFrequency数据的图示条形图(bar Chart)1. 用宽度相同的条形的高度或长短来表示各类别数据的图形2. 主要用于反映分类数据的频数分布3. 绘制时,各类别可以放在纵轴,称为条

17、形图,也可以放在横轴,称为柱形图 例分类数据的图示条形图15119690481216频数可口可乐旭日升冰茶百事可乐汇源果汁露露品牌不同品牌饮料的频数分布不同品牌饮料的频数分布数据的图示饼图1. 也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2. 主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3. 绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的数据的图示饼图不同品牌饮料的构成不同品牌饮料的构成可口可乐30%旭日升冰茶22%汇源果汁12%百事可乐18%露露18% 数值数据数值数据

18、往往使用直方图直方图(Histograms)、折线图折线图(Polygon)、茎叶图茎叶图(Stem-and-leaf display) 。 直方图直方图是用距形的宽度和高度来表示频数分布的图是用距形的宽度和高度来表示频数分布的图形(以横轴表示数据分组,纵轴表示频数或频率)。形(以横轴表示数据分组,纵轴表示频数或频率)。 (一)直方图和折线图(一)直方图和折线图Fig 2, Histogram for the Audit-Time Data 8 5 4 2 10 15 20 25 30 35注意:注意: 1、对于等距分组等距分组的数据,可用距形的高度高度直接表示频数的分布;对于不等距分不等距分

19、组组的数据,用距形的面积面积(而不是高度)表示各组的频数分布。 2、从本质上说,直方图应用频数密度频数密度来绘制,这样可使直方图总面积为1。 折线图折线图也称频数多边形图频数多边形图(polygon),是将直是将直方图顶部的中点(即组中值)用直线连接起来而成方图顶部的中点(即组中值)用直线连接起来而成的图形。的图形。 Fig 3, Frequency Polygon for the Audit-Time Data 8 5 4 2 10 15 20 25 30 35 1、折线图的两个终点要与横轴相交折线图的两个终点要与横轴相交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点

20、与其右竖边中点连接到横轴)。 2、折线图下所围成的面积与直方图面积相等折线图下所围成的面积与直方图面积相等(为1),从而使二者表示的频率分布是一致的。 折线图折线图也可用于表示累计频数分布累计频数分布,称为累计频数分布累计频数分布折线图折线图。它是根据累计频数绘制而成的,有向上累计向上累计和向下向下累计累计两种图形。 注意:注意:100100软件演示频数分布表及直方图软件演示:频数分布及直方图软件演示:频数分布及直方图 某百货公司连续40天的商品销售额(单位:万元)见book3.03。要求: 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 茎叶图茎叶图是一种既给出数据的分布状况,

21、又能是一种既给出数据的分布状况,又能显示每一个原始数值的图形。显示每一个原始数值的图形。 A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data. 茎叶图由两部分组成茎叶图由两部分组成:茎茎(stem)与叶叶(leaf) 茎:茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边; 叶:叶:通常由每组数的低位数值(last digits)形成,按组横排在

22、“茎”的右边。 (二)茎叶图(二)茎叶图 Fig4是上述例中会计公司对其20个客户年终财务审计所用时间的茎叶图。 Fig 4, Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 5 5 6 7 8 8 8 9 2 0 1 2 2 3 7 8 3 3可知其对大多数客户的审计时间在1020天之间 上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为Fig5的形式。 Fig5所表现的数据分布特征与Fig3的直方图十分相似。但茎叶图有明显优势明显优势: 1. The stem-and-leaf display is easier to

23、construct; 2. The stem-and-leaf display provides more information because it shows the actual data values. Fig 5, Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 1 5 5 6 7 8 8 8 9 2 0 1 2 2 3 2 7 8 3 3 (三)频数分布的类型(三)频数分布的类型 日常经济生活中,常见的频数分布曲线主要有正态分布正态分布、偏态分布、偏态分布、J型分布、型分布、U型分布型分布等几种类型等几种类型。 其次

24、还有双峰型双峰型、孤岛型孤岛型及锯齿型锯齿型等其他类型。 正偏(右偏) 负偏(左偏) (a) 正态分布 (b)偏态分布 正 J 型 反 J 型 (c)J 型分布 (d)U 型分布频数分布的应用:频数分布的应用: 例例3:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的床单进行抽检,并做了直方图。 按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下: 孤岛型 双峰型 锯齿型频数分布表频数分布表 床单长度分组(cm) 床单数(条) 213218 5 21

25、8223 8 223228 16 228233 32 233238 17 238243 12 243248 5 248253 0 253258 1 258263 3 263258 1 Total 100直方图直方图 32 212 218 16 17 12 8 5 5 3 1 1 213 218 223 228 233 238 243 248 253 258 263 268 直方图呈孤岛型,说明直方图呈孤岛型,说明: 1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属一总体,5%的单位属另一总体。 2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95

26、%的床单均大于218cm,显然存在着对床单的长度“宁长勿短”的思想,因此造成浪费 (上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。原因检查:原因检查: 为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情况,发现: 床单的生产工序是在一大联匹布上,印上印床单的生产工序是在一大联匹布上,印上印花,由一位老女工手工量测并用剪刀裁剪。花,由一位老女工手工量测并用剪刀裁剪。 基本的做法是:基本的做法是:双手拉着床单量两下,然后下剪。双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否在裁剪工序还有两位女

27、工,目测检查所裁床单是否有残次花色及其他疵点。有残次花色及其他疵点。 工作时,总以为手扯的长度可能会短,于是再工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;目测一下,加一点长度再下剪; 有时还会有一位检查残次的女工帮助裁剪,其有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是误差更大,这就是“孤岛孤岛”产生的原因。产生的原因。 解决问题:解决问题: 在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行: 在保持用手扯两次,将要下剪时,将原来习在保持用手扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。惯上要下剪处用左手握拳,少裁一拳

28、。 一拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又提高了经济效益。补充:相关表和相关图一、相关分析一、相关分析(一)相关关系的概念1函数关系它反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。如:圆的面积与半径之间的关系,即2相关关系它反映现象之间确实存在的,但关系数值不固定的相互依存关系。这一概念表明:(1)相关关系是指现象之间确实存在数量上的相互依存关系。(2)现象之间数量依存关系的具体关系值不是固定的。 2RS(一)相关关系的概念(一)相

29、关关系的概念3相关关系与函数关系的联系由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。在研究相关关系时,又常常要使用函数关系的形式来表现,以便找到相关关系的一般数量表现形式。 (二)相关关系的种类(二)相关关系的种类 1.按相关的程度可分为完全相关、不完全相关和不相关。2.按相关的方向可分为正相关和负相关。 3.按相关的形式可分为线性相关和非线性相关。各类相关关系的表现形态图各类相关关系的表现形态图 (四)相关表和相关图(四)相关表和相关图1相关表相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简

30、单的相关表。例1:某地区某企业近8年产品产量与生产费用的相关情况如表1所示:表1 产品产量与生产费用相关表 从上表可看出,产品产量与生产费用之间存在一定的正相关关系。2相关图相关图 相关图又称散点图,它是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。 例2:以表1为例,用EXCEL绘制相关图如下 产品产量与生产费用相关图产品产量与生产费用相关图第三章小结 数据分组与频数分布: 定性资料 定量资料 频数数据的图示: 定性资料 定量资料 软件介绍:EXCEL 相关表与相关图统计案例及作业

31、 平时成绩:两部分 案例分析:75% 出勤及平时作业:25%案例分析形式 案例来源:课本后的案例 形式: 4人组成一个小组,进行案例分析 每个题目同时由两个小组分别独立完成,两个小组同时做案例报告; 组长负责本组案例分析的相关分工、组织、领导工作;案例分析题目1. P45+P79:统一食品2. P80:美国国家健康照顾协会3. P132:新产品投放统计决策分析4. P197:投资咨询服务5. P227:生产过程质量控制6. P301:电力消费分时段定价案例分析步骤与要求(以统一食品为例 ) 案例背景调查:常用的商品促销手段信用卡政策信用卡政策在促销上的成功案例等等 案例分析:简述问题及其意义统

32、计工具应用及其求解 统计结论分析统计结果有何含义?意义如何?(结合案例中的实际问题进行分析) 撰写研究报告(1000-1500)参考模式:econ_中资料提交:打印稿一份给老师电子文档一份连同ppt文档: 全班报告ppt文档,并回答提问 时间安排: “十一”大假后第一周:确定组员,选举组长,抽取案例题目(选取第三章案例的可直接报名) 开始本章学习时开始案例分析, 开始学习本章第二周周五前提交相关报告 第三周开始报告,每次两个组案例分析评分 报告答辩成绩:80% 本次不参加报告的组每组派出一名代表参与评分:80,85,90,95; 加权得到答辩成绩,作为小组成员成绩,组长加5分; 书面报告成绩:20% 老师给出 综合成绩:两者加权,占平时成绩的75%,出勤及课后作业占25%

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!