数据特征的描述统计

上传人:仙*** 文档编号:183714530 上传时间:2023-01-31 格式:PPT 页数:74 大小:304KB
收藏 版权申诉 举报 下载
数据特征的描述统计_第1页
第1页 / 共74页
数据特征的描述统计_第2页
第2页 / 共74页
数据特征的描述统计_第3页
第3页 / 共74页
资源描述:

《数据特征的描述统计》由会员分享,可在线阅读,更多相关《数据特征的描述统计(74页珍藏版)》请在装配图网上搜索。

1、Chapter 1 Measure of Central tendency and Dispersion 数据特征的描述数据特征的描述数据特征的描述过程 数据收集 整理 显示 描述第一节、统计数据的搜集 两种数据来源:两种数据来源:原始数据 次级数据 两种数据形式两种数据形式 横截面数据 时间数列数据统计讨论网站 http:/forum.swarthmore.edu/epigone/sci.stat.math统计数据网站 http:/www.census.gov/http:/www.ed.gov/http:/www.docgov/http:/www.bls.gov:80/统计资料可利用组织:国

2、际劳工组织统计局:劳动力、就业、工资、社会保险、工会等 联合国教科文组织:教育、科学、文化、技术等 联合国棉农组织、卫生组织、国际货币基金会、世界银行等一、基本 内容 调查目的 调查对象 调查内容 调查方法 调查结果满足调查目的二、调查方法 方法对象 特点适用条件普查全部单位一次性、周期性、数据准确、全面、使用面窄 掌握总体情况有限总体抽样调查样本单位经济、实用、准确、适应面广掌握总体情况、有限总体与无限总体重点调查重点单位非随机性掌握趋势存在重点单位典型调查典型单位非随机性用于定性分析统计报表全部单位与非全部单位统一性、准确性三、调查对象一、全面调查不重复、不遗漏二、非全面调查 代表性、选择

3、偏性引例:1936年罗斯福与兰登的总统竞选文学摘要罗斯福(43%)兰登(57%)1千万 实际结果:罗斯福(62%)兰登(38%)盖洛普:罗斯福(56%)5万人泛法航空 四、调查内容-问卷设计(一)问卷结构:说明词、填写要求、问卷正文及结尾 说明词:主办单位及调查员身份、调查的目的和意义、承诺及感谢 问卷正文:需要调查的问题及答案、被调查者的 背景资料 结尾:说明(二)、问卷的措辞 清楚定义内容:5w“您使用什么品牌的化妆品”用词通俗、词义明确“您经常收看电视节目吗?”“1、从来不看;2、偶尔看;3、有时看;4、经常看;5、天天看”避免隐含的选择(乘车、牛仔裤)避免否定形式的提问 避免诱导性或倾

4、向性的词汇、避免重叠、答案详尽(三)、问题的顺序 1、先易后难 2、封闭型问题置前,敏感性、开放性问题置后 3、注意对后继问题的影响:(1、您在选择购物时,哪些因素是重要的?2、您在选择购物时,售后服务这个因素的重要性如何?)4、逻辑思路保持一致第二节、数据的整理 审核 分组(品质数据、数 量数据)计算频数与频率 数据的表现一、一、数据资料的可用性数据资料的可用性 方法错误方法错误 引:时间,空间,口径等 逻辑错误逻辑错误 引:产值与销售值,年龄与工作年限 主观错误主观错误 敏感性、政治性等 引:失业率与平均每周申请失业保险人数 IBM IBM 帕科特 贝尔 康柏 IBM 帕科特 贝尔 苹果

5、苹果 盖威特-2000 帕科特 贝尔 康柏 康柏 苹果 二、数据的分组与频率的计算(一)品质数据的分组 与计算 频数:每组数据值出现的次数表 2-5 购买 50台计算机的样本数据 表 2-6 购买计算机数据的频数分布表 按公司分组频数苹果机13康柏机12盖威特-20005IBM9帕科特 贝尔11合计50(二)、数量数据的整理数量数据频数分布的分组需要 3 个步骤:1、确定组数;2、确定组距;3、确定组限。引例:表:年终审计时间(天)12141918151518172027222322213328141816131、确定分组数目 本例组数=5.3我们确定分 5 个组。2、确定组距 近似的组距=本

6、例组距=取整数 5 天。=按审计时间分组(天)频 数10-14415-19820-24525-29230-341合 计20表 2-9 审计时间数据频数分布 4、计算频数与频率表 2-10 审计时间数据的相对频数和百分比频数分布 按审计时间分组(天)相对频数百分比频数10-140.202015-190.404020-240.252525-290.101030-340.055合 计1.00100按审计时间分组(天)频 数向上累计频数分布向下累计频数分布10-14442015-198121620-24517825-29219330-341201合 计20表 2-11 审计时间数据的累积频数分布在数量

7、数据整理中要注意的问题有:1、在一些应用中,我们需要知道各分组的中点,也就是组中值。2、开口组(即只有上限或只有下限的组),其组中值用邻组的组距计算。3、在数据较少的情况下,可用品质数据整理的方式,采取单变量值分组。4、连续变量与离散变量的组限问题 上组限不在内 5、等距与不等距分组三、数据的表现 统计图 统计表 统计指标1、直方图、直方图 是用图形说明数量数据的另一种常用方法。图 2-8 审计时间数据直方图(一)统计图2、条形图、条形图 是用图的方式描述已概括成频数、相对频数或百分比频数分布的品质数据的图形 3、饼图 是用圆的各部分面积来呈现品质数据的常用方法。本例中所有各组计算机购买的百分

8、比频数总和为 100,一个圆有 360 ,则饼图中苹果机的部分为 26%360 =93.6 ,其他组的部分以此类推算出4、统计折线图与曲线图 洛伦茨曲线 生命曲线 投机需求曲线 质量曲线5、象形图按收入大小顺序排列的家庭数占总收入的%累计家庭数%累计收入的%最低的20%4.7204.7第二个20%114015.7第三个20%176032.4第四个20%24.48056.8最高的20%43.2100100洛伦茨曲线累计收入的%累计家庭的%197519851995100101Sales upSales of Chicago Carpet World since 1975(二)、统计表年份国内生产总

9、值最终消费 最终消费率年末人口)1989112704199018319.511365.2 61.3114333199121280.413145.9 60.8115838199225863.615952.1 59.91171711993199419951996合计34500.647110.959404.968498.2 274978.120182.1 58.327216.2 58.234529.4 59.040171.7 58.6 162562.6118517119850121121122389 第三节、数据特征的描述 绝对数与相对数 集中趋势:众数、中位数、平均数 离散趋势:全距 方差、标准差

10、 方差系数、标准差系数一、绝对数与相对数(一)绝对数 反映社会现象整体规模和水平 时期数 时点数(二)相对数 结构、比较、计划等(三)绝对数与相对数的应用 1、指标内涵和可比性:GNP、工业增加值 2、指标的结合运用 引例:在美国,1985年有19893人遭谋杀,与1970年16848人遭到谋杀相比,增加了20%。这些数字揭示了在1970-1985年期间美国变成一个更多暴力的社会 中国的国民生产总值增长了8%,美国的为1%二、数据集中趋势的描述(一)、众数 Mode 众数是总体数据中出现次数最多的变量值。例 3-1:有 10 名大学生的年龄:18,18,19,19,19,19,19,20,20

11、,21,在这里 19 岁的人数最多,所以 19 岁是众数。例 3-2:有 10 名职工的年龄:20,21,22,23,24,25,26,27,28,29,由于各年龄的人数相同,没有明显集中趋势点的数值,所以这里没有众数。注意:1、是位置平均数,不受极端值的影响 2、假定各单位在组内是均匀分布的 3、信息量小,缺乏敏感性,不适合代数运算 4、用于非对称的次数数列、特别是品质标志数列 5、用于数列中有较多的数值向某一数值集中 6、有时会存在多个众数(二)、中位数 Medium 中位数就是把计算对象的数据按大小顺序排列后,处于中间位置上的变量值。=注意:1、是位置平均数,不受极端值的影响 2、假定各

12、单位在组内是均匀分布的 3、信息量小,缺乏敏感性,不适合代数运算 4、用于非对称的次数数列 引:个人收入、年龄(一)定义:均值就是分布中全部数据的算术平均值。(二)、确定 1、对未经整理的原始数据 ,表示均值,则 三、均值 Mean 2、对分组数据某公司推销员工作量如下:表 3-4推销量(件)组中值X推销员人数(人)FXF20-3030-4040-5050-6060-7025354555652810415028045022065合 计251065例 对平均数的理解:(1)某房间有10人平均身高1.6米,第11人走进,其身高1.9米,求11人的平均身高;若房间里20个人身高平均1.6米则第21人

13、走进,21人的身高又会如何(2)一教师出3个问题,每题1分班级中30%得3分,50%得2分,10%得1分,10%得0分;全班有10个人;全班有20人?(3)经济衰退时,工人的平均工资高,平均失业期短;经济繁荣时,平均工资低,平均失业期长;这会是真实吗注意:平均数的大小受变量值和权重两个因素的影响 平均数收极端值的影响 权重的选择要注意其经济意义 正确理解各平均数指标测度值优 点缺 点众数1、当数据有明显的集中趋势又是偏态分布时其代表性较好;2、不受极端数值的影响;1、具有不唯一性,有的分布有不只一个众数,有的分布没有众数;2、具有假定性,当假定不成立时其代表性会很差。中位数1、不受极端数值的影

14、响;2、可描述集中趋势不明显;3、数据分布中心值;1、具有假定性,当假定性不成立时其代表性会很差;2、当分组数较少而分布又较集中时,中位数不一定准确。均值1、数据信息提取最充分,具有优良的数学性质;2、既是数据分布的中心,又是数据的重心,应用广泛,是其他统计方法的基础;1、对组距分组数据计算均值具有一定的假定性;2、受极端数值的影响;二)众数、中位数和均值的特点和应用场合 第四节第四节 数据分布离散程度的测度数据分布离散程度的测度离散程度是评价数据一般水平代表性大小的依据,并可以反映数据分布的均衡程度。一、全距一、全距(Range)与四分位距与四分位距、全距也称极差,是用分布数据中的最大值减去

15、最小值的差,表示为四分位距:将所有数据分为4份,每部分之间的分界点为四分位数据 1、简单标准差:二、标准差与方差年净收入(万元)离差()离差平方()490-684624538-204005602457012144590321024600421764合 计07960例3-13、某百货公司有 6 家分店,经理要求掌握这 6 家分店的年净收入差异水平,其标准差计算如下:平均年净收入 2、加权的标准差三、对标准差的理解:1、相同的数列,用原始数据计算和用分组数据计算,标准差有和不同 2、10个数的数列,若只包括1、9且标准差最大,这10个数是什么1、是非变量的标准差、是非变量的标准差在统计研究中,经常

16、遇到这样一种情况,即统计对象总体只有两种表现的可能,这类总体的现象表现就是是非变量。一般我们将其中一种表现的变量值表示为 1,另一种表现的变量值表示为零,如果我们用 P 表示变量值 1 在总体中出现的频率,用 Q 表示变量值零在总体中出现的频率,则有:,四、其他形式的标准差四、其他形式的标准差是非变量的均值:是非变量的方差:2、总体方差与组方差 例 3-16 某厂某班组 12 名工人日产量件数如下:9,11,14,15,16,19,20,21,21,22,23,28,对上述 12 名工人求日产量的均值及总方差得:(件)如果对上述 12 名工人按工人的技术等级分为两组:第一组工人的日产量分别为

17、9,11,14,15,16 这 5 个变量值,则其组内均值:组方差 第一组的方差同理,第二组 2 人日产量分组有 19,20,21,21,22,23,28 七个变量值,则其组内均值和组内方差为:第二组的方差工人分组 工人日产量(件)工人数 组内均值 组内均值与总均值离差 离差平方和乘频数 XjFi 第一组 9,11,14,15,16513-5125第二组 19,20,21,21,22,23,287224112表 3-7 组间方差计算示例表 组内方差的均值与组间方差之和等于总方差,在本例中各组内方差的均值为:则各类方差之间的关系为:)26.92=7.17+19.75(Coefficient of

18、 variation)主要是标差系数 或 五、离散系数 日期生产小组周一周二周三周四周五甲组6065707580乙组257912表 3-8 例 3-17 有两个不同的生产小组,甲组是生产配件,乙组是整机装配,现在要比较这两个生产小组在一周内平均日产量的均衡程度。:(设标准化分位值为 Z,则有:或 六、标准值六、标准值例 3-16:某班的统计学考试成绩平均分数为 80 分,标准差为 6 分,某同学考试成绩 86 分,则该同学统计学的分数相对于平均分数的标准化分位值是:如果该同学在英语考试中的成绩是 120 分,全班的平均分数是 100 分,标准差是 20 分,则该同学英语的分数相对于平均分数的标

19、准化分位值是:在这里英语的 120 分与统计的 86 分是等值的,都是高于平均分一个标准差引例:加里福尼亚大学的研究生部就男女生入学情况做了调查研究:在研究期间,6个专业共有2691名男生和1835名女生报考研究生。录取了1197名男生,557名女生加大学6个专业的资料 男 女 专业 申请人数 录取率%申请人数 录取率%1 825 62 108 82 2 560 63 25 68 3 325 37 593 34 4 417 33 375 35 5 191 28 393 24 6 373 6 341 7 合计 2691 1835 专业 申请者总数 1、993 2、585 3、918 4、792 5、584 6、714 1、大约44%的男生和31%的女生 2、大约39%的男生和43%的女生本章推荐参考书籍 用图表说话;基恩、泽拉兹尼著;长春出版社

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!