统计学第二章统计数据的描述.ppt

上传人:xt****7 文档编号:16172781 上传时间:2020-09-21 格式:PPT 页数:163 大小:3.64MB
收藏 版权申诉 举报 下载
统计学第二章统计数据的描述.ppt_第1页
第1页 / 共163页
统计学第二章统计数据的描述.ppt_第2页
第2页 / 共163页
统计学第二章统计数据的描述.ppt_第3页
第3页 / 共163页
资源描述:

《统计学第二章统计数据的描述.ppt》由会员分享,可在线阅读,更多相关《统计学第二章统计数据的描述.ppt(163页珍藏版)》请在装配图网上搜索。

1、1,统计先是思维而后才是数学,第二章 统计数据的描述,2,统计先是思维而后才是数学,第一节 统计数据的整理 第二节 分布集中趋势的测度 第三节 分布离散程度的测度 第四节 分布偏态与峰度的测度 第五节 统计表和统计图,3,统计先是思维而后才是数学,学习目标,掌握数据的整理方法 掌握集中、离散趋势的测度 掌握偏态峰度的测度 掌握统计表和统计图的制作与使用,4,统计先是思维而后才是数学,录取中有无歧视?,某高校两个系(财经系、工程系)的报考及录取情况,录取比率: 男生:350/800=44% 女生:200/600=33%,男生成绩好?性别歧视?,5,统计先是思维而后才是数学,两个系的报考及录取情况

2、,工程系:男女录取比率50%,财经系:男女录取比率25%。,说明的问题:对数据 1.要从不同的角度进行分析; 2.要注意结构或是权数的影响。,6,统计先是思维而后才是数学,2.1 统计数据的整理,7,统计先是思维而后才是数学,统计整理的概念和作用,8,统计先是思维而后才是数学,制定统计整理方案,对原始资料进行审核,数 据 处 理,制作统计表或统计图,统计整理的步骤,9,统计先是思维而后才是数学,数据的审核,对原始数据的审核的内容 完整性审核 准确性审核 对第2手数据的审核的内容 完整性审核 准确性审核 时效性 适用性,10,统计先是思维而后才是数学,数据的排序(data rank),按一定顺序

3、将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 排序可借助于计算机完成,世界人均国民总收入,11,统计先是思维而后才是数学,12,统计先是思维而后才是数学,2.1.1 统计数据的分组,13,统计先是思维而后才是数学,统计分组的基本原则: 必须保证在某一标志上,组内的同质性和组间的差异性。 分组兼有“分和合”双重含义,一、统计分组的概念和作用,14,统计先是思维而后才是数学,分组,分组前,分组后,25,33,42,15,统计先是思维而后才是数学,统计分组的关键: 1、选择分组标志 : 品

4、质标志(性别、质量等) 数量标志(数量、数值等) 2、划分各组界限,二、分组标志的选择与分组种类,16,统计先是思维而后才是数学,学生按性别分组,按品质标志分组,17,统计先是思维而后才是数学,某班学生按考试成绩分组,18,统计先是思维而后才是数学,按数量标志分组,某班学生按年龄频数分布,19,统计先是思维而后才是数学,2.1.2 次数分配,20,统计先是思维而后才是数学,次数分配是将总体按一定的标志分组,说明个体在各组之间的分布情况。是统计资料整理结果的一种重要表现。,次数分配:也称次数(频数)分布。 次数分配组成要素: 1、组的名称 2、各组次数(也称频数)或频率,21,统计先是思维而后才

5、是数学,22,统计先是思维而后才是数学,单变量值分组(要点),1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况,23,统计先是思维而后才是数学,例题分析,【例】某车间30名工人每周加工某种零件件数如右表。,24,统计先是思维而后才是数学,单变量值分组表(实例),变量值,25,统计先是思维而后才是数学,组距分组(要点),将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 必须遵循“不重不漏”的原则(上组限值不算在该组内) 可采用等距分组,也可采用不等距分组,26,统计先是思维而后才是数学,等距分组 各组的组距相等 各组频数的分布不受组距大小的影响 可

6、直接根据绝对频数来观察频数分布的特征和规律,27,统计先是思维而后才是数学,不等距分组 各组的组距是不相等 各组频数的分布受组距大小不同的影响,28,统计先是思维而后才是数学,等距分组步骤,1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,组数不应少于5组,也不应多于15组。 在实际分组时,可以按 Sturges 提出的经验公式来确定组数K(四舍五入取整),例如2-1的数据:,29,统计先是思维而后才是数学,2) 确定各组的组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值 - 最小值)组数

7、 例2.1的数据,最大值为128,最小值为84,则 组距(128 - 84)/67.3。 组距宜取5或10的倍数;(近似值) 在实践中,组数和组距要通过反复的实验确定,最终确定出最有意义的组数和组距的组合。,30,统计先是思维而后才是数学,3)确定组限:组限是分组的数量界限,是表明每组界限的两头数值。 下 限(low limit) :一个组的最小值 上 限(upper limit) :一个组的最大值 组限的具体形式有:重合组限和间断组限;闭口组限和开口组限。 确定组限的原则1:最小一组的下限必须包含数列中最小变量值;最大组的上限必须包含数列中最大变量值。 确定组限的原则2:遵循不重不漏的原则。

8、 “不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现; “不漏”在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。,31,统计先是思维而后才是数学,4)根据分组计算频数,整理成频数分布表:将原始数据按照各自的大小分配到各组中。,本例可以得到如下频数分布表,重合组限、闭口组限,32,统计先是思维而后才是数学,对于重合组限的形式,为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于其一组上限的变量值不算在本组内,而计算在下一组内。 重合组限既适用于连续型变量分组也适用于离散型变量分组,应用非常广泛。,33,统计先是思维而后才是数学,

9、对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决“不重”的问题。,34,统计先是思维而后才是数学,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“x x以下”及“x x以上”这样的开口组。 开口组通常以相邻组的组距作为其组距。 例如,在例21的30个数据中,假定将最小值改为64,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,如80以下;130以上。,开口组限:缺少上限或者下限的组限设置。,35,统计先是思维而后才是数学,开口组,36,统计先是思维而后才是数学,编制频数分布表的步骤,37,统计

10、先是思维而后才是数学,在研究分析次数分布时,还需要计算:累计频数和累计频率,1. 累计频数:将各类别的频数逐级累加。 有两种方法: 一是可以从最小组一方向最大组的一方累加频数,称为向上累积; 二是可以从最大组的一方向最小组的一方累加频数,称为向下累积。 累计频率:将各类别的频率(百分比)逐级累加,38,统计先是思维而后才是数学,例:累计频数和累计频率的计算,39,统计先是思维而后才是数学,在根据组距数列进行统计计算时,需要确定组中值,作为各组变量值的代表值。 组中值(class midpoint) :下限与上限之间的中点值。,概念:组中值,组中值这种代表有一个必要的假定条件,即各组数据在本组内

11、呈均匀分布或在组距中值两侧呈对称分布。 如实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。,40,统计先是思维而后才是数学,例:组中值计算,41,统计先是思维而后才是数学,在开口组中,组中值的计算以邻近组组距为依据,可见,开口组的组中值既假定变量值是均匀分布或对称分布,又假定组距与邻近组组距相等。,42,统计先是思维而后才是数学,例:组中值计算,次数分配表的编制(例题分析),【例】某车间30名工人每周加工某种零件件数如右表,试对数据进行分组。,使用Excel频数函数 (FREQUENCY),使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解

12、决这一问题。创建频数分布表的步骤是 选择与接受区域相临近的单元格区域,作为频数分布表输出的区域 选择统计函数中的“FREQUENCY”函数 在对话框Date-array后输入数据区域,在Bins-array后输入各组分界点 同时按下ctrl-shift-Enter组合键,即得到频数分布,统计函数FREQUENCY,次数分配表,46,统计先是思维而后才是数学,2.1.3 次数分配直方图,47,统计先是思维而后才是数学,1. 直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩

13、形,即直方图(Histogram) 直方图下的总面积等于1,48,统计先是思维而后才是数学,分组数据的图示(直方图的绘制),某车间工人周加工零件直方图,我一眼就看出来了,周加工零件在100110之间的人数最多!,高度表示每一组的频数或百分比,宽度则表示各组的组距,横轴标注的刻度应该是连续区间,49,统计先是思维而后才是数学,2.折线图,折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横

14、轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,50,统计先是思维而后才是数学,分组数据的图示(折线图的绘制),折线图与直方图 下的面积相等!,某车间工人周加工零件折线图,51,统计先是思维而后才是数学,3.次数分布曲线,当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,52,统计先是思维而后才是数学,频数分布曲线的类型,图 几种常见的频数分布,53,统计先是思维而后才是数学,2.1.4 洛伦兹曲线与基尼系数,54,统计先是思维而后才是数学,洛伦茨曲线(累积次数分配折线图),20世纪初美国经济学家

15、、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家帕累托(V. Pareto)提出的收入分配公式绘制而成的。 是描述收入和财富分配性质的曲线,分析该国家或地区分配的平均程度,累积的人口百分比,累积的收入百分比,绝对公平线,洛伦茨曲线,55,统计先是思维而后才是数学,基尼系数,20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标 A表示实际收入曲线与绝对平均线之间的面积 B表示实际收入曲线与绝对不平均线之间的面积 如果A=0,则基尼系数=0,表示收入绝对平均 如果B=0,则基尼系数=1,表示收入绝对不平均 基尼系数在0 和1之间取值 一般认为:

16、 基尼系数若小于0.2,表明分配平均; 基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公; 基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。,56,统计先是思维而后才是数学,2.2 分布集中趋势的测度,57,统计先是思维而后才是数学,集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值,58,统计先是思维而后才是数学,一、众数 二、中位数 三、四分位数 四、均值 五、几何均值 六、切尾均值 七、众数、中位数和均值的比较,59,统计先是思维而后才是数学,1.概念:在总体中出现次数最

17、多的那个标志值就是众数。,2.2.1 众数 M0,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。 例如:集市上某种蔬菜的成交价格(元)为: 0.8,0.9,0.9,1.0,1.2,1.2,1.2,1.2,1.5,1.5,1.6 1.2元出现次数最多,就是众数,60,统计先是思维而后才是数学,一组数据可能没有众数或有几个众数(不唯一性),61,统计先是思维而后才是数学,若有两个次数相等的众数,则称复众数。, 只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。,由定义可看出众数存在的条件:,62,统计先是思维而后才是数学,下三图无众数:, 在单

18、位数很少,或单位数虽多但无明显集中趋势时, 计算众数是没有意义的。,63,统计先是思维而后才是数学,1)定类数据的众数,众数=商品广告,对定序数据同样,2.众数的计算方法,64,统计先是思维而后才是数学,2)定序数据的众数,解:这里的数据为定序数据。变量为“回答类别” 城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,65,统计先是思维而后才是数学, 根据单项数列确定众数;,某种商品的价格情况,众数 M0=3.00(元),3)数值数据的众数,66,统计先是思维而后才是数学, 根据组距数列确定众数, 利用比例插值法推算众数的近似值。, 由最多次数来确定众

19、数所在组;,其中:L 众数组的下限; 1 众数组与前一组的频数之差 2 众数组与后一组的频数之差 i 众数组的组距,67,统计先是思维而后才是数学,表中100-110,即众数所在组。,68,统计先是思维而后才是数学,解:众数组是“100-110”的组,则,69,统计先是思维而后才是数学,众数的特点:,集中趋势的测度值之一 出现次数最多的变量值 众数是位置代表值,不受极端值的影响 可能没有众数或几个众数 适用于定类数据、定序数据、定量数据 众数所体现的统计思想是: 在一组数据的中心点附近,变量值出现的频数较高,根据众数组及相邻两组的频数分布,确定中心点的位置。,70,统计先是思维而后才是数学,在

20、某些情况下,众数是一个较好的代表值。 例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。 又如,当要了解大多数家庭的收入状况时,也要用到众数。 例:买菜 ; 适合于数据量较多时使用 众数值偏离众数组组中值得程度越大,分布的形状越偏,71,统计先是思维而后才是数学,1.概念: 将总体中各单位标志值按大小顺序排列, 居于中间位置的那个标志值就是中位数。,2.2.2 中位数 Me,72,统计先是思维而后才是数学,1)定序数据的中位数,表 某城市家庭对住房状况的评价,对于定序数据,确定中位数位置用:,中位数位置=300/2=150,中位数= 一般;

21、,2.中位数的计算方法,73,统计先是思维而后才是数学, 由未分组资料计算中位数,(a)先对数据进行排序 (b)确定中位数的位置,其公式为: (n为数据的个数),(c)最后确定中位数的具体数值,当n为偶数时,,当n为奇数时,,2)数值数据的中位数,74,统计先是思维而后才是数学,9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9,中位数 1080,75,统计先是思维而后才是数学,10个家庭的人均

22、月收入数据 排序: 660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,76,统计先是思维而后才是数学, 由分组数据确定中位数,a)要先根据公式:f /2,确定中位数的位置,并确定中位数所在的组。 f 总次数,77,统计先是思维而后才是数学,b)然后采用下面的公式计算中位数的近似值:,式中: f 为数据的个数,L为中位数所在组的下限,Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距 。,78,统计先是思维而后才是数学, 中位数是一种位置平均数,它也不受极端值 及开口

23、组的影响,具有稳健性。, 各单位标志值与中位数离差的绝对值之和是个 最小值。, 对某些不具有数学特点或不能用数字测定的现 象,可以用中位数求其一般水平。,3.中位数的特点,79,统计先是思维而后才是数学,2.2.3 四分位数(quartile),四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。,很显然,中间的四分位数就是中位数。 排序后处于25%和75%位置上的值,即通常说的第一个四分位数(下四分位数);第三个四分位数(上四分位数)。,80,统计先是思维而后才是数学,1.不受极端值的影响 2.主要用于定序数据,也可用于数量数据,但不能用于定类数据,特点:,81,统计先是

24、思维而后才是数学,定序数据四分位数(位置的确定),82,统计先是思维而后才是数学,定序数据的四分位数 (例题分析),解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。 四分位数为: QL = 不满意 QU = 一般,83,统计先是思维而后才是数学,1.未分组四分位数,原始数据: (未分组),当四分位数的位置不在某一个数值上,按比例分摊位置两侧数值的差值。,先排序;然后确定四分位数的位置,数量数据四分位数,84,统计先是思维而后才是数学,例:数量数据的四分位数(9个数据的算例),【例】:9个家庭

25、的人均月收入数据 原始数据:1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在815到1565元之间。,85,统计先是思维而后才是数学,例如:数量数据的四分位数(10个数据的算例),【例】:10个家庭的人均月收入数据 排序: 660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,Q

26、L和QU之间包含了50%的数据,可以说有一半的家庭人均收入在772.5到1532.5元之间。,86,统计先是思维而后才是数学,2.分组数据的四分数:,计算:,其中:L是四分位数所在组的下限值,S是以前组的累计频数;f是所在组的频数;i为组距。,87,统计先是思维而后才是数学,例:用表2.10的数据分布资料计算下四分位数。,表明25%的人口收入在2793元以下,收入在2793元以上的有75%的人口。,88,统计先是思维而后才是数学,2.2.4 均值(mean),均值是全部数据的算术平均,也称为算术平均数。 是集中趋势的最常用测度值 是一组数据的均衡点所在,体现了数据的必然性特征 易受极端值的影响

27、 用于数量数据,不能用于定类数据和定序数据,89,统计先是思维而后才是数学,1.简单算术平均数未分组的原始数据,原始数据,例:某生产小组有10名工人,日产零件分别为: 40,40,35,31,28,56,40,35,44,31件, 则该组10名工人平均每人日产量:,90,统计先是思维而后才是数学,2.加权算术平均数分组数据,各组组中值,其中: xi 表示第i 组的组中值; fi 是各组次数,也称为权数; k 表示分组的组数;,91,统计先是思维而后才是数学,加权均值 (例题分析),根据不分组的公式计算均值=103.5。 相差0.83件,92,统计先是思维而后才是数学,分析:,起到权衡轻重的作用

28、,决定平均数的变动范围,93,统计先是思维而后才是数学,94,统计先是思维而后才是数学,加权算术平均数受两因数的影响: 变量值大小的影响。 次数多少的影响。次数大的标志值对 影响大;反之,影响小。,而简单算术平均数只反映变量值大小这一因素的影响。,加权算术平均数与简单算术平均数不同在于:,95,统计先是思维而后才是数学,变量值与其算术平均数的离差之和恒等于零,即: 变量值与其算术平均数的离差平方和为最小,即:,算术平均数的主要数学性质,96,统计先是思维而后才是数学,离差的概念,-1,-1,-2,1,3,97,统计先是思维而后才是数学,思考题,比特啤酒公司雇用了468名员工,其中有56名管理人

29、员,130名行政和技术人员,其余282人是工人。这三组人的平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,?,98,统计先是思维而后才是数学,正确的计算方法,99,统计先是思维而后才是数学,1.几何平均数的概念和计算方法,2.2.5 几何平均数(又称“对数平均数”),是n个不同数值的连乘积的n次方根。,简单几何平均数,可看作是均值的一种变形,100,统计先是思维而后才是数学,也可看作是均值的一种变形,加权几何平均数,101,统计先是思维而后才是数学,某机械厂有毛坯、粗加工、精加工、装配车间四个流水线作业的车间。本月份一、二、三、四车间制品合格率分别为95

30、%、92%、90%、85%,计算平均车间产品合格率。,分析:,设最初投产100A个单位 ,则 第一车间的合格品为 100A0.95; 第二车间的合格品为(100A0.95)0.92; 第三车间的合格品为(100A0.950.92 )0.90 ; 第四车间的合格品为(100A0.950.920.90)0.85;,102,统计先是思维而后才是数学,因该流水线的最终合格品即为第四车间的合格品, 故该流水线总的合格品应为 100A0.950.920.900.85; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各车间合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,103,统

31、计先是思维而后才是数学,设本金为A,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和为:, ,第25年末的本利和为:,分析:,第25年的计息基础,投资银行某笔投资的年利率是按复利计算的,25年的年利率分配是:有1年为3%,有4年为5%,有8年为8%,有10年为10%,有2年为15%,求平均年利率。,104,统计先是思维而后才是数学,则该笔本金25年总的本利率为:,即25年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,105,统计先是思维而后才是数学,2.几何平均数的特点和用途,如果数列中有一个标志值等于零或负值,就无法计算

32、 ; 它适用于反映特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积。,主要应用于在动态数列中求平均发展速度、平均增减率等。,106,统计先是思维而后才是数学,2.2.6 切尾均值(trimmed Mean),1. 是去掉大小两端的若干数值后计算中间数据的均值 2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用 3.计算公式为,n 表示观察值的个数;表示切尾系数,,107,统计先是思维而后才是数学,切尾均值(例题分析),【例】某次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,108,统计先是思维而

33、后才是数学,数据两端切去几个数据,通过切尾系数决定,,切尾均值就是算术平均数。 接近1/2时,切尾均值是中位数。 切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个优点而形成的统计量。当切尾系数等于0或接近1/2时,切尾均值公式变为算术平均数和中位数公式,是切尾均值的两种特例。,109,统计先是思维而后才是数学,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 均值 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,2.2.7 众数、中位数和均值之间的关系,110,统计先是思维而后才是数学,1.当总体

34、分布呈对称状态时,三者合而为一,111,统计先是思维而后才是数学,2. 当总体分布呈非对称状态时,112,统计先是思维而后才是数学,f,X,113,统计先是思维而后才是数学,在轻度偏斜的情况下,三者的关系可以用卡尔皮尔逊经验公式表示:,114,统计先是思维而后才是数学,一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:,115,统计先是思维而后才是数学,数据类型和所适用的集中趋势测度值,* 表示最适合,116,统计先是思维而后才是数学,2.3 分布离散程度的测度,117,统计先是思维而后才是数学,离散程度或离中程度,反映的是各变量值远离其中心值的程度,是

35、数据分布的另一个重要特征,从另一个侧面说明了集中趋势测度值的代表程度,118,统计先是思维而后才是数学,甲、乙两学生某次考试成绩列表,甲、乙两学生的平均成绩为80分,集中趋势一样,但是他们偏离平均数的程度却不一样。乙组数据的离散程度大,数据分布越分散,平均数的代表性就越差;甲组数据的离散程度小,数据分布越集中,平均数的代表性越大。, 是评价平均数代表性的依据。,离散程度测度的作用:,119,统计先是思维而后才是数学, 可用来反映社会生产和其他社会经济活动过程的均衡性或协调性,以及产品质量的稳定程度。,变异指标小,说明社会经济活动过程均衡,120,统计先是思维而后才是数学,如在抽样调查中,根据样

36、本指标来推断总体指标,通过计算离散程度确定推断的准确程度及误差大小。, 确定推断的准确程度。,121,统计先是思维而后才是数学,一、极差 二、四分位差 三、方差和标准差 四、离散系数,122,统计先是思维而后才是数学,极差也称全距,是总体各单位标志值最大值和最小值之差。,计算公式为 未分组数据: R = max(xi) - min(xi) 组距分组数据: R=最高组上限-最低组下限 显然,数据的分散程度越大,极差就越大。 例:10名工人生产零件数: 10,20,30,40,50,60,70,80,90,100 R=100-10=90,2.3.1 极差R,123,统计先是思维而后才是数学,【例】

37、某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度计划完成程度的全距。,124,统计先是思维而后才是数学, 优点: 计算方便,易于理解。, 缺点: 极差只考虑数列两端数值差异,它是测定离散程度的一种粗略方法,不能全面反映总体各单位标志的变异程度。,2. 极差的特点,125,统计先是思维而后才是数学,也称四分位差或称四分间距; 是上四分位数与下四分位数之差 内 距= QU QL 反映了中间50%数据的离散程度;数值越小,说明中间数据越集中;数值越大,说明数据越分散。 不受极端值的影响; 可用于衡量中位数的代表性; 内距主要用于测度定序数据,对数量数据也可以,但是不适用于定类数

38、据。,2.3.2 内距(Inter-Quartile Range,IQR),126,统计先是思维而后才是数学,解:设非常不满意为1,不满意为2, 一般为3, 满意为4, 非常满意为5 。 已知 QL = 不满意 = 2 QU = 一般 = 3 四分位差: Qd = QU = QL = 3 2 = 1,例如:定序数据计算四分位差(通常需要将各类别数值化),相差一个等级,说明在中位数(一般)的两侧共有50%的家庭对住房的满意状况在不满意和一般之间,127,统计先是思维而后才是数学,方差是离差平方的平均数。 标准差是离差平方平均数的平方根,故又称“均方差。,2.3.3 标准差和方差,数据离散程度的最

39、常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差 只适合测度数量数据,128,统计先是思维而后才是数学,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,组中值,样本方差和标准差,129,统计先是思维而后才是数学,样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x

40、= 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,130,统计先是思维而后才是数学,与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,更多使用标准差。 方差或标准差是根据全部数据计算的。它反映了每一个数据与其均值相比平均相差的数值,所以,能够准确反映数据的离散程度。,131,统计先是思维而后才是数学,用甲乙两个生产小组工人工资资料,在平均工资相等(1000元)的情况下,乙组标准差小于甲组,因而其平均数的代表性比甲组大。,1

41、32,统计先是思维而后才是数学,样本标准差 (例题分析),133,统计先是思维而后才是数学,含义:每一天的销售量与平均数相比, 平均相差21.58台,134,统计先是思维而后才是数学,离散系数,是反映总体各单位标志值的相对离散程度。,2.3.4 离散系数(标准差系数) V,可以消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较,135,统计先是思维而后才是数学,标准差系数,136,统计先是思维而后才是数学,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班

42、成绩的标准差系数为:,因为 ,所以一班平均成绩的代表性比二班大。,137,统计先是思维而后才是数学,数据类型和所适用的离散程度测度值,* 表示最适合,138,统计先是思维而后才是数学,2.4 分布偏态与峰度的测度,2.4.1 偏态及其测度 2.4.2 峰度及其测度,139,统计先是思维而后才是数学,2.4.1 偏态(skewness)及其测度,统计学家Pearson于1895年首次提出 偏态是对分布偏斜方向及程度的测度。 判别偏态的方向并不困难,利用中位数和均值的关系。,140,统计先是思维而后才是数学,测度偏斜的程度需要计算偏态系数。 对分组数据,其计算公式为 :,式中:SK表示偏态系数,

43、s3是标准差的三次方, xi (Mi)是组中值,偏态系数 SK=0 为对称分布 偏态系数 SK0 为右偏分布 偏态系数 SK0 为左偏分布 SK的绝对值越大,表示偏斜的程度就越大,141,统计先是思维而后才是数学,偏态系数(例题分析),142,统计先是思维而后才是数学,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,143,统计先是思维而后才是数学,偏态(从直方图上观察),按销售量分组(台),结论:右偏分布,某电脑公司销售量分布的直方图,144,统计先是思维而后才是数学,2.4.2 峰度(kurtosis)及其测度,

44、统计学家Pearson于1905年首次提出 峰度是分布集中趋势高峰的形状。记为K,是对数据分布平峰或尖峰程度的测度。,145,统计先是思维而后才是数学,它通常是与标准正态分布相比较而言,146,统计先是思维而后才是数学,峰度系数计算公式为,式中:K表示偏态系数, s4是标准差的四次方, xi 是组中值,峰态系数 K=0 标准正态分布 峰态系数 K0 为尖峰分布 注意:公式中也可以不减3。此时,当K3时为平峰分布;当K3时为尖峰分布。,147,统计先是思维而后才是数学,峰态系数(例题分析),148,统计先是思维而后才是数学,峰态系数 (例题分析),结论:峰态系数为负值,但与0的差异不大,说明电脑

45、销售量为轻微平峰分布,2.5 统计表与统计图,一、统计表 二、统计图,一、统计表 (一)统计表的结构,行标题,列标题,数字资料,表头,附加,2.5 统计表与统计图,(1)合理安排统计表的结构 (2)总标题内容应满足3W(where,when,what) 要求 (3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明 (4)表中上下两条横线一般用粗线,其他线用细线 (5)通常情况下,统计表的左右两边不封口 (6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 (7)对于没有数字的表格单元,一般用“”表示 (8)必要时可在表的下方加上注释,(

46、二)设计和使用统计表的注意事项,2.5 统计表与统计图,一、统计图(一)茎叶图(stem-and-leaf display),用于显示未分组的原始数值型数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留一位数字 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,2.5 统计表与统计图,茎叶图(例题分析),茎叶图(扩展的茎叶图),(二)箱线图(box plot),用于显示未分组的原始数值型数据的分布 箱线图由一组

47、数据的5个特征值绘制而成,它由一个箱子和两条线段组成 箱线图的绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,2.5 统计表与统计图,箱线图(箱线图的构成),箱线图(例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图 (例题分析),【例】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图 (例题分析),本章小结,统计数据的整理 分布集中趋势的测度 分布离散程度的测度 偏态系数与峰态系数 统计表与统计图,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!