统计学课件第3章数据的描述

上传人:无*** 文档编号:188447479 上传时间:2023-02-19 格式:PPT 页数:90 大小:1.12MB
收藏 版权申诉 举报 下载
统计学课件第3章数据的描述_第1页
第1页 / 共90页
统计学课件第3章数据的描述_第2页
第2页 / 共90页
统计学课件第3章数据的描述_第3页
第3页 / 共90页
资源描述:

《统计学课件第3章数据的描述》由会员分享,可在线阅读,更多相关《统计学课件第3章数据的描述(90页珍藏版)》请在装配图网上搜索。

1、 第3章 数据的描述 统计图与统计表数据集中趋势的数值描述数据离散程度的数值描述数据分布的形态本章要回答的问题常用的统计图表有哪些?如何绘制和解释其含义?通常使用哪些数值指标描述数据的特征?如何计算?3.1 统计图与统计表绘制统计图一般都需要先对数据进行统计分组,在得到的频数分布表的基础上制图。zhi 3.1.1 统计分组与频数分布统计分组:就是按照研究目的将数据分成若干组的统计方法。关键:关键:选择分组变量和划分各组界限例如按照考试成绩把学生分为优、良、中、及格、不及格。统计分组的结果是形成频数分布(分布数列,Frequency Distribution)。频数分布举例两个构成要素:各组的分

2、组界限每组中的次数或频率通过频数分布表可以发现数据分布的特征。频数(frequency):每个组中的数据个数,也称次数。频率(relative frequency):频数/总数据个数。成绩成绩人数人数频率频率60以下以下37.14%60-70819.05%70-801228.57%80-901535.71%90以上以上49.52%合计合计42100.00%分组方法等距分组等距分组不等距分组不等距分组单变量值分组单变量值分组组距分组组距分组分组方法分组方法按品质变量分组按品质变量分组按数量变量分组按数量变量分组单变量值分组将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。例如某学院2

3、008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。发表论文篇数人数2345668532合计24组距分组将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。分组必须遵循“不重不漏”的原则。分为等距与不等距分组。各组组距都相等时为等距分组。为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。应用中可能需要把第一组和/或最后一组设为开口组。组距分组的步骤1、确定组数:通常为5到15(20)组。Sturges 提出的经验公式:分组组数K应满足2 2、确定组距和各组界限,建议为、确定组距和各组界限,建议为5,105,10的倍数。的倍数。组距组距(最大值最

4、大值 -最小值)最小值)组数组数 3 3、根据分组整理成频数分布表、根据分组整理成频数分布表)2lg()lg(1nK,2Kn组距分组中的基本概念1、下 限:一个组的最小可能值2、上 限:一个组的最大可能值3、组 距:上限与下限之差4、组中值:下限与上限之间的中点值,(下限+上限)/2。开口组的组中值可以按以下方法计算开口组的组中值可以按以下方法计算:缺下限:上限缺下限:上限-邻组组距邻组组距/2缺上限:下限缺上限:下限+邻组组距邻组组距/2但许多作者认但许多作者认为无法计算开为无法计算开口组的上限或口组的上限或下限。下限。等距分组表:上下组限间断某车间50名工人日加工零件数分组表按零件数分组频

5、数(人)频率(%)105109110114115119120124125129130134135139358141064610162820128合计50100等距分组表(上下组限重叠,上组限不在内)某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105110110115115120120125125130130135135140358141064610162820128合计50100等距分组表:(使用开口组)某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110115115120120125125130130135135以上358141064610

6、162820128合计501003.1.2 列联表(Contingency table)如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation)。)。列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。列联表中的数字为交叉单元格中的频数或频率。以列联表为基础可以对两个变量之间的关系进行多种统计检验。列联表举例市场营销专业的男生有10人。市场营销专业统计学专业合计男生102030女生301545合计4035753.1.3 常用统计图数据类型数据类型定性

7、数据定性数据定量数据定量数据条形图条形图饼饼 图图线线 图图茎叶图茎叶图箱线图箱线图直方图直方图条形图(Bar Chart)用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。2003年我国就业人员情况(万人)圆形图(Pie Chart)也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。2003年我国国内生产总值中各产业比重直方图(Histogram)用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意对

8、不等距分组:纵轴必须表示为频数密度频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。直方图(等距分组)某会计师事务所对某会计师事务所对20家公家公司进行年终审计所需时间司进行年终审计所需时间(天)的频数分布表(天)的频数分布表审计时间(天)频数10-15415-20820-25525-30230-351合计20直方图(不等距分组)某会计师事务所对某会计师事务所对20家公家公司进行年终审计所需时间司进行年终审计所需时间(天)的频数分布表(天)的频数分布表审计时间(天)频数频数密度10-1540.815-2081.620-2

9、55125-3530.3合计20-直方图与条形图的异同都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。折线图(Frequency polygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴

10、,最后一个矩形顶部中点与其竖边中点连接到横轴。组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。审计时间的折线图茎叶图(Stem-and-Leaf Display)主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:21,24,24,26,27,27,30,32,38,41茎叶图:3 0 2 84 12 1 4 4 6 7 730SPSS

11、Statistics生成的一个茎叶图40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64 Stem-and-Leaf Plot Frequency Stem&Leaf 9.00 2.677888999 4.00 3.3344 8.00 3.1 0.00 4.0011222233 3.00 4.588 4.00 5.0112 1.00 5.5 1.00 Extremes (=64)Stem

12、 width:10.00 Each leaf:1 case(s)线图(Line Chart)利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。1996年-2003年城乡居民人民币储蓄存款年底余额 3.1.4 绘制统计图时的注意事项1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当 ,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。绘制统计图时的注意事项2、图形要尽量简明。图形应该突出所要传达的信息,不

13、必要的标签、背景、网格线、等会分散读者的注意力。3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。不恰当的统计图形举例:纵横比例下图增长速度惊人下图增长速度惊人。上图增长速度缓慢。上图增长速度缓慢。不恰当的统计图形举例:三维效果不必要的三维效果:三维图形可能比二维图不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。的趋势,不能用来进行精确的比较。不恰

14、当的统计图形举例:图形类型1960:$1.001970:$1.601980:$3.101990:$3.80Minimum Wage不好的图形不好的图形好的图形好的图形Minimum Wage0241960197019801990$不恰当的统计图形举例:压缩纵轴Quarterly Sales不好的图形不好的图形0100200Q1Q2Q3Q4$好的图形好的图形Quarterly Sales02550Q1Q2Q3Q4$不恰当的统计图形举例:纵轴无零点好的图形好的图形Monthly Sales不好的图形不好的图形36394245JFMAM J$Monthly Sales 0394245JFMAMJ$3

15、63.1.5 统计表统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。统计表的构成 表表 3-1 2003年我国就业基本情况年我国就业基本情况 项目项目20012002 2003经济活动人口 (万人)就业人员合计 (万人)城镇登记失业人数(万人)城镇登记失业率 ()74432730256813.6 75360737407704.0 76075744328004.3 资料来源:2004年统计年鉴中国统计出版社注:199

16、0年至2000年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计。行行标标题题表头表头列列标标题题数数字字资资料料附加附加统计表的制作要求原则:科学、实用、美观、简练。标题简明扼要,满足3W要求(When,Where,What)。结构合理,长宽比例要适当。统计表为“开口式”;表的上下两条横线一般用粗线,其他线用细线,线条要少。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点

17、的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。必要时可在表的下方加上注释。3.2 数据描述的数值方法数据描述的数值方法数据描述的数值方法分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散系数离散系数方差和标准差方差和标准差峰峰 度度四分位距四分位距极差极差偏偏 态态3.2.1 集中趋势常用的集中趋势的测度指标:算术平均数中位数众数l集中趋势:一组数据向其中心值靠拢的倾向和程度。l集中趋势测度:寻找数据水平的代表值或中心值。1 算术平均数(均值,Arithmetic Mean)x总体均值常用 表示。样本均值常用 表示。样本均值的计算

18、公式:简单平均数:加权平均数(分组数据):或_Xnxxnii1kiikiiiffxx11算术平均数(例子)某企业的工会随机调查了20名工人2005年6月加班的小时数,结果如下:该组数据算术平均数等于(13+18+12)/20=11.6(小时)。1318121571551217712109131219671112加权算术平均数(例子)在前面的例子中,假设我们只得到了分组后的资料:该组数据算术平均数等于245/20=12.25(小时)。分组分组人数人数5-105-106 610-1510-159 915-2015-205 5合计合计2020分组人数组中值xf5-1067.54510-15912.5

19、112.515-20517.587.5合计20-245关于计算结果的说明根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。算术平均数的性质1、所有的定量数据都有算术平均数。2、计算算术平均数时使用了所有数据。3、一组数只有一个均值。4、各变量值与均值的离差之和等于零。0)(xx张村有个张千万,张村有个张千万,九个邻居穷光蛋;九个邻居穷光蛋;统计平均算资产,统计平均算资产,个个都是张百万。个个都是张百万。l缺点:l易受极端值的影响。l严格来说无法根据有开口组的分组数据计算算术平

20、均数。2 中位数(Median)一组数据按大小顺序排列后,处在数列中点位置的数值。特点:对一组数据是唯一的。不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据。根据原始数据计算中位数n为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=73 众数(Mode)一组数据中出现次数最多的变量值。主要特点:不受极端值的影响。有的数据无众数或有多个众数。对未分组定量资料很少使用。众数的不惟一性众数众数无众数无众数众数众数 1众数众数2众数、中位数和算术平均数的关系

21、_23xMMeo0_MMxe对称分布对称分布 均值均值=中位数中位数=众数众数分配为钟形、轻微不对称的经验公式:分配为钟形、轻微不对称的经验公式:)(2_xMMMeeo左偏分布左偏分布均值均值 中位数中位数 众数众数0_MMxe右偏分布右偏分布众数众数 中位数中位数均值均值_0 xMMe小结:平均数、中位数、众数的特点算术平均数:易受极端值影响(使用了全部数据)数学性质优良,主要用于数值型数据数据对称分布或接近对称分布时应用中位数:不受极端值影响数据分布偏斜程度较大时应用;主要用于顺序数据众数:不受极端值影响不具有惟一性数据分布偏斜程度较大时应用;主要用于分类数据4 分位数(Quantile)

22、把顺序排列的一组数据分割为若干相等部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。常用的有四分位数、十分位数、百分位数。四分位数(Quartile):Q1 Q2 Q3 十分位数(Decile):D1 D2 D9百分位数(percentile):P1 P2 P99四分位数(Quartile)数据按大小顺序排序后把分割成四等分的三个分割点上的数值。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,

23、(3 n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。四分位数计算(例子)25.84)110(35.54)110(275.24110321位置位置位置QQQ排序后的数据:2,5,6,7,8,9,10,12,15,1675.12)1215(25.0125.82/)98(75.5)56(75.05321QQQ不能整除时需加权平均:位置 2 2.75 3 数值 5 60.75(6-5)=0.755、平均发展水平和平均发展速度对时间序列计算平均数有一些特殊问题需要对时间序列计算平均数有一些特殊问题需要注意。注意。平均发展水平的计算平均发展水平的计算平均发展速度、平均增长速

24、度的计算平均发展速度、平均增长速度的计算相关基本概念时间序列中每一个观测值称为发展水平。时间序列中每一个观测值称为发展水平。要研究的那个时间的发展水平称为要研究的那个时间的发展水平称为报告期报告期水平,作水平,作为比较基础的时间的发展水平称为为比较基础的时间的发展水平称为基期基期水平。水平。根据观测值表现形式的不同可以分为绝对数、相对根据观测值表现形式的不同可以分为绝对数、相对数或平均数时间序列。数或平均数时间序列。绝对数绝对数时间序列又可分为时期序列和时点序列。时间序列又可分为时期序列和时点序列。时期序列:不同时期的观测值可以相加,相加结时期序列:不同时期的观测值可以相加,相加结果表明现象在

25、更长一段时间内的活动总量。果表明现象在更长一段时间内的活动总量。时点序列:不同时点的观测值相加没有实际意义时点序列:不同时点的观测值相加没有实际意义。时间序列举例GDPGDP,亿元,亿元20002000年价格年价格年末人口数年末人口数万人万人GDPGDP指数指数CPICPI1991199137296.99 37296.99 115823115823109.1 109.1 103.4103.41992199242555.87 42555.87 117171117171114.1 114.1 106.4106.41993199348130.69 48130.69 118517118517113.1

26、 113.1 114.7114.71994199454195.15 54195.15 119850119850112.6 112.6 124.1124.11995199559072.72 59072.72 121121121121109.0 109.0 117.1117.11996199664861.84 64861.84 122389122389109.8 109.8 108.3108.31997199770439.96 70439.96 123626123626108.6 108.6 102.8102.81998199875944.61 75944.61 124761124761107.8

27、 107.8 99.299.21999199981390.56 81390.56 125786125786107.2 107.2 98.698.62000200088228.10 88228.10 126743126743108.4 108.4 100.4100.4资料来源:中国统计年鉴2002平均发展水平(1)将不同时期的发展水平加以平均得到的平均数称为将不同时期的发展水平加以平均得到的平均数称为平均发展水平。平均发展水平。对于时期序列、时点序列和相对数序列、平均数序对于时期序列、时点序列和相对数序列、平均数序列,平均发展水平的计算方法有所不同。列,平均发展水平的计算方法有所不同。zhi平均

28、发展水平(2)(1)时期序列:nanaaaaniin121.按时期序列的公式计算。(2)“连续”时点序列:平均发展水平(3)先计算出两个点之间的平均数,再用相隔的时期长度 加权计算总的平均数。12.2321naaaaan如果各时点之间的间隔相等,公式可简化为12111232121.2.22nnnnffffaafaafaaaa1a2a3ana4an-1f1f2f3fn-1(3)不连续的时点序列:平均发展水平(4)(4)根据相对数和平均数时间 序列计算序时平均数:bac 举例1、如何计算、如何计算1991年年-2000年我国的年平均年我国的年平均GDP?2、如何计算、如何计算1991年年-2000

29、年我国的年均人口数?已年我国的年均人口数?已知知1990年年末的人口数为年年末的人口数为114333万人。万人。3、计算、计算19912000年我国的人均年年我国的人均年GDP。GDPGDP,亿元,亿元20002000年价年价格格年末人口年末人口数数万人万人1991199137296.99 37296.99 1158231158231992199242555.87 42555.87 1171711171711993199348130.69 48130.69 1185171185171994199454195.15 54195.15 1198501198501995199559072.72 59

30、072.72 1211211211211996199664861.84 64861.84 1223891223891997199770439.96 70439.96 1236261236261998199875944.61 75944.61 1247611247611999199981390.56 81390.56 1257861257862000200088228.10 88228.10 126743126743Answer1、2、3、(亿亿元元)65.622111naanii(万人)2.12095811121267431158232114333Y万元5143.02.12095865.622

31、11bac发展速度和增长速度发展速度是是序列中两个发展水平相比的结果。可发展速度是是序列中两个发展水平相比的结果。可以分为环比发展速度和定基发展速度。以分为环比发展速度和定基发展速度。基期水平报告期水平=发展速度l定基发展速度等于相应各环比发展速度的连乘积;定基发展速度等于相应各环比发展速度的连乘积;l环比发展速度等于相邻两个定基发展速度之商。环比发展速度等于相邻两个定基发展速度之商。l 发展速度发展速度-100%-100%等于增长速度。等于增长速度。1=iiaa环比发展速度0=aai定基发展速度用几何平均法计算平均发展速度几何平均数等于n 个变量值乘积的 n 次方根,常用于计算平均的比率、增

32、长率等。简单几何平均数简单几何平均数 nniinnXXXXG121可看作是均值的一种变形可看作是均值的一种变形nxxxxnGniin121lg)lglg(lg1lg几何平均法的含义l从最初水平从最初水平a0出发,每期按平均发展速度发展出发,每期按平均发展速度发展,经过,经过n期后将达到最末期水平期后将达到最末期水平anl只与序列的最初观察值只与序列的最初观察值a0和最末观察值和最末观察值an有关有关。nnnnnaaaaaaaax011201Example1、计算、计算1992年年-2000年我国年我国GDP的年增长率的年增长率和年平均增长率。和年平均增长率。2、计算、计算1992年年-2000

33、年我国年末人口的年增年我国年末人口的年增长率和年平均增长率。长率和年平均增长率。GDPGDP,亿元,亿元20002000年价格年价格年末人口数年末人口数万人万人1991199137296.99 37296.99 1158231158231992199242555.87 42555.87 1171711171711993199348130.69 48130.69 1185171185171994199454195.15 54195.15 1198501198501995199559072.72 59072.72 1211211211211996199664861.84 64861.84 1223

34、891223891997199770439.96 70439.96 1236261236261998199875944.61 75944.61 1247611247611999199981390.56 81390.56 1257861257862000200088228.10 88228.10 126743126743AnswerGDPPopulationGDPPopulation199137296.99115823-199242555.8711717114.100011.163845199348130.6911851713.11.148748199454195.1511985012.5999

35、91.124733199559072.721211219.0000121.060492199664861.841223899.7999891.046887199770439.961236268.6000031.010712199875944.611247617.8146690.918092199981390.561257867.170950.821571200088228.11267438.4009010.76081610.039381.0061193.2 数据描述的数值方法数据描述的数值方法数据描述的数值方法分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值

36、离散系数离散系数方差和标准差方差和标准差峰峰 度度四分位距四分位距极差极差偏偏 态态3.2.2 离散程度反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。不同类型的数据有不同的离散程度测度指标。l常用指标:l全距(极差)l四分位距l方差和标准差l离散系数1 全距(Range)全距也称极差,是一组数据的最大值与最小值之差。R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。全距=?2,5,6,7,8,9,10,12,15,16,202 四分位距(Inter-Quartile Range,IQR)等于上四分位数与下四分位数之差反映了

37、中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。13QQIQR2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=153 方差和标准差方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。方差的计算公式总体方差 样本方差 未分组数据分组数据 NXXNii122)(KiiKiiiffXX1122)(1)(122nxxsniikiikiiiffxxs11221)(样本方差用(样本方差用(n-1)去除,)去除,从

38、数学角度看是从数学角度看是因为它是总体方差因为它是总体方差2的无偏估计量。的无偏估计量。标准差(例子)某工会随机调查了5名工人上月的加班时间如下表,平均加班时间为13小时。计算数据的标准差。06.41566s加班小时加班小时数数绝对离差离差平方13130018185251212111515247 7636合计合计1466加班小时加班小时数数13131818121215157 74 离散系数(Coefficient of Variation)标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差

39、悬殊,离散系数可能比标准差等绝对指标更有意义。(样本)或(总体)xscvXCV离散系数:例子l对30名经理人员的调查表明年平均收入=$500,000,标准差=$50,000。l对30名工人的调查表明平均收入=$32,000,标准差=$5,000。l离散系数:l经理人员:l工人:l虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。%10%10050000050000cv%625.15%100320005000cv3.2.3 数据分布形状的描述数据描述的数值方法数据描述的数值方法分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散

40、系数离散系数方差和标准差方差和标准差峰峰 度度四分位距四分位距极差极差偏偏 态态偏态和峰度的类型左偏分布左偏分布右偏分布右偏分布扁平分布扁平分布峰态峰态尖峰分布尖峰分布1 偏态及其测定(Skewness)数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:3)()2)(1(sxxnnnSKi偏态系数的含义左偏分布左偏分布(也称负偏分布也称负偏分布):偏态系数偏态系数 SK 0;偏态系数的;偏态系数的绝对值越大,偏斜越严重。绝对值越大,偏斜越严重。数据向右边数据向右边延伸得更多延伸得更多对称分布

41、:偏态系数对称分布:偏态系数=0。2 峰度及峰度系数(Kurtosis)峰度:数据分布的扁平或尖峰程度。峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。统计软件(如Excel等)中常用以下公式计算:)3)(2()1(3)()3)(2)(1()1(24 nnnsxxnnnnnKi峰度系数的含义扁平分布扁平分布尖峰分布尖峰分布峰度系数峰度系数K0,与正,与正态分布相比该分布一态分布相比该分布一般为尖峰、肥尾,肩般为尖峰、肥尾,肩部较瘦。部较瘦。均值和方差均值和方差相同的正态相同的正态分布分布3、箱线图(Box Plot)用于描述数据分布特征的一种图形。最简单的箱线图可

42、以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。数据:数据:2,5,6,7,8,9,10,12,15,20,35403020100-

43、10箱线图箱线图Q1Q2Q3IQR=91.5*IQR=13.51.5*IQR=13.5离群点分布的形状与箱线图对称分布对称分布Q1中位数中位数 Q3左偏分布左偏分布Q1中位数中位数 Q3右偏分布右偏分布Q1 中位数中位数 Q34 数据的 Z值也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。Z值的均值等于0,标准差等于1。是对某一个值在一组数据中相对位置的度量。例如,z0说明观测值大于均值。z0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差。sxxzii工人加班时间的标准化值xx加班加班小时数小时数13130 00.00 0.00 18185 51.23 1.23 1212-1-1-0.25-0.25 15152 20.49 0.49 7 7-6-6-1.48-1.48 工人加班时间工人加班时间的数据,的数据,均值等于均值等于13,s=4.06。sxxzii统计软件的描述统计结果:Excel(教师年龄)统计软件的描述统计结果SPSS(教师年龄)小结:本章要点(1)统计数据的分组和频数分布;列联表条形图、圆形图、直方图、线图,茎叶图的绘制和应用统计表的构成一般要由表头、行标题、列标题、数据资料组成绘制统计图表的注意事项集中趋势是一组数据向其中心值靠拢的倾向和程度。常用测度指标有:算术平均数、众数、中位数、分位数等。平均发展水平和平均发展速度的计算

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!