统计学课件:03 分布数量特征的统计描述

上传人:努力****83 文档编号:192452760 上传时间:2023-03-06 格式:PPTX 页数:154 大小:1.42MB
收藏 版权申诉 举报 下载
统计学课件:03 分布数量特征的统计描述_第1页
第1页 / 共154页
统计学课件:03 分布数量特征的统计描述_第2页
第2页 / 共154页
统计学课件:03 分布数量特征的统计描述_第3页
第3页 / 共154页
资源描述:

《统计学课件:03 分布数量特征的统计描述》由会员分享,可在线阅读,更多相关《统计学课件:03 分布数量特征的统计描述(154页珍藏版)》请在装配图网上搜索。

1、统计学statistics第三章第三章 分布数量特征的统计描述分布数量特征的统计描述 分布的平均水平、集中趋势和位置的度量 分布的离散程度的度量 分布的偏度和峰度第一节第一节 分布的平均水平、集中趋势和位置的度量分布的平均水平、集中趋势和位置的度量 统计平均数的含义与作用 数值平均数 众数和中位数反映集中趋势的指标反映集中趋势的指标反映集中趋势的主要指标反映集中趋势的主要指标众数中位数数值平均数位置平均数主要类型主要类型算术平均数调和平均数几何平均数q 数值平均数数值平均数q 概念:以分配数列的所有各项数据来计算的平均数,用以反映分配数概念:以分配数列的所有各项数据来计算的平均数,用以反映分配

2、数列的所有各项数值的平均水平。列的所有各项数值的平均水平。q特点:平均数受数列其它数值的影响。特点:平均数受数列其它数值的影响。q 位置平均数位置平均数q所谓位置平均数是根据数列中处于特殊位置上的个别单位或部分单位所谓位置平均数是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的的标志值来确定的。第一节第一节 分布的集中趋势分布的集中趋势 统计平均数的含义与作用 数值平均数 众数和中位数反映集中趋势的主要指标反映集中趋势的主要指标众数众数中位数中位数数值平均数数值平均数位置平均数位置平均数主要类型主要类型算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数总体单位总数总体标志

3、总量平均数算术总产量总成本平均成本职工人数工资总额平均工资直接承担者直接承担者注意区分算术平均数与强度相对数 在计算平均指标时,分子与分母必须同属一个总体,具有一一对应在计算平均指标时,分子与分母必须同属一个总体,具有一一对应关系,即有一个总体单位,必有一个标志值与之对应。关系,即有一个总体单位,必有一个标志值与之对应。强度相对指标是两个有联系的不同总体的总量指标对比的结果,这强度相对指标是两个有联系的不同总体的总量指标对比的结果,这两个总量指标没有依存关系。两个总量指标没有依存关系。全国总人口数钢产量人均钢产量 全国钢铁工人数钢产量平均钢产量全国钢铁工人强度相对指标:强度相对指标:算术平均数

4、:算术平均数:适用于总体资料未经分组适用于总体资料未经分组整理、尚为原始资料的情况整理、尚为原始资料的情况121NiNixxxxxNN平均每人日销售额为:520600480750440527905585xxN元【例例】11221121miimmimmiix fx fx fxfxffff日产量(件)日产量(件)工人人数(人)工人人数(人)xf101112131470100380150100合计合计8001110701410070100971012.1375(800miiimiix fxf件)11miiimiixfxf成绩(分)成绩(分)人数(人)人数(人)甲班甲班乙班乙班丙班丙班60391201

5、0013920平均成绩平均成绩(分分)619980 xffxxff ff权权数数的的形形式式成绩成绩(分分)人数人数(人人)比重比重(%)(%)组中值组中值(X)(X)60以下61255607012246570801938758090102085901003695合合 计计5010031019126395108519751265655x4.73%695%2085%3875%2465%1255x4.73权数与加权23456781924.421191817263554432221x算术平均数的计算取决于变量值算术平均数的计算取决于变量值和权数的共同作用:和权数的共同作用:变量值决定平均数的范围;变

6、量值决定平均数的范围;权数则决定平均数的位置权数则决定平均数的位置资本金利润率资本金利润率xi(%)企业数企业数资本金总额资本金总额fi(万元万元)利润总额利润总额xifi(万元万元)510158664010016021024合合 计计2030036405%100 10%160 15%3612%40100160300iiix ff平均利润率=在统计中,经常将定类尺度和定序尺度的数据在统计中,经常将定类尺度和定序尺度的数据资料之间的类别差异过渡到数量上的变异,然资料之间的类别差异过渡到数量上的变异,然后再计算平均数。后再计算平均数。例如:性别、产品合格与否之类的品质标志。经例如:性别、产品合格与

7、否之类的品质标志。经过以过以1 1作为作为“是是”的单位的标志值,以的单位的标志值,以0 0作为作为“非非”的单位的标志值。的单位的标志值。计算公式:计算公式:10iiix fpqxpfpq其中,p为合格率,q为不合格率。p 也称为总体中具有某种属性的单位成数,它是一种是非标志平均数1x2x3x4x5x6x123456785x-1-1-2130)1(13)2(01)(xx16)1(13)2(01)(2222222xx思考题思考题 比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主

8、管希望计算全体员工的平均工资。500300200333.33()3ixxN英镑正确的计算方法正确的计算方法50056300 13020028256130282263.68()xfxf英镑1.1.算术平均数与变量值个数的乘积等于各算术平均数与变量值个数的乘积等于各变量值的总和,即:变量值的总和,即:2.2.变量值与其算术平均数的离差之和恒等变量值与其算术平均数的离差之和恒等于零,即:于零,即:3.3.变量值与其算术平均数的离差平方和为变量值与其算术平均数的离差平方和为最小,即:最小,即:0)(xxx nx min)(2xx4.4.某变量的线性式的平均等于该变量平均某变量的线性式的平均等于该变量平

9、均的线性式,即:的线性式,即:5.5.n n个独立变量代数和的平均数等于各变个独立变量代数和的平均数等于各变量平均数的代数和量平均数的代数和abxabx1212.nnxxxxxx0)(xnxnxxxx0)(fxfxfxxffxx某变量与其算术平均数的离差之和等于某变量与其算术平均数的离差之和等于0证明:证明:22)()(0 xxxxfxxfxx22)()(0CxxCxx00,即2220)()()(CxxCxxxx22)(2)(nCxxCxx22)(nCxx02nC为最小。即2220)(,)()(xxxxxx各单位标志值与算术平均数的离差平方和为最小各单位标志值与算术平均数的离差平方和为最小设x

10、0为任意值,证明:设returnnnxxxxxx21212121xxxx对两变量,有对两变量,有若两变量分别取值如下:若两变量分别取值如下:321:1x32:2x则有则有21xx633523532422431321那么那么5.4665544321xx233211x5.22322x2121xxxx5.45.22n个独立变量代数和的平均数等于各变量个独立变量代数和的平均数等于各变量平均数的代数和平均数的代数和反映集中趋势的主要指标反映集中趋势的主要指标众数众数中位数中位数数值平均数数值平均数位置平均数位置平均数主要类型主要类型算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数【例例】48

11、161412121416181816141214harmean(harmonic mean)适用于总体资料未经分组适用于总体资料未经分组整理、尚为原始资料的情况整理、尚为原始资料的情况121111Hmmmxxxxx式中:为调和平均数;m为变量值 的个数;xi为第 i 个变量值。Hx适用于总体资料经过分组适用于总体资料经过分组整理形成变量数列的情况整理形成变量数列的情况式中:xi 为第 i组的变量值;mi为第 i 组的标志总量。1212121niHniinmmmmxmmmmxxxx当已知当已知各组变量值各组变量值和和标志总量标志总量时,作时,作为算术平均数的变形使用。为算术平均数的变形使用。,1

12、1iHiiiiiiiiiiiiimmx fxmxx fx fxfx fx设则调和平均数的用途:作为独立意义上的平均数使用基本上没有用途。作为算术平均数的变形使用是其常见的用法。但此时已经不能称为调和平均数,只能称其为调和平均方法。fxfxh1xfxxfx1xfm mmxm9710170014001014971012.1375800iHiimxmx件1iiiiiiiimxfmxffmxiiimxf计划完成程度计划完成程度()组中值组中值()企业数企业数(个)(个)计划产值计划产值(万元)(万元)90以下以下90100100110110以上以上859510511523103800250017200

13、4400合计合计1824900计算该公司该季度的平均计划完成程度。计算该公司该季度的平均计划完成程度。计划完成程度计划完成程度()组中值组中值()企业数企业数(个)(个)计划产值计划产值(万元)(万元)90以下以下90100100110110以上以上8595105115231038002500172004400合计合计1824900 fmX计划产值实际产值程度计划完成x f 0.858001.154400800440026175105.1224900 xfxf组别组别企业数企业数(个)(个)计划产值计划产值(万元)(万元)实际产值实际产值(万元)(万元)12342310380025001720

14、044006802375180605060合计合计182490026175计算该公司该季度的平均计划完成程度。组别组别企业数企业数(个)(个)计划产值计划产值(万元)(万元)实际产值实际产值(万元)(万元)12342310380025001720044006802375180605060合计合计182490026175计算该公司该季度的平均计划完成程度。计算该公司该季度的平均计划完成程度。fmX计划产值实际产值程度计划完成f m 26175105.1224900mxf反映集中趋势的主要指标反映集中趋势的主要指标众数众数中位数中位数数值平均数数值平均数位置平均数位置平均数主要类型主要类型算术平均

15、数算术平均数调和平均数调和平均数几何平均数几何平均数是是n n项变量值连乘积的开项变量值连乘积的开n n次次方根方根Geomean(geomatric mean)几何平均数一般应用于计算时间上相互衔几何平均数一般应用于计算时间上相互衔接的比率的平均,即用于计算现象的平均接的比率的平均,即用于计算现象的平均比率或平均速度比率或平均速度q 各个比率或速度的连乘积等于总比率或总各个比率或速度的连乘积等于总比率或总速度;速度;q 相乘的各个比率或速度不为零或负值。相乘的各个比率或速度不为零或负值。在社会经济现象中,许多现象在社会经济现象中,许多现象变化的总比率或总速度常常是变化的总比率或总速度常常是各

16、项比率或各项速度的连乘积,各项比率或各项速度的连乘积,故要用几何平均数计算平均比故要用几何平均数计算平均比率或平均发展速度。率或平均发展速度。A.简单几何平均数简单几何平均数式中:式中:为几何平均数为几何平均数;n;n为变量值的个数;为变量值的个数;xi i为第为第 i i个变量值。个变量值。Gx12nnGnixx xxx 前后衔接80.085.090.092.095.0100A80.085.090.092.00.95100A总产品总合格品550.950.920.900.850.800.534988.24Gx0.951000.8010010010044288.4500 xfxf mxf合格品合

17、格率产品 适用于总体资料经过分组整理形适用于总体资料经过分组整理形成变量数列的情况成变量数列的情况1121121mmiiimiifmfffffGmiixxxxx式中,式中,为几何平均数为几何平均数;fi 为第为第i组的次数;组的次数;m为组数;为组数;xi为第为第 i组的标志值或组中值。组的标志值或组中值。Gx设本金为设本金为V,则至各年末的本利和应为:,则至各年末的本利和应为:31V3131V 1511018151313224V第第2年的年的计息基础计息基础第第12年的年的计息基础计息基础 15.010.05130.01V15.010.05130.01V2424本金总的本利和 424 211

18、210.0310.0510.152.2154106.851106.8516.85GGxX 平均年利率若上题中不是按复利而是按若上题中不是按复利而是按单利计息单利计息,且各年的利率与上相同,求平均年利且各年的利率与上相同,求平均年利率。率。:03.0V:03.0V15.0V fmX本金利息利息率假定本假定本金为金为V 92.61283.014115.0403.0VVVVVVfXfX121nkkkkniixxxx 11nnkkkikkiixxn x1nkikikxxnkx1niixxn,即为算术平均数11111niiniixnxnx,即为调和平均数即为几何平均数11200limlimnkikink

19、nkkxxx xxn因此,就同一资料计算时,有:因此,就同一资料计算时,有:HGxxx由于幂平均数由于幂平均数 xk=(xk)/n1/k 是关于阶是关于阶数的递增函数,即当时数的递增函数,即当时k1k2时,有:时,有:xk1 xk2设设 x 取值为:取值为:、105.521.55xxxGH是否为比率是否为比率或速度或速度各个比率或速各个比率或速度的连乘积是否等于总比度的连乘积是否等于总比率或总速度率或总速度是否为是否为其他比值其他比值nGffGxxxx几何平均法几何平均法xxNxfxf算术平均法算术平均法1mx fmxffmx调和平均法调和平均法第一节第一节 分布的平均水平、集中趋势和位置的度

20、量分布的平均水平、集中趋势和位置的度量 统计平均数的含义与作用 数值平均数 众数和中位数反映集中趋势的主要指标反映集中趋势的主要指标众数中位数数值平均数位置平均数主要类型主要类型算术平均数调和平均数几何平均数指总体中出现次数最多的变量值,用Mo表示。在分配曲线图上,众数就是曲线的最高峰所对应在分配曲线图上,众数就是曲线的最高峰所对应的标志值。的标志值。有时众数是一个合适的代表值有时众数是一个合适的代表值众数不受极端数值的影响,用来说明总体中大多众数不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。数单位所达到的一般水平。比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决

21、策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。001MMff001MMff0Mf0ML0M0MU112ooommMLd 11mmooff 式中:21mmooff 212ommooMUd 下限公式:下限公式:上限公式:上限公式:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50 xf112oMLd 件502200242525400oM农户年均收入农户年均收入(万元)(万元)x户数(户)户数(户)f频数密度频数密度4以下以下455771010以上以上1719351540.0

22、1700.01900.01750.00500.0013合计合计90112oMLd 0.019 0.017414.57140.019 0.0170.019 0.0175oM VAR 00001174.0173.0172.0171.0170.0169.0168.0167.0166.0165.0164.0163.0162.0161.0160.0159.0158.0157.0156.0155.0154.0153.0152.014121086420Std.Dev=4.86 Mean=163.3N=83.0083名学生身高原始数据名学生身高原始数据VAR 00001173.0170.0167.0164.0

23、161.0158.0155.0152.03020100Std.Dev=4.86 Mean=163.3N=83.0083名学生身高组距数列名学生身高组距数列oMq当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;q当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200413名学生出生时间分布直方图名学生出生时间分布直方图众数的原理及应用众数的原理及应用没有突出地集没有突出地集中在某个年份中

24、在某个年份192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5170.5168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100众数的原理及应用众数的原理及应用413名学生的身高分布直方图名学生的身高分布直方图出现了两个明出现了两个明显的分布中心显的分布中心将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值,用Me表示不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产

25、生误导的平均数,这时使用中位数来度量集中趋势比较合适。比如有5笔付款:9元,10元,10元,11元,60元。平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。确定方法:首先将各总体单位的标志值,按照大小顺序排列,然后确定中位数的位置,处于中位数的位置的标志值就是中位数。(当n为奇数,中位数为处于中间位置的标志值)(当n为偶数,中位数为处于中间位置的两个标志值的平均数)121222nennxmxx321521N5.321621N元5602600520eM日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111

26、213147010038015010070170550700800合计合计800Xf中位数的位次:中位数的位次:5.40021800eM共共 个单位个单位2f共共 个单位个单位2f共共 个单位个单位1mS共共 个单位个单位1mSLU组距为组距为d共共 个单位个单位mf12mSfdfSfLMmme12dfSfmm12向上累计向上累计共共 个单位个单位2f共共 个单位个单位2f共共 个单位个单位1mS共共 个单位个单位1mSLU组距为组距为d共共 个单位个单位mf12mfS12memfSMUdf12mmfSdf向下累计月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人

27、)(人)200以下以下200400400600600以上以上373283104250合计合计50 xfdfSfLMmme12 件75.4934006003210250400eM正态分布正态分布左偏分布左偏分布右偏分布右偏分布众数、中位数和算术平均数关系众数、中位数和算术平均数关系Mo=Me=xxMeMoMoMex在非对称分布时,算术平均数受极端值的 影响最大,中位数只受极端值的位置影响,不受其数值影响;众数不受极端值的影响。(1)当次数分布呈左偏(负偏)时,算术平均数受极小值影响最大。(2)当次数分布呈右偏(正偏)时,算术平均数受极大值影响最大。皮尔生法则皮尔生法则 在适度偏态的情形下,算术在

28、适度偏态的情形下,算术平均数和众数的距离约等于算术平均数和众数的距离约等于算术平均数与中位数距离的三倍。即平均数与中位数距离的三倍。即3()oex Mx M众数、中位数和算术平均数关系众数、中位数和算术平均数关系右偏分布右偏分布MoMex根据上述关系,可以从已知的两个平均指标推算另一个平均指标。例如,某科考试结果,有半数考生成绩在80分以上,得84分的考生最多,试估计平均成绩,以判断成绩分布的偏斜情况。解:已知解:已知me=80,m0=84 x-84 3(x-80)x 78(分)由于x MeMo,故成绩分布为左偏本章内容本章内容 分布的平均水平、集中趋势和位置的度量 分布离散程度的度量 分布的

29、偏度和峰度 如果你的脚已经踩在如果你的脚已经踩在炉子上,而头却在冰箱里,炉子上,而头却在冰箱里,统计学家会告訴你统计学家会告訴你,平均平均而言而言,你相当舒服。你相当舒服。调侃统计学家 课程学生语文 数学英语 总成绩 平均成绩甲乙丙606555656565706575195195195656565单位:分单位:分某班三名同学三门课程的成绩如下:请比较三名同学学习成绩的差异。集中趋势弱、离中趋势强集中趋势强、离中趋势弱cmx164cmx164第二节第二节 分布离散程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用

30、指总体中各单位标志值背离指总体中各单位标志值背离分布中心的规模或程度,用分布中心的规模或程度,用标志变异指标标志变异指标来反映。来反映。反映统计数据差异程度的综合指标,也称为标志变动度变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大q 用来衡量和比较平均指标的代表性;q 用来反映社会经济活动过程的均衡性和稳定性;q在产品质量控制中常常应用这类指标q 用来测定变量数列次数分布较正态分布的偏离程度。q资产风险的度量 q标志变异指标是统计分析的一个基本指标。可用于衡量统计推断效果。q标志变异指标:反映总体中各变量值离散程度的指标。q如,全距、平均差、标准差、平均差系数等。q分布变异指

31、标:描述分布状态的指标,说明统计分布偏离正态分布的情况。q如,偏度、峰度。测定标志变异度的绝对量指标(与原变量值名数相同)测定标志变异度的相对量指标(表现为无名数)全距全距平均差平均差标准差标准差全距全距系数系数平均差平均差系数系数标准差标准差系数系数第二节第二节 分布离散程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用m axm inRxx指所研究的数据中,最大值与指所研究的数据中,最大值与最小值之差,又称最小值之差,又称全距全距。maxmin750440310Rxx元计划完成程度计划完成程度(%)组中值组

32、中值(%)X企业数企业数(个个)计划产值计划产值(万元万元)f90以下以下90100100110110以上以上8595105115231038002500172004400合计合计1824900maxmin1101090101208040Rxx解:q优点:计算方法简单、易懂;q缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差往往应用于生产过程的质量控制中11 4nQ的位置:是从变量数列中剔除最大和最小各1/4的单位,用3/4位次与1/4位次的标志值之差除以2来表示四分位差实质是对变量数列剔除了最小和四分位差实质是对变量数列剔除了最小和最大的最大的1/4后求全距后求

33、全距312QQQD331 4nQ的位置:q优点:通过剔除前后各1/4的变量,可以有效避免极差受极端值影响的弱点;q缺点:不能充分利用数列的全部信息,无法反映标志值变动的一般程度第二节第二节 分布离散程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用NXXNXXXXDANiiN11是各个数据与其算术平均数的离差绝对值的算术平均数,用AD表示总体算术总体算术平均数平均数总体单总体单位总数位总数第第 i 个单个单位的变量值位的变量值【例例A】某售货小组某售货小组5个人,某天的销售额个人,某天的销售额分别为分别为440

34、元、元、480元、元、520元、元、600元、元、750元,求该售货小组销售额的平均差。元,求该售货小组销售额的平均差。元6.93546855587505584401NXXDANii元558527905750600520480440X即该售货小组即该售货小组5个人销售额的平均差为个人销售额的平均差为93.6元。元。miimiiimmmffXXfffXXfXXDA11111 加权平均差加权平均差适用于分组资料适用于分组资料总体算术总体算术平均数平均数第第 i 组变量组变量值出现的次数值出现的次数第第 i 组的变组的变量值或组中值量值或组中值【例】计算下表中某公司职工月工资的平均差。计算下表中某公

35、司职工月工资的平均差。月工资(元)组中值(元)x职工人数(人)f300以下300400400500500600600700700800800900900以上2503504505506507508509502083143824563052377820合计2000250208950201045900522.9520002000 x元1250522.95208950522.95202000277893.6138.952000miixx fA Df元解:解:即该公司职工月工资的平均差为即该公司职工月工资的平均差为138.95元。元。q优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;

36、q缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。一般情况下都是通过计算另一种标志变异指标标准差,来反映总体内部各单位标志值的差异状况。第二节第二节 分布离散程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用21niixxn 简单标准差简单标准差适用于未分组资料适用于未分组资料是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用来表示;标准差的平方又叫作方差,用2来表示。总体单总体单位总数位总数第第 个单位个单位的变量值的变量值i总体算术总体算术平均数平

37、均数1x2x3x4x5x6x123456785x-1-1-2130)1(13)2(01)(xx16)1(13)2(01)(2222222xx21minniixx解:解:440 480 520 600 750279055855x元2221440558750558560080109.625niixxn元即该售货小组销售额的标准差为即该售货小组销售额的标准差为109.62元。元。211miiimiixxff总体算术总体算术平均数平均数第第 i 组变量组变量值出现的次数值出现的次数第第 i 组的变组的变量值或组中值量值或组中值管理学院某班学生统计学考试成绩分组资管理学院某班学生统计学考试成绩分组资料如

38、下,试计算方差和标准差料如下,试计算方差和标准差按成绩分组按成绩分组学生数学生数 fi组中值组中值 xixifi(xi-x)2(xi-x)2fi60以下以下60707080809090100721251985565758595385136518751615760400100010040028002100019003200合计合计80600010001000060007580iiix fxf5221511000012580iiiiixxff521511000012511.1880iiiiixxff月工资(元)组中值(元)xi职工人数(人)f300以下30040040050050060060070

39、0700800800900900以上2503504505506507508509502083143824563052377820合计20001045900522.952000iiix fxf225638659528193.32000iiixxff28193.3167.9 组内方差反映组内标志值对组平均数的方差;组间方差反映组平均数对总平均数的方差。总方差、组间方差与组内方差222i总体总体方差方差组间组间方差方差组内方差组内方差的平均数的平均数学号学号成绩成绩1234567898769739256856671947 7ixxn2210064.289150.679ixxn学号学号班级班级成绩成绩

40、123187697376.33456729256856674.758 93719482.501117 6.3 3ixxn21121159.56ixxn2227 4.7 5ixxn3338 2.5 0ixxn233233132.25ixxn222222207.69ixxn229.12iiiixxff22141.55iiiiff141.55+9.12=150.67222i利用上述关系式,可以分析总体变异(2)中,有多少是由于分组标志引起的变异(2),有多少是其他因素引起的变异()。通常计算经验相关比指数经验相关比指数来反映分组因素对总体变异的影响程度:222i方差的数学性质1.变量的方差等于变量平

41、方的平均数减去变量平均数的平方,即:22222xxnxxn证明:证明:nxxxxnxx)2()(222222222xxnnxxxxnn 根据这个关系式,可以进行方差或标准差的简化计算。2.变量对算术平均数的方差小于对任意常数的方差,即:设x0为任意常数,S2为变量对x0的方差,则:22220()xxxxSnn(或To3.n个同性质独立变量代数和的方差等于各变量方差之和,即:22221221nnxxxxxx2221221xxxx若两变量:对于标准差:1211222nnxxxxxx4.n个同性质独立变量平均数的方差等于各变量方差个同性质独立变量平均数的方差等于各变量方差平均数的平均数的1/n。设则

42、12.nxxxxn22222122.1nxinn5.变量线性变换的方差等于变量的方差乘以变量系变量线性变换的方差等于变量的方差乘以变量系数的平方数的平方,即:设:设:y=a+bx,222yxb则则标准化变量 来自不同均值和标准差的个体变量值往往不能直接对比,需要将变量转换为标准化变量,再进行对比。做法是:xxz 例:假定某班统计学课程分别进行了期中考和期末考,期中考成绩的均值和标准差分别为82分和8分,期末考成绩的均值和标准差分别为70分和7.5分。某位同学期中考和期末考的成绩分别为92分和85分,那么与全班同学相比较而言,他哪一次考试的成绩更好?对称钟形分布中的3法则 钟形分布一般有如下近似

43、的结论:大约68%的变量集中在均值左右1个标准差的范围内;大约95%的变量集中在均值左右2个标准差的范围内;大约99%的变量集中在均值左右3个标准差的范围内。通常将均值三个标准差之外的数据称为异常数据或离群点。分组分组标志值标志值次数次数f(单位数单位数)具有某一属性具有某一属性不具有某一属性不具有某一属性10n1n0合计合计n为研究是非标志总体的数量特征,令为研究是非标志总体的数量特征,令例:产品按合格与否分,人口按性别分例:产品按合格与否分,人口按性别分“0-1分布分布”具有某种标志表现的具有某种标志表现的单位数所占的成数单位数所占的成数1npn不具有某种标志表现不具有某种标志表现的单位数

44、所占的成数的单位数所占的成数0nqn01011nnnnnqnnnn且有p指是非标志总体中具有某种表现或指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总不具有某种表现的单位数占全部总体单位总数的比重体单位总数的比重例如,考试及格率、产品合格率、男生比重等例如,考试及格率、产品合格率、男生比重等是非标志总体的相关指标(0-1分布的数值特征)10110pnnnxfxpfnn22210102210()ppnpnxxffnnq pp qpq qppq2max0.50.25q当p时,有是非标志总体的相关指标PQPPPPPXVPP1121pqpp1001400380203802095540040

45、00.950.95(10.95)0.218ppnnnnnpqnnxppq己知件,件,件,则,所以有:是非标志总体的相关指标解:解:影响变异指标的大小的因素:总体的变异程度;标志值绝对水平的高低;计量单位的不同有关。如果直接用变异指标对不同水平、不同计量单位的现象进行比较,就会得到不同的结论。因此,要先对这些指标进行无量纲化处理,再进行比较。变异指标的缺陷kg500大象kg5.0免子kgx3500大象kgx5.2免子可比可比身高的差异水平:身高的差异水平:cmcm体重的差异水平:体重的差异水平:kgkg用用变异系数变异系数可以相互比较可以相互比较身高身高x体重体重x可可比比第二节第二节 分布离散

46、程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用平均差系数平均差系数标准差系数标准差系数100A DA DVx100Vx是各变异指标与其算术平均数的比值,也称为离散系数。极差系数极差系数100RRVx用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小:标准差系数小的总体,其平均数的代表性大;反之,亦然。22222790 27881.471938 19361.29MWxxxx1.471001002.7852.81.291001002.9344MWMMWWVxVx52.8,4456iiMWxxxx

47、11115.610010019.0282Vx22214.810010019.4776Vx因为因为V 1 V 2 ,所以一班平均成绩的代表,所以一班平均成绩的代表性比二班好。性比二班好。第二节第二节 分布离散程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用是指非众数值的频数之和占总体单位数中的比重。其计算公式如下:异众比率异众比率mo1imoimoiiiifffVff 异众比率主要用来衡量总体中以众数为分异众比率主要用来衡量总体中以众数为分布中心的集中程度,衡量众数代表总体变布中心的集中程度,衡量众数代表总体变

48、量一般水平的代表性。量一般水平的代表性。异众比率该指标值越小,说明变量的集中程度异众比率该指标值越小,说明变量的集中程度越高,众数的代表性越大。越高,众数的代表性越大。主要用来测定定性变量的离散程度,亦可主要用来测定定性变量的离散程度,亦可用来测定定量变量的离散程度。用来测定定量变量的离散程度。第二节第二节 分布离散程度的度量分布离散程度的度量 变异指标的含义与作用 极差与四分位差 平均差 方差与标准差 变异系数 异众比率 箱线图在统计描述中的运用箱线图,也称盒须图,由一个箱子(或盒子)和箱线图,也称盒须图,由一个箱子(或盒子)和两条线段组成。两条线段组成。绘制方法:求出总体的五个数量特征值:

49、绘制方法:求出总体的五个数量特征值:极大值、极小值、中位数、上四分位数、下四分位数极大值、极小值、中位数、上四分位数、下四分位数 连接上四分位数和下四分位数画出箱体,再将两个极连接上四分位数和下四分位数画出箱体,再将两个极值点与箱体相连。值点与箱体相连。在存在多个同类现象时,可将不同总体的数据用在存在多个同类现象时,可将不同总体的数据用箱线图并列起来,进行分布特征的中位数、离散箱线图并列起来,进行分布特征的中位数、离散程度和集中程度的比较。程度和集中程度的比较。本章内容本章内容 分布的平均水平、集中趋势和位置的度量 分布离散趋势的度量 分布的偏度和峰度第三节第三节 分布的偏度与峰度分布的偏度与

50、峰度 统计动差 偏度 峰度k阶动差也称为原点矩,通常用k表示。矩11nkiiikniix ff当k=1时,1阶原点动差(1阶原点矩)就是算术平均数;当k=2时,2阶原点动差(2阶原点矩)就是平方平均数。11nkiiikniixxff当k=0时,0阶中点动差(0阶中点矩)v0=1;当k=1时,1阶中点动差(1阶中点矩)v1=0;当k=2时,2阶中点动差(2阶中点矩)v2=2。第三节第三节 分布的偏度与峰度分布的偏度与峰度 统计动差 偏度 峰度左偏分布左偏分布右偏分布右偏分布M0=Me=xxMeM0M0Me0时为时为正偏斜;当正偏斜;当 0)III(0时,表示分布比正态分布更集中在时,表示分布比正态分布更集中在平均数周围,分布呈尖峰状态;平均数周围,分布呈尖峰状态;=0时,分布为正态时,分布为正态分布;分布;0时,表示分布比正态分布更分散,分布呈时,表示分布比正态分布更分散,分布呈低峰态,如下图所示:低峰态,如下图所示:

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!