定量变量的统计描述

上传人:无*** 文档编号:169484732 上传时间:2022-11-15 格式:PPT 页数:101 大小:870.50KB
收藏 版权申诉 举报 下载
定量变量的统计描述_第1页
第1页 / 共101页
定量变量的统计描述_第2页
第2页 / 共101页
定量变量的统计描述_第3页
第3页 / 共101页
资源描述:

《定量变量的统计描述》由会员分享,可在线阅读,更多相关《定量变量的统计描述(101页珍藏版)》请在装配图网上搜索。

1、2021/6/161卫生统计学卫生统计学(第七版)(第七版)第二章第二章 定量变量的定量变量的统计描述统计描述2021/6/162定量变量的定量变量的统计描述统计描述统计图表统计图表统计指标:统计指标:集中趋势指标集中趋势指标离散趋势指标离散趋势指标 利用统计表对数据进行概括,用统计图对分布形利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。统计指标的意义与计算。2021/6/163频率分布表与频率分布图频率分布表与频率分布图描述平均水平统计指标描述平均水平统计指标central te

2、ndency【教学内容】描述变异程度统计指标描述变异程度统计指标tendency of dispersion2021/6/164描述分布形态统计指标描述分布形态统计指标统计表与统计图统计表与统计图statistical table,statistic chart【教学内容】2021/6/165变变 量量卫生统计学卫生统计学研研究究内内容容定性变量定性变量定量变量定量变量统计描述统计描述统计推断统计推断随机性现象随机性现象概率论概率论数理统计数理统计2021/6/166统计描述统计描述:从资料中获取信息最基本的方法从资料中获取信息最基本的方法n 把握资料基本的特征把握资料基本的特征n 为统计分析

3、打下基础为统计分析打下基础2021/6/167表2-2 120名名18-35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(umol/L)7.427.428.658.6523.0223.0221.6121.6121.3121.3121.4621.469.979.9722.7322.7314.9414.9420.1820.1821.6221.6223.0723.0720.3820.388.48.417.3217.3229.6429.6419.6919.6921.6921.6923.923.917.4517.4519.0819.0820.5220.5224.1424.1423.7723.771

4、8.3618.3623.0423.0424.2224.2224.1324.1321.5321.5311.0911.0918.8918.8918.2618.2623.2923.2917.6717.6715.3815.3818.6118.6114.2714.2717.417.422.5522.5517.5517.5516.116.117.9817.9820.1320.13212114.5614.5619.8919.8919.8219.8217.4817.4814.8914.8918.3718.3719.519.517.0817.0818.1218.1226.0226.0211.3411.3413.

5、8113.8110.2510.2515.9415.9415.8315.8318.5418.5424.5224.5219.2619.2626.1326.1316.9916.9918.8918.8918.4618.4620.8720.8717.5117.5113.1213.1211.7511.7517.417.421.3621.3617.1417.1413.7713.7712.512.520.420.420.320.319.3819.3823.1123.1112.6712.6723.0223.0224.3624.3625.6125.6119.5319.5314.7714.7714.3714.372

6、4.7524.7512.7312.7317.2517.2519.0919.0916.7916.7917.1917.1919.3219.3219.5919.5919.1219.1215.3115.3121.7521.7519.4719.4715.5115.5110.8610.8627.8127.8121.6521.6516.3216.3220.7520.7522.1122.1113.1713.1717.5517.5519.2619.2612.6512.6518.4818.4819.8319.8323.1223.1219.2219.2219.2219.2216.7216.7227.927.911.

7、7411.7424.6624.6614.1814.1816.5216.522021/6/168目的:描述该组目的:描述该组18-35岁健康男性居民血清铁含岁健康男性居民血清铁含量量的分布规律。的分布规律。问题问题1.该组该组居民血清铁含量居民血清铁含量平均值多少?平均值多少?问题问题4.用表用表/图表示图表示血清铁血清铁分布分布?问题问题2.血清铁含量血清铁含量范围?最高多少?最范围?最高多少?最低多少?多少?问题问题3.血清铁含量血清铁含量主要集中在哪个范围主要集中在哪个范围?集中趋势集中趋势频数表频数表频数分布图频数分布图离散趋势离散趋势2021/6/169【教学要求】了解频数分布表的编制

8、方法及应用了解频数分布表的编制方法及应用 掌握数值变量资料的平均水平、变掌握数值变量资料的平均水平、变 异程度常用统计描述指标,及各自异程度常用统计描述指标,及各自 的应用。的应用。2021/6/1610第一节第一节 频数与频数分布频数与频数分布 频数频数(frequency):对一个随机变量做重复观察,:对一个随机变量做重复观察,其中某变量值出现的次数。其中某变量值出现的次数。频数分布表频数分布表(frequency distribution table):将各变:将各变量值及其相应的频数列成表格的形式。量值及其相应的频数列成表格的形式。例例2-2 抽样调查某地抽样调查某地120名名18岁岁

9、35岁健康男性居岁健康男性居民血清铁含量民血清铁含量(mol/L),试编制频数分布表。试编制频数分布表。频数表的编制:频数表的编制:一、连续型定量变量的频数分布一、连续型定量变量的频数分布2021/6/1611(二)连续型变量频数表的编制方法:(二)连续型变量频数表的编制方法:求全距列表划记步骤:步骤:写组段定组距2021/6/1612 求全距求全距(Range,(Range,简记简记R)R):是一组资料中是一组资料中最大值(最大值(XmaxXmax)与最小值()与最小值(XminXmin)之差,亦称极差)之差,亦称极差。Xmax-Xmin=29.64umol/L 7.427.428.658.

10、6523.0223.0221.6121.6121.3121.3121.4621.469.979.9722.7322.7314.9414.9420.1820.1821.6221.6223.0723.0720.3820.388.48.417.3217.3229.6429.6419.6919.6921.6921.6923.923.917.4517.4519.0819.0820.5220.5224.1424.1423.7723.7718.3618.3623.0423.0424.2224.2224.1324.1321.5321.5311.0911.0918.8918.8918.2618.2623.292

11、3.2917.6717.6715.3815.3818.6118.6114.2714.2717.417.422.5522.5517.5517.5516.116.117.9817.9820.1320.13212114.5614.5619.8919.8919.8219.8217.4817.4814.8914.8918.3718.3719.519.517.0817.0818.1218.1226.0226.0211.3411.3413.8113.8110.2510.2515.9415.9415.8315.8318.5418.5424.5224.5219.2619.2626.1326.1316.9916.

12、9918.8918.8918.4618.4620.8720.8717.5117.5113.1213.1211.7511.7517.417.421.3621.3617.1417.1413.7713.7712.512.520.420.420.320.319.3819.3823.1123.1112.6712.6723.0223.0224.3624.3625.6125.6119.5319.5314.7714.7714.3714.3724.7524.7512.7312.7317.2517.2519.0919.0916.7916.7917.1917.1919.3219.3219.5919.5919.121

13、9.1215.3115.3121.7521.7519.4719.4715.5115.5110.8610.8627.8127.8121.6521.6516.3216.3220.7520.7522.1122.1113.1713.1717.5517.5519.2619.2612.6512.6518.4818.4819.8319.8323.1223.1219.2219.2219.2219.2216.7216.7227.927.911.7411.7424.6624.6614.1814.1816.5216.522021/6/16132.定组距定组距:将全距分为若干段,称为:将全距分为若干段,称为组段组段。

14、组与组之间的距离,称为组与组之间的距离,称为组距组距;用小写;用小写i 表示。表示。原则原则:(1)“组段组段”数一般为数一般为8-15个;个;(2)“组距组距”一般为一般为R/10取整;取整;(3)为计算方便根据组距采取取整数方法)为计算方便根据组距采取取整数方法 umol/L 2021/6/16143.写组段写组段:即将全距分为若干段的过程:即将全距分为若干段的过程。原则原则:(1)第一组段要包括)第一组段要包括Xmin,最末组段包括,最末组段包括 Xmax;(2)每组段均用下限值加每组段均用下限值加“”表示,最终组段表示,最终组段同时注明上下限。同时注明上下限。注意:各组段不能重叠,每一

15、组段均为半开半闭区注意:各组段不能重叠,每一组段均为半开半闭区间。间。4.列表划记:列表划记:根据预定的组段和根据预定的组段和组距,用组距,用划记的方法整理原始资料。划记的方法整理原始资料。2021/6/1615 表表2-3 120名名18-35岁健康男性居民血清铁含量的频数分布表岁健康男性居民血清铁含量的频数分布表 6 8 10 12 14 16 18 20 22 24 26 2830 合计合计一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一13681220271812841组段划记频数1202021/6/1616表2.2 120名名18-35岁健康男性居民血清铁含量(岁健康男性

16、居民血清铁含量(umol/L)频数表)频数表组段组段 频数频数 频率频率%累计频数累计频数 累计频率累计频率%6 1 0.83 1 0.83 8 3 2.50 4 3.3310 6 5.00 10 8.3312 8 6.67 18 15.0014 12 10.00 30 25.0016 20 16.67 50 41.6718 27 22.50 77 64.17 20 18 15.00 95 79.1722 12 10.00 107 89.17 24 8 6.67 115 95.83 26 4 3.33 119 99.172830 1 0.83 120 100.00合计合计 120 100.02

17、021/6/1617特点:中间高、两侧逐渐下降、左右基本对称的分布特点:中间高、两侧逐渐下降、左右基本对称的分布-直方图直方图(直条间连续直条间连续),用于表达连续型变量的频数分布。,用于表达连续型变量的频数分布。血清铁29.027.025.023.021.019.017.015.013.011.09.07.0频数3020100Std.Dev=4.34 Mean=18.6N=120.00481218272012863频数直方图(频数直方图(frequency distribution figure):根据频数分布表,以变量值为横坐标,频数为纵坐标,根据频数分布表,以变量值为横坐标,频数为纵坐标

18、,绘制的直方图。绘制的直方图。2021/6/1618 的频数是的频数是7,频率为频率为7.3%,进行,进行3次检查次检查 的频数是的频数是11,频率频率 为为 11.5%,进行,进行5次以上检查的次以上检查的 频数是频数是12,频率为,频率为12.5%。进行进行0次检查的频数是次检查的频数是4,其频率为,其频率为4.2%,进行进行1次次 检查检查 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7二、离散型定量变量的频数分布二、离散型定量变量的频数分布例例2-1(P11)2021/6/1619离散型变量的频数分布离散型变量的频数分布表每一个组段就是一个表每一个组段就是一

19、个固定的取值固定的取值2021/6/1620 离散型变量的频数分布图离散型变量的频数分布图 直条图直条图 横坐标为产前检查次数;纵坐标为横坐标为产前检查次数;纵坐标为 频率,即产前检频率,即产前检查查K次的妇女在被统计妇女中所占的比例次的妇女在被统计妇女中所占的比例%。图中等宽矩。图中等宽矩形长条的高度与相应检查次数的频率呈正比。形长条的高度与相应检查次数的频率呈正比。2021/6/1621 频率:各组的频数除以总例数频率:各组的频数除以总例数 n 所得的比值。所得的比值。频率描述了各组频数在全体中所占的比重,各组频率描述了各组频数在全体中所占的比重,各组频率之和等于频率之和等于100%。累计

20、频数:本组段的频数与以前各组段的频数累计频数:本组段的频数与以前各组段的频数相加;相加;累计频率:每组段的累计频数除以总例数。累计频率:每组段的累计频数除以总例数。2021/6/1622 三、三、频数分布的两个特征频数分布的两个特征 集中趋势:血清铁含量向中央部分集中,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在即中等含量者居多,集中在18 这个组段,这种现象为集中趋势。这个组段,这种现象为集中趋势。离散趋势:从中央部分到两侧的频数分布离散趋势:从中央部分到两侧的频数分布逐渐减少,而且逐渐减少,而且血清铁含量血清铁含量的值参差不齐,的值参差不齐,最低的接近最低的接近6 ,最高的

21、接近,最高的接近30 ,这种现象称为离散趋势。这种现象称为离散趋势。Lmol/Lmol/Lmol/由于同质性,所有实测值趋向由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。同一数值的趋势称为集中趋势。离散趋势或变异程度是指观察离散趋势或变异程度是指观察值之间参差不齐的程度。值之间参差不齐的程度。2021/6/1623血清胆固醇组段血清胆固醇组段(1)划记划记(2)频数频数(3)2.30 2.60 2.90 3.20 3.50 3.80 4.10 4.40 4.70 5.00 5.30 5.60 一一 下下 正一正一 正下正下 正正正丅正正正丅 正正正正正正正正 正正正丅正正正丅 正正丅正

22、正丅 正止正止 正正 丅丅 一一 1368172017129521表表2-2 2-2 某地某地101101名名正常成年女子血清总胆固醇正常成年女子血清总胆固醇的频数表的频数表合计合计 140从中央部分到从中央部分到两侧的频数分两侧的频数分布逐渐减少、布逐渐减少、血清胆固醇的血清胆固醇的的值参差不的值参差不齐齐离散趋离散趋势势血清胆固醇值向中央部血清胆固醇值向中央部分集中,即中等含量者分集中,即中等含量者居多居多集中趋势集中趋势2021/6/1624频数分布频数分布 四、频数分布的类型四、频数分布的类型对称分布型:指集中位置在正中,左右对称分布型:指集中位置在正中,左右两侧频数分布大体对称两侧频

23、数分布大体对称。偏态分布型:指集中位置偏向一侧,频数偏态分布型:指集中位置偏向一侧,频数分布不对称。分布不对称。偏态分布偏态分布正偏态分布:集中位置偏向数值小的一侧。正偏态分布:集中位置偏向数值小的一侧。负偏态分布:集中位置偏向数值大的一侧负偏态分布:集中位置偏向数值大的一侧。2021/6/1625血清转氨酶(mmol/L))43.540.537.534.531.528.525.522.519.516.513.5人数3020100Std.Dev=7.14 Mean=25.1N=115.0034791114192314922021/6/1626血清肌红蛋白(ug/mL)47.542.537.53

24、2.527.522.517.512.57.52.5人数3020100Std.Dev=10.08 Mean=25.8N=101.00291423221097322021/6/1627血清总胆固醇值(mmol/L)5.755.455.154.854.554.253.953.653.353.052.752.45频数3020100Std.Dev=.66 Mean=4.03N=101.00259121720178632021/6/1628(三)频数表的用途:(三)频数表的用途:1.1.揭示变量的分布特征揭示变量的分布特征 图图3.1 某市某市100名名8岁男童身高岁男童身高(cm)的频数分布的频数分布离

25、散趋势(tendency of dispersion)集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势 (central tendency)身高身高(cm)频数频数分布分布特征特征2021/6/16292.2.揭示变量的分布类型揭示变量的分布类型 频数频数分布分布偏态偏态分布分布正正偏偏 负负偏偏集中部位在中部,两集中部位在中部,两端渐少,左右两侧的端渐少,左右两侧的基本对称,为基本对称,为对称对称(正态(正态)分布分布。对称对称分布分布集中部位偏于较小集中部位偏于较小值一侧值一侧(左侧左侧),较大,较大值方向渐减少,为值方向渐减少,为正偏态

26、分布正偏态分布。集中部位偏于较大集中部位偏于较大值一侧值一侧(右侧右侧),较,较小值方向渐减少,小值方向渐减少,为为负偏态负偏态分布分布。2021/6/16304.便于进一步计算统计指标和统计分析便于进一步计算统计指标和统计分析3.便于发现某些离群值或极端值便于发现某些离群值或极端值。图图3.1 某市某市101名名8岁男童身高岁男童身高(cm)的频数分布的频数分布身高(cm)频数2021/6/1631一一.集中趋势统计指标:反映总体内部的同质。集中趋势统计指标:反映总体内部的同质。二二.离散度统计指标:反映总体内个体间的变异。离散度统计指标:反映总体内个体间的变异。三三.分布形态统计指标:反映

27、高峰的形态。分布形态统计指标:反映高峰的形态。第二节第二节 描述平均水平的统计指标描述平均水平的统计指标2021/6/1632平均数平均数:描述一组同质计量资料的集中趋势;反映一组观察值:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。的平均水平。常用的平均数有算术均数,几何均数和中位数。常用的平均数有算术均数,几何均数和中位数。(一)算术均数(一)算术均数(mean)(mean):简称均数,总体均数用希腊字母:简称均数,总体均数用希腊字母表表示,样本均数用拉丁字母示,样本均数用拉丁字母 表示。表示。1.1.计算方法计算方法 1 1)直接法:适用于样本例数直接法:适用于样本例数n n

28、较少的资料。较少的资料。其中其中X X1 1,X X2 2X Xn n为各变量值,为各变量值,n n为样本例数。为样本例数。XnXnX.XXXn21 2021/6/1633 2)加权法:适用于变量值较多的资料。加权法:适用于变量值较多的资料。K=1、2、3.,fk为第k组段的频数,X0k 为第k组段的组中值,组中值=(本组段下限+下组段下限)/2。nxffxfXkkkk00即频数多,权数大,作用也大,频数小,权数小,作即频数多,权数大,作用也大,频数小,权数小,作用也小。用也小。2021/6/163410,10,10,15,1510有有3个,权数为个,权数为3,计算均数时起计算均数时起3/5的

29、作的作用用频数多,权数频数多,权数大,作用大大,作用大15有有2个,权数为个,权数为2,计算均数时起计算均数时起2/5的作的作用用频数小,权数频数小,权数小,作用小小,作用小12X2021/6/1635 例例2-3 某年某医院某年某医院8名女性晚期肺癌患者红细胞名女性晚期肺癌患者红细胞计数计数(1012/L)为为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。试求其算术均数。1212./4.26.432.08.3.38/83.91 10/nXXXXnXnL 例例2-4求例求例2-2中某地中某地120名名18-35岁健康男性居民岁健康男性居民的血清

30、铁含量的均数。的血清铁含量的均数。2021/6/1636120名名18-35岁健康男性居民血清铁含量均数、标准差计算表(加权法)岁健康男性居民血清铁含量均数、标准差计算表(加权法)组段组段 频数(频数(f)组中值(组中值(X0)fX 0 (1)(2)(3)(4)=(2)(3)(5)=(3)(4)6 8 10 12 14 16 18 20 22 24 26 2830 合计合计 120(f)2228(fX0)43640()13681220271210841727661041803405133782762001082979111315171921232527294924372613522700578

31、09747793863485000291684120fX20fXLmolffxX/57.18120222802021/6/16372.算数均数的应用算数均数的应用 它最适用于它最适用于对称分布资料对称分布资料,尤其是,尤其是。因为这时均数位于分布的中心,最。因为这时均数位于分布的中心,最能反映资料的集中趋势。能反映资料的集中趋势。2021/6/1638(二)几何均数二)几何均数(geometric mean):(几何均数也称为倍数均数,用(几何均数也称为倍数均数,用G表示)表示)1.几何均数的计算方法几何均数的计算方法 1)直接法:适用于样本例数直接法:适用于样本例数n较少的资料。较少的资料。

32、将将n个观察值个观察值X1,X2,X3Xn的乘积开的乘积开n次方次方对数形式:G=lg-1(lgX1+lgX2+lgX3+lgXn)/n=lg-1(lgX/n)nnXXXG.212021/6/1639 例例2-5 7名慢性迁延性肝炎患者的名慢性迁延性肝炎患者的HBsAg滴度资滴度资料为料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。求其平均效价。7512lg.32lg32lg16lglglglg11nXG648062.1lg17份份HBsAg的平均滴度为的平均滴度为1:642021/6/16402)加权法:适用于样本例数加权法:适用于样本例数n较多的

33、资料。较多的资料。n21nn22111f.ffXlgf.XlgfXlgflgGfXf lglg1 X1,X2Xn 为各组段的滴度或滴度倒数。为各组段的滴度或滴度倒数。f1,f2fn分别为各组段的频数。分别为各组段的频数。2021/6/1641 例例2-6 52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度数据见表,求滴度数据见表,求其平均滴度。其平均滴度。74705.1197017.2lg52/06977.108lg527027.27.50515.1720412.12lgG11 52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度的几何均数为滴度的几何均数为1:119.747052021/6/1

34、642 二)几何均数应用的注意事项:二)几何均数应用的注意事项:1)几何均数常用于)几何均数常用于等比资料等比资料或或对数正态对数正态分布资料分布资料。2)观察值中不能有)观察值中不能有0。3)观察值中不能同时有正值和负值。)观察值中不能同时有正值和负值。2021/6/1643练习题:练习题:1.有有8份血清的抗体效价分别为:份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640 求平均抗体效价。求平均抗体效价。2.有有50人的血清抗体效价,分别为:人的血清抗体效价,分别为:5人人1:10,9人人1:20,20人人1:40,10人人1:80,

35、6人人1:160 求平均抗体效价求平均抗体效价。2021/6/1644 中位数(中位数(median,M):将一组变量值从小到大按顺序排列,将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。位次居中的那个变量值就是中位数。(三)中位数和百分位数(三)中位数和百分位数 百分位数(百分位数(percentile,Px):指把数据从小到大排列后位指把数据从小到大排列后位于第于第X%位置的数值。位置的数值。有n个观察值X1,X2Xn,把他们由小到大按顺序排列成X1X2X3Xn,将这n个观察值平均的平均的分为100等份,对应于每一等份的数值就是一个百分位数,对应对应于前面于前面X%个位置的

36、数值称为第个位置的数值称为第X百分位数,用百分位数,用Px表示。表示。一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有(100-X)%的观察值比它大。2021/6/1645 1.中位数和百分位数的计算中位数和百分位数的计算 1)直接法:直接法:适用于样本例数n较少的资料。将观察值按大小顺序排列,当n为奇数奇数时,中间那个数就是中位数。当n为偶数偶数时,中间两个数的平均数就是中位数。例例2-7 某药厂观察某药厂观察9只小鼠口服高山红景天醇只小鼠口服高山红景天醇提物(提物(RSAE)后在乏氧条件下的生存时间(分钟)后在乏氧条件下的生存时间

37、(分钟)如下:如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0 n为奇数,为奇数,M=63.6(cm)21nXM 2/XXM12n2n 2021/6/1646练习:练习:1.某病患者某病患者9名,发病潜伏期分别为顺序名,发病潜伏期分别为顺序 2、3、3、3、4、5、6、9、16d,求中位数。,求中位数。2.某病患者某病患者8名,发病潜伏期从小到大排分别为名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。求平均潜伏期。2021/6/1647 2)频数表法计算中位数和百分位数:频数表法计算中位数和百分位数:适用于样本

38、例数n较多的资料。累计频数累计频数:本组段的频数与以前各组段的频数:本组段的频数与以前各组段的频数相加;相加;累计频率累计频率:每组段的累计频数除以总例数。:每组段的累计频数除以总例数。公式为公式为 L为百分位数所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为百分位数所在组段的的累计频数,n为总例数。LxxfXnfiLP%2021/6/1648例例2-8 50例链球菌咽峡炎患者潜伏期(例链球菌咽峡炎患者潜伏期(h),计算其中位数。),计算其中位数。组段组段 频数频数 累计频数累计频数 累计频率累计频率(%)12 24 36 48 60 72 84 96 108120 合计合计 50

39、 1 1 27 8 16 11 19 3811 30 607 37 745 42 844 46 922 48 962 50 100 )(55.5419%5050111248%.50hfxnfiLPMLx2021/6/1649求求P25,P75。hfxnfiLPLx91.408%2550111236%.25hfxnfiLPLx20.7337%755051272%.752021/6/1650 2.中位数和百分位数的应用中位数和百分位数的应用 1)中位数常用于描述)中位数常用于描述偏态分布资料偏态分布资料的集中趋势,反映位次的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均居

40、中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。数在理论上是相同的。2)百分位数可用于确定医学参考值范围(详后)百分位数可用于确定医学参考值范围(详后)。3)分布在中部的百分位数相当稳定,具有较好的代表性,)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。2021/6/1651 应用平均数的注意事项应用平均数的注意事项 1.平均数的计算和应用必须具备平均数的计算和应用必须具备同质同质基础基础,必须先必须先合理合理分组分组。不同质的事物要分别求平均数,以便分析比

41、较。不同质的事物要分别求平均数,以便分析比较。2.根据资料的分布选用适当的平均数根据资料的分布选用适当的平均数。对称分布资料,尤其是,宜用均数,也可用中位数,而则中位数的代表性较好,宜用几何均数。2021/6/16524.众数(mode)是一组观察值中出现频率最高的那个观察值;是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个若为分组资料,众数则是出现频率最高的那个组段。组段。2021/6/1653例例 有有1616例高血压病人的发病年龄(岁)为:例高血压病人的发病年龄(岁)为:4242,4545,4848,5151,5252,5454,5555,5555,585

42、8,5858,5858,5858,6161,6161,6262,6262,试求众数试求众数?出现频数最多的数值为出现频数最多的数值为5858,故众数为,故众数为5858。5858岁为高岁为高血压的高发年龄。血压的高发年龄。众数从概念上易于理解。但没有充分利用样本观察众数从概念上易于理解。但没有充分利用样本观察值的全部信息。值的全部信息。2021/6/1654 例例.对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5天,测得的天,测得的收缩压收缩压(mmHg)mmHg)结果结果如下:如下:可以看出:可以看出:两患者收缩压的均数十分接近,两患者收缩压的均数十分接近,但甲患者的血压波动较大,

43、而乙患者相对稳定但甲患者的血压波动较大,而乙患者相对稳定。患者患者第第1天天第第2天天第第3天天第第4天天第第5天天均数均数甲患者甲患者 162145178142186162.6乙患者乙患者 164160163159166162.4X 第三节、描述变异程度的统计指标第三节、描述变异程度的统计指标2021/6/1655 只用平均数描述资料的弊病甲组 26 29 30 31 34 均数30kg乙组 24 27 30 33 36 均数30kg丙组 26 28 30 32 34 均数30kg丙乙甲三组儿童体重的离散程度2021/6/1656例例2-11 试观察试观察3组数据的离散情况。组数据的离散情况

44、。A组组 26 28 30 32 34 B组组 24 27 30 33 36 C组组 26 29 30 31 34为了全面的把握数据的分布特征,通常,为了全面的把握数据的分布特征,通常,描述一组观察值,除需要表示其平均水平外,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。还要说明它的离散或变异的情况。2021/6/1657离散趋势离散趋势:用于描述一组数值变量观察值之间参用于描述一组数值变量观察值之间参差不齐的程度,即差不齐的程度,即变异程度变异程度。包括包括极差极差(Range,Range,R R)四分位数间距四分位数间距(Quartile,Quartile,Q Q)

45、方差方差(VarianceVariance,)标准差标准差(Standard deviationStandard deviation,S S)变异系数变异系数(Coefficient ofCoefficient of variation,CV)22021/6/16581.极差极差(range,R)也称为全距,用R表示,即一组资料中,最大值与最小值之差。缺点:1)除了最大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)即使样本含量相同,极差也不够稳定。2021/6/1659 1 1、适用条件:常用于描述、适用条件:常用于描述单峰

46、对称分布单峰对称分布小样本小样本 资料资料的变异程度,或用于初步的变异程度,或用于初步 了解资料的变异程度。了解资料的变异程度。2 2、意义:对于计量单位相同的变量,极差越、意义:对于计量单位相同的变量,极差越 大,观察值的离散程度越大。大,观察值的离散程度越大。3 3、优点:用以说明数据分布的离散程度,方法、优点:用以说明数据分布的离散程度,方法 简单明了;理论上可用于各种分布资简单明了;理论上可用于各种分布资 料料 2021/6/16604 4、缺点、缺点(1 1)除了最大值与最小值外,不能反映组内其它观)除了最大值与最小值外,不能反映组内其它观察值的变异度;察值的变异度;稳定性差稳定性差

47、。(2 2)样本较大时,抽到较大值与较小值的可能性也)样本较大时,抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。大时,不宜用极差来比较分布的离散度。(3 3)当两组样本例数相差悬殊时,不宜选用极差作)当两组样本例数相差悬殊时,不宜选用极差作为比较两组变异程度的指标为比较两组变异程度的指标 2021/6/1661 2.四分位数间距四分位数间距(quartile range,Q)简记为简记为Q,可看为特定的百分位数。P25表示全部观表示全部观察值中有察值中有25%(1/4)的观察值比它小,记为)的

48、观察值比它小,记为下四分位下四分位数数QL,P75表示全部观察值中有表示全部观察值中有75%的观察值比它小,的观察值比它小,记为记为上四分位数上四分位数QU。Q适用于适用于各种类型的连续型变量各种类型的连续型变量,特别是偏态分布,特别是偏态分布的资料。的资料。LUQQQ2021/6/1662 例例 2-8hPPQQQLU29.3291.4020.732575hfxnfiLPLx91.408%2550111236%.25hfxnfiLPLx20.7337%755051272%.752021/6/1663 四分位数间距的特点:四分位数间距的特点:适用于描述偏态分布、一端或两端无确切数值、适用于描述

49、偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。分布不明确资料的离散程度。四分位数间距越大,数据分布的变异度越大四分位数间距越大,数据分布的变异度越大;反之,反之,变异度越小。变异度越小。与中位数一起描述偏态分布资料的分布特征。与中位数一起描述偏态分布资料的分布特征。作为描述数据分布离散程度的指标,比极差稳定,作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍值的变异度,在统计分析中应用的不够普遍。2021/6/16643.方差(方差(Variance)公式及来源:公式

50、及来源:极差和四分位间距未考虑极差和四分位间距未考虑全部观察值全部观察值的变异度的变异度全面地考虑全面地考虑每个每个变量值的变量值的离散离散情况情况为了衡量每个变量值的变异;先选择一个数值作为了衡量每个变量值的变异;先选择一个数值作为比较标准;为比较标准;谁合适呢?谁合适呢?均数均数最有代表性。最有代表性。2021/6/1665应考虑总体中每个变量值应考虑总体中每个变量值x与总体均数与总体均数之之差;差;x-称为称为离均差离均差。分析:分析:为解决这个问题,给每项离均差平方后再相加,为解决这个问题,给每项离均差平方后再相加,称称离均差平方和离均差平方和,即即(x-)2。但每个变量值与均数相减所

51、得到得差值有正但每个变量值与均数相减所得到得差值有正有负相消,即有负相消,即(x-x)=0;这样就不能反映变异这样就不能反映变异的大小的大小?2021/6/1666还有没有问题没考虑到?还有没有问题没考虑到?离均差平方和的大小,除与变异度有关外,还离均差平方和的大小,除与变异度有关外,还与与变量值的个数变量值的个数(多少)有关,为在变量值个数(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得不等时进行比较,还要除以变量值的个数,所得值即为值即为总体方差总体方差,用,用2表示:表示:2=总体方差:总体方差:NX2)(样本方差样本方差:以样本均数代表以样本均数代表,用样本例数,

52、用样本例数n代表总体代表总体例数例数N,所得方差称,所得方差称样本方差样本方差,用,用S2表示:表示:nXXS22)(2021/6/1667公式中存在的问题?根据以上公式研究的结果表明求得的样本方根据以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过差总是偏小;为解决此问题,英国统计学家通过实验,用实验,用n-1代替可消除误差。代替可消除误差。n-1 称为称为自由度自由度(degree of freedom),用希腊字母),用希腊字母nju:表示,表表示,表示随机变量能够自由取值的个示随机变量能够自由取值的个数。n-1XXS22)(样本方差样本方差的的公式调整为:公式

53、调整为:2021/6/1668 (n-1)称为)称为自由度自由度(degree of freedom),),用希腊字母用希腊字母nju:表示,表示随机变量能够自表示,表示随机变量能够自由取值的个数。由取值的个数。5X5Xx 分析:分析:如有一组四个(如有一组四个(n=4)数据的样本,)数据的样本,受到受到 =5的条件限制,在自由确定的条件限制,在自由确定4、2、5三个三个数据后,第四个数据只能是数据后,第四个数据只能是9,否则,否则 5。因。因而这里的自由度而这里的自由度=n-1=4-1=3。推而广之,任何。推而广之,任何统计量的统计量的 自由度自由度=n-限制条件的个数限制条件的个数。xx2

54、021/6/1669 方差方差:分总体方差分总体方差 ,样本方差,样本方差S2计算:计算:意义:意义:克服了克服了值的不足,考虑了每个变量值的值的不足,考虑了每个变量值的离散情况并消除了离散情况并消除了的影响。的影响。优点:全面地考虑优点:全面地考虑每个每个变量值的变量值的离散情况缺点:缺点:其单位是原度量单位的平方。其单位是原度量单位的平方。2总体方差总体方差NX22)(样本方差样本方差1/)(1)(2222nnxxnXXs2021/6/1670 例:计算三组数据的方差 A组:24,27,30,33,36;B组:26,28,30,32,34;C组:26,29,30,31,34。10155/1

55、5045401)(2222nXXS5.8155/15045341)(2223 nXXS5.22155/15045901)(2221nXXS2021/6/1671 方差的特点方差的特点 适用条件:对称分布资料,特别是正态分布或近适用条件:对称分布资料,特别是正态分布或近似正态分布资料。似正态分布资料。意义:方差越大,数据间的变异越大意义:方差越大,数据间的变异越大 优点:利用了每个数据的信息,是常用的优点:利用了每个数据的信息,是常用的 描述数据分布离散程度指标描述数据分布离散程度指标 不足:度量衡单位发生了改变,不便于实际应用。不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差

56、。为此,更常用的是标准差。2021/6/16724.标准差(标准差(Standard deviation,SD或或S)方差的单位是原度量单位的平方,不便使用。方差的单位是原度量单位的平方,不便使用。将方差公式展开,并开方,即得到另一个重要将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即的离散趋势的指标,即标准差标准差,简写为,简写为S。公式来源:公式来源:总体标准差:总体标准差:NX2)(1()2nXXs样本标准差:样本标准差:2021/6/16731.直接法:适用于直接法:适用于n较小的资料较小的资料1/22nnXXS74.4155/36.2724)36.2724(1/22222

57、2nnXXS求例题中A组数据的标准差。2.加权法:适用于加权法:适用于n较大的资料较大的资料1/2020fffXfXS2021/6/1674120名成年男子血清铁含量均数、标准差计算表(加权法)名成年男子血清铁含量均数、标准差计算表(加权法)组段 频数(f)组中值(X0)fX 0 fX02 (1)(2)(3)(4)=(2)(3)(5)=(3)(4)6 8 10 12 14 16 18 20 22 24 26 2830 合计 120(f)2228(fX0)43640(fX02)136812202712108417276610418034051337827620010829791113151719

58、21232527294924372613522700578097477938634850002916841LmolfffXfXS/37.41120120/2228436401/220202021/6/16753.标准差的应用:标准差的应用:1)表示变量分布的离散程度表示变量分布的离散程度。2)结合均数计算变异系数。结合均数计算变异系数。3)结合样本含量计算标准误。结合样本含量计算标准误。4)结合均数描述正态分布特征。)结合均数描述正态分布特征。SX%100XSCV nSSX S96.1X 2021/6/1676问题的引入 例:例:某校一年级男大学生某校一年级男大学生身高样本均数为身高样本均数为

59、167.4cm,167.4cm,标准差为标准差为5.8cm;5.8cm;体重均数为体重均数为57.3kg,57.3kg,标准差为标准差为6.4kg6.4kg。试比较其变异程度的大小?试比较其变异程度的大小?2021/6/1677 5.变异系数变异系数(coefficient of variation,CV)公式为:常用于:。例2-15 某年通过10省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm,试比较二者变异度。体重 CV=0.98/8.42100%=11.64%身高 CV=3.0/72.4100%=4.14%100XSC

60、V 2021/6/1678 运用变异系数的注意事项:运用变异系数的注意事项:1.有关的事物才能比较有关的事物才能比较。2.均数小于标准差时要考虑其实际运用价值均数小于标准差时要考虑其实际运用价值。某地不同年龄段男子身高的变异度 年龄组 人数 均数 标准差 变异系数(%)3-3.5岁 100 96.1 3.1 3.23 30-35岁 100 170.2 4.0 2.35 2021/6/1679变异系数的特点:变异系数的特点:与前面的四种离散程度指标相比,变异系数有与前面的四种离散程度指标相比,变异系数有以下两个不同之处:以下两个不同之处:1 1、它描述的不是数据分布的绝对离散程度,、它描述的不是

61、数据分布的绝对离散程度,而是而是相对相对离散程度;离散程度;2 2、它不像极差、四分位数间距、方差、标准、它不像极差、四分位数间距、方差、标准差那样具有取值单位。它没有取值单位差那样具有取值单位。它没有取值单位2021/6/1680 偏度系数偏度系数(coefficient of skewness,SKEW)理论上,总体偏度系数为理论上,总体偏度系数为0 0时,分布是时,分布是;取;取正值时,分布为正值时,分布为;取负值时,分布为;取负值时,分布为。第四节、描述分布形态的特征数第四节、描述分布形态的特征数niiSXXnnnSKEW13212021/6/1681 峰度系数峰度系数(coeffic

62、ient of kurtosis,KURT)理论上,理论上,的总体峰度系数为的总体峰度系数为0;取负值时,;取负值时,其分布较正态分布的其分布较正态分布的;取正值时,其分布较正;取正值时,其分布较正态分布的态分布的。niinnnSXXnnnnnKURT124321332112021/6/1682血清铁29.027.025.023.021.019.017.015.013.011.09.07.0频数3020100Std.Dev=4.34 Mean=18.6N=120.004812182720128632021/6/1683 小结小结反映集中趋势的指标反映集中趋势的指标:算术均数:对称分布算术均数:

63、对称分布 几何均数:测定值按等比级数变化几何均数:测定值按等比级数变化 中位数:不规则分布中位数:不规则分布反映离散度的指标:反映离散度的指标:标准差(方差):对称分布标准差(方差):对称分布 变异系数:变异系数:对称分布对称分布 四分位数间距:四分位数间距:不规则分布不规则分布 极差极差(全距全距):不规则分布不规则分布反映峰型的指标:反映峰型的指标:2021/6/1684平均数与标准差平均数与标准差(方差)联合应用(方差)联合应用 中位数与四分位数间距(极差)中位数与四分位数间距(极差)联合联合应用应用2021/6/1685 统计表(统计表(statistical tablestatist

64、ical table)和统计图)和统计图(statistical chartstatistical chart)是统计描述的重要工具。医)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较于阅读,而且便于分析比较。第五节第五节 统计图

65、表和统计图统计图表和统计图2021/6/16861概念:指在科技报告中,常将统计分析的事物概念:指在科技报告中,常将统计分析的事物及其指标用表格列出,以反映事物的内在规律性和及其指标用表格列出,以反映事物的内在规律性和关联性。关联性。2作用:作用:1)避免繁杂的文字叙述2)便于计算3)便于事物间的比较分析 一、一、统计表统计表2021/6/16873.3.统计表的结构统计表的结构 从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注5部分构成。其基本格式如表1:2021/6/1688 1)标题:)标题:概括说明表的中心内容,要求用词简练、确切。必要时注明资料的

66、时间、地点,写在表的上端中央。注意:注意:防止标题过于简略或过于繁杂,有的 甚至不写标题。2)标目:)标目:要求文字简明,有单位的标目要 注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。注意:注意:防止标目过多,层次不清。2021/6/16892021/6/1690 3线条:线条:只需要顶线、底线及纵标目下面与合计上面的横线。注意:注意:线条不宜过多,表的左上角不宜有斜线,表内不能有纵线。4数字:数字:表内数字一律用阿拉伯数字表示,同一个指标的数字精确度应当一致,表内不宜有空格,无数字用“”表示,数字为0,则填写0。5备注:备注:表格一般不列备注或其他文字说明,如有特殊情况需要说明时可用“*”标出,将文字说明写在表格的下面。2021/6/1691 从内容上看,每张表都有主语和谓语。主语指被研究的事物,如表2-5中的药物分组,一般置于表的左侧;谓语指说明主语的各项统计指标,如表2-5中的“治愈”和“未愈”、“合计”,一般置于表的右侧,主语和谓语结合起来构成一个完整的句子。如表 2-5可读成用替硝唑治疗组治愈25例,未愈4例,合计29例。2

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!