第二章计量资料的统计描述DescriptionsofMeasurementData

上传人:沈*** 文档编号:171334958 上传时间:2022-11-25 格式:PPT 页数:85 大小:1.66MB
收藏 版权申诉 举报 下载
第二章计量资料的统计描述DescriptionsofMeasurementData_第1页
第1页 / 共85页
第二章计量资料的统计描述DescriptionsofMeasurementData_第2页
第2页 / 共85页
第二章计量资料的统计描述DescriptionsofMeasurementData_第3页
第3页 / 共85页
资源描述:

《第二章计量资料的统计描述DescriptionsofMeasurementData》由会员分享,可在线阅读,更多相关《第二章计量资料的统计描述DescriptionsofMeasurementData(85页珍藏版)》请在装配图网上搜索。

1、第二章第二章 计量资料的统计描述计量资料的统计描述Descriptions of Measurement Data Content1.Frequency distribution 2.Description of central tendency 3.Measures of dispersion 4.Normal distribution 5.Range of reference value 第一节 频数分布 一、频数分布表(frequency table):例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇()的测量结果如下,试编制频数分布表。mmol/L2.

2、35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.

3、50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26 编制步骤如下:1.求极差:极差(range)也称全距,即最 大值和最小值之差,记作R。本例:。5.712.353.36(mmol/L)R 2确定组距(i):组段数通常取组 10-15组本例组距

4、3写组段:组下限(L):每个组段的起点组上限(U):每个组段的终点 3.36/100.3360.30i 组 段 2.30 2.60 2.90 3.20 5.605.90 2.302.60 4分组段划记并统计频数 LXU 2.302.60组 段 频数f(1)(2)2.30 1 2.60 3 2.90 6 3.20 8 3.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 5 5.30 2 5.605.90 1 合 计 101 频数表:由各组段及其频数所构成的统 计表。二、频数分布图 血 清 总 胆 固 醇(mmol/L)05101520252.453.053.6

5、54.254.855.456.10图 2-1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布频 数三、频数表和频数分布图用途1描述频数分布的类型(1)对称分布:若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布 血 清 总 胆 固 醇(mmol/L)05101520252.453.053.654.254.855.456.10图 2-1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布频 数(2)偏态分布:1)右偏态分布(skewed to the right distribution)也称正偏态分布(posi

6、tive skewness distribution):右侧的组段数多于左侧的组段数,频数向右侧拖尾 血清转氨酶(mmol/L)051015202513.519.525.531.537.543.5.图2-2 115名正常成年女子血清转氨酶的频数分布人 数 2)左 偏 态 分 布(skewed to the left distribution)也称负偏态分布(negative s k e w n e s s distribution):左侧的组段数多于右侧的组段数,频数向左侧拖尾 血 清 肌 红 蛋 白(g/m L)05101520252.512.522.532.542.552.5图 2-3 1

7、01 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布人 数 2描述频数分布的特征 变异的范围在2.305.90有明显的统计分布规律,数据主要集中在3.504.70 之间,尤以组段的人数3.804.10 最多,且上下组段数的频数分布基本对称。(mmol/L)(mmol/L)(mmol/L)3便于发现一些特大或特小的可疑值 组 段 频数f(1)(2)2.30 1 2.60 0 2.90 0 3.20 0 3.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 5 5.30 2 5.605.90 1 合 计 101 4便于进一步做统计分析和处理第二节 集中

8、趋势的描述 统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:算术均数 几何均数 中位数 一、算术均数算术均数:简称均数(mean)可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。1、计算方法(1)直接计算法 公式:12nXXXXXnn式中12,nXXX为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。例2-2 用直接法计算例2-1某单位101名正常成年女子的血清总胆固醇的均数。2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41

9、4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71

10、3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26 2.354.783.914.03(mmol/L)101X(2)加权法:公式:计算4,4,4,6,6,8,8,8,10的均数?112233123kkkfXf Xf Xf Xf XXfffff1323101836243X 例2-3 利用表2-1计算101名正常成年女子的血总胆固醇的均数。组 段 频数f(1)(2)

11、2.30 1 2.60 3 2.90 6 3.20 8 3.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 5 5.30 2 5.605.90 1 合 计 101 式中k表示频数表的组段数,及 分别表示各组段的频数和组中值,如表2-1第1个组段的组中值为,余类推(见表2-1的第(3)栏)。在这里,频数起到了“权”(weight)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小 12,kf ff12,kXXX(2.302.60)/22.45 1 2.45 3 2.751 5.75409.754.06(mmol/L)1 31101X

12、2、应用 适用于对称分布,适用于对称分布,特别是正态分布特别是正态分布资料。资料。二、几何均数 几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。1、计算方法(1)、直接计算法 公式:或12nnGX XX1lglg()XGn例2-4 某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,40,160,求几何均数。510 20 40 40 16034.8G 11lglg10lg20lg40lg40lg160lg()lg()34.85XGn(2)加权法公式:1lglg()fXGf例2-5 69例类风湿关

13、节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。111lg150.2778lg()lg()lg(2.1779)150.669fXGf 2、应用:适用于成等比级数的资料,特别是对数正态分布资料。三、中位数与百分位数(一)中位数 中位数(median):是将变量值从小到大排列,位置居于中间的那个变量值。例:1,3,7,5,100 中位数为多少?计算公式:n为奇数时 n为偶数时 1()2nMX()(1)2212nnMXX例2-6 7名病人患某病的潜伏期分别为2,3,

14、4,5,6,9,16天,求其中位数。本例n=7,为奇数 例2-7 8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。本例n=8,为偶数 7 14()25()MXX天8845()(1)22111354()222MXXXX小时应用 适用于:1、各种分布类 型的资料 2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。(二)百分位数 百分位数(percentile)是一种位置指标,用 来表示。一个百分位数 将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小,变量值比它大。XPXP%X(100)%XXP1直接计算法 设有x个原始数据从小到大排

15、列,第x百分位数的计算公式为:当 为带有小数位时:当 为 整数时:%nXtrunc(%)1XnXPX%nX(%)(%1)12XnXnXPXX例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。患 者:住院天数:n=120,120X5%=6,为整数:1 2 3 4 5 6 7 8 9 117 118 119 120 1 2 2 2 3 3 4 4 5 40 40 42 455(6)(7)11(34)3.5()22PXX天例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第5百分位数和第99

16、百分位数。患 者:住院天数:,带有小数,取整后trunc(118.8)=1181 2 3 4 5 6 7 8 9 117 118 119 120 1 2 2 2 3 3 4 4 5 40 40 42 4512099%118.899(trunc(118.8)1)(119)42()PXX天2频数表法 公式:(%)XXXLXiPLnXff式中XL、Xi和Xf分别为第X百分位数所在组段 的下限、组距和频数,Lf为小于XL各组段的累计频数,n 为总例数。当1%50%2X时,公式(2-9)即为中位数的计算公式 50505050()2LinMPLff例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见表

17、2-5第(1)、(2)栏,试分别求中位数及第25、第75百分位数。表 2-5 118 名链球菌咽喉炎患者的潜伏期 天 数 人数f 累计频数 累计频率(%)(1)(2)(3)(4)12 4 4 3.4 24 17 21 17.8 36 32 53 44.9 48 24 77 65.3 60 18 95 80.5 72 12 107 90.7 84 5 112 94.9 96 4 116 98.3 108 2 118 100.0 5012 11848(53)51()242MP天251236(118 25%21)39.2()32P 天751260(118 75%77)67.7()18P 天第三节 离

18、散趋势的描述例2-11 三组同龄男孩的身高值(cm)甲组:90 95 100 105 110 100cmX甲 乙组:96 98 100 102 104 100cmX乙 丙组:96 99 100 101 104 100cmX丙 常用统计指标:极差、四分位数间距、方差、标准差和变异系数。一、极差 极差,用R表示:即一组变量值最大值与最小值之差。1109020cmR甲104968cmR 乙104968cmR丙二、四分位数间距 四分位数间距,用QR表示:QR=下四分位数:上四分位数:2575PP 25LQP75UQP 例2-12 续例2-10。已知P25=39.2,P75=67.7,计算118名链球菌

19、咽喉炎患者潜伏期的四分位数间距。(天)请回答:四分位数间距可以看成大小在中间的一半变量值的全距(R)。67.739.228.5QR 四分位数间距可以看成一半变量值的极差。三、方差与标准差 1、方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。样本方差用 表示 总体方差用2 表示 22()XN2S2、公式:样本标准差用 表示 公式:总体标准差用表示 2()XNS2()1XXSn 标准差的公式还可以写成:利用频数表计算标准差的公式为22()1XXnSn22()1fXfXfSf例2-12 续例2-10,计算三组资料的标准差。甲组:5,909

20、5 100 105 110500nX222222909510010511050250X2(500)5025057.91(cm)5 1S同理得:乙组:3.16(cm)S,丙组:2.92(cm)S。例 2-13 计算表2 1中101名正常成年女子的血清总胆固醇(mmol/L)的标准差。2101,409.75,1705.09ffXfX 2(409.75)1705.091010.654(mmol/L)101 1S四、变异系数变异系数(coefficient of variation)记为CV,多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。

21、CVSX100%某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?体重 2.26100%10.14%22.29CV 身高 4.71100%3.83%123.10CV (观察指标单位不同)均数相差较大时:均数相差较大时:某地区不同年龄男子身高(cm)的变异程度 年年龄龄组组 人人数数 均均数数 标标准准差差 C CV V(%)3 3-3 3.5 5 岁岁 1 10 00 0 9 96 61 1 3 3.1 1 3 3.2 2 3 30 0-3 35 5 岁岁 1 10 00 0 1 17 70 02 2 5 50 0 0 0

22、3 3 第四节 正态分布图2-4 频数分布逐渐接近正态分布示意正态分布:又称为Gauss分布(Gaussian distribution)。设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图2-4中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。一、正态分布的概念和特征1正态分布曲线的数学函数表达式 如果随机变量 的分布服从概率密度函数X22()21()2Xf XeX则称X服从正态分布,记作2(,)XN,为X的总体均数,2为总体方差。2正态分布的特征(1)在直角坐标上

23、方呈钟型曲线,两端与X轴永不相交,且以X为对称轴,左右完全对称。(2)在X处,()f X取最大值,其值为()12f;X越远离,()f X值越小。(3)正态分布有两个参数,即位置参数和形态参数。若固定,改变值,曲线沿着X轴平行移动,其形状不变(见图 2-5)。若固定,越小,曲线越陡峭;反之,越大,曲线越平坦(见图2-6)。00.10.20.30.40.5-4-3-2-101234 图 2-5 正态分布位置变换示意图 00.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456=0.5=1=2 图 2-6 正态分布形态变换示意图(4)正态曲线下的面积分布有一定的规

24、律。对公式(2-17)积分:22()21()2XXF XedXX轴与正态曲线所夹面积恒等于1或100%;区间的面积为68.27%区间96.1的面积为95.00%,区间58.2的面积为99.00%。见图27。图 2-7 正态曲线面积分布示意图 二、标准正态分布 正态分布是一个分布族,对应于不同的参数和会产生不同位置、不同形状的正态分布。为了应用方便,令:Xu 221()2uue,u 即将2(,)XN 的正态分布转化为(0,1)uN的标准正态分布(standard normal distribution),式中的u称为标准正态变量,其分布函数为 221()2uuuedu (2-21)根据公式(2-

25、21)可制成附表1,欲求一定区间标准正态分布曲线下的面积只需查表即可,且有:()1()uu 例 2-14 对例 2-1,例 2-3 和例 2-13 已计算出101名正常成年女子的血清总胆固醇均数4.06X mmol/L,标准差0.654S mmol/L。试估计该单位正常女子血清总胆固醇在4.00mmol/L以下者及5.00 mmol/L以下者各占正常女子总人数的百分比。由于此例样本含量大,故用X代替,S代替。将测量值4.00X、5.00X 分别代入公式(2-19),得 25.004.061.440.654u14.004.060.090.654 u查 附 表 1 得:(0.09)0.4641,(

26、1.44)0.0749,(1.44)1 0.07490.9251。故该单位正常女子血清总胆固醇含量在4.00 mmol/L以下者,估计占总人数的46.41%,在5.00mmol/L以下者,估计占总人数的92.51%。正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。第五节 医学参考值范围的制定一、基本概念 医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference

27、range)作为判定正常和异常的参考标准。医学参考值范围涉及到采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。双侧:血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧:1、血清转氨酶仅过高异常 2、肺活量仅过低异常 医学参考值范围有 、等,最常用的为 。计算医学参考值范围的常用方法:1、正态分布法 2、百分位数法90%95%99%95%二、方法1、正态分布法:许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等;有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。适

28、用:正态分布资料 公式:双侧1参考值范围:/2XuS 单侧1参考值范围:Xu SXu S或 式中X为均数,S为标准差,u值可由表 2-6 查出。表 2-6 u界值表 参考值范围(%)单 侧 双 侧 80 90 95 99 0.84 1.28 1.64 2.33 1.28 1.64 1.96 2.58 例 2-15 估计例 2-1某单位 101名正常成年女子血清总胆固醇的95%参考值范围。因血清总胆固醇过多或过少均为异常,故按双侧估计正常成年女子血清总胆固醇的95%参考值范围。已知血清总胆固醇均数4.06mmol/LX,0.654mmol/LS,0.05 21.96u,故 下限:24.06 1.

29、96 0.6542.78(mmol/L)XuS;上限:24.06 1.96 0.6545.34(mmol/L)XuS。2、百分位数法适用:各种分布资料特别是偏态分布资料 公式:双侧1参考值范围:2/1001002/100PP单侧1参考值范围:100P或100 100P 例2-17 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。表 2-7 某年某地282名正常人尿汞值(g/L)测量结果 尿 汞 值 频 数 f 累计频数f 累计频率(%)0 45 45 16.0 8.0 64 109 38.6 16.0 96 205 72.7 24.0 38 243 86.2 32.0 20 263 93.3 40.0 11 274 97.2 48.0 5 279 98.9 56.0 2 281 99.6 64.072.0 1 282 100.0 正常人的尿汞值为偏态分布,且过高为异常 应计算第95百分位数95958.0(95%)40.0(28295%263)43.6(g/L)11LiPLnff故该地正常人的尿汞值的95%医学参考值范围为43.6(g/L)。THANK YOU!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!