计量资料的统计描述

上传人:y****3 文档编号:29763066 上传时间:2021-10-08 格式:PPT 页数:72 大小:827KB
收藏 版权申诉 举报 下载
计量资料的统计描述_第1页
第1页 / 共72页
计量资料的统计描述_第2页
第2页 / 共72页
计量资料的统计描述_第3页
第3页 / 共72页
资源描述:

《计量资料的统计描述》由会员分享,可在线阅读,更多相关《计量资料的统计描述(72页珍藏版)》请在装配图网上搜索。

1、第二章第二章 计量资料的统计描述计量资料的统计描述第一节第一节 频数分布频数分布第二节第二节 集中趋势的描述集中趋势的描述第三节第三节离散趋势的描述离散趋势的描述第四节第四节 正态分布正态分布第五节第五节 医学参考值范围的制定医学参考值范围的制定第一节第一节 频数分布频数分布 一、频数分布表(一、频数分布表(frequency table) 例例2-1 测得测得130名健康成年男子脉搏资料名健康成年男子脉搏资料(次次/分分)如下,试编制如下,试编制频数表和观察频数分布情况。频数表和观察频数分布情况。757672696672576871726972738280826769736474587064

2、60776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876 求出极差 确定组段数 确定组距 列出各个组段 确定每一组段频数选 极差即最大值与最小值之差 一般 815 之间 组距=R/组段数,但一般取一方便计算的数字 第一组段包括极小值

3、,最后一组段包括极大值,除最后一组段可同时标出上下限,其他组段只标出下限。 根据变量值大小把各观察单位归入各个组段 编制频数表的步骤编制频数表的步骤编制频数表步骤流程图编制频数表步骤流程图 (1)求极差求极差(range):即最大值与最小值之差,又称):即最大值与最小值之差,又称为全距。为全距。R84 57 =27(次次/分分) (2) 决定分组组数、组距决定分组组数、组距:根据研究目的和样本含量:根据研究目的和样本含量n确定分组组数,通常分为确定分组组数,通常分为815个组。组距个组。组距=极差极差/组数,组数,为方便计,组距为极差的十分之一为方便计,组距为极差的十分之一, 再略加调整。再略

4、加调整。27/10=2.7 3 (3) 列出组段列出组段:第一组段的下限略小于最小值,最后一:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。个组段上限必须包含最大值。56 59 80 8385 (4) 划记计数划记计数:用划记法将所有数据归纳到各组段,得:用划记法将所有数据归纳到各组段,得到各组段的频数。到各组段的频数。频数表的编制步骤频数表的编制步骤表2-1 130名健康成年男子脉搏(次/分)的频数分布表Nf f 二、频数分布图三、频数表和频数分布图用途三、频数表和频数分布图用途1描述频数分布的描述频数分布的类型类型(对称分布、偏态分布)(对称分布、偏态分布) (1 1)对称分

5、布)对称分布 :若:若各组段的频数以中各组段的频数以中心位置左右两侧大心位置左右两侧大体对称,就认为该体对称,就认为该资料是对称分布资料是对称分布 是否为对称分布?是否为对称分布?(2)偏态分布)偏态分布 : 1)右偏态分布(正偏态分布):右侧的组段数多于)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。左侧的组段数,频数向右侧拖尾。 血清转氨酶(mmol/L)051015202513.519.525.531.537.543.5.图2-2 115名正常成年女子血清转氨酶的频数分布人 数转氨酶含量 人 数 12 2 15 9 18 14 21 23 24 19 27 14

6、 30 11 33 9 36 7 39 4 4245 3 表表2-2 115名正常成年女子血清转氨名正常成年女子血清转氨酶(酶(mmol/L)含量分布)含量分布 2)左偏态分布(负偏态分布): 左侧的组段数多于右侧的组段数,频数向左侧拖尾。 血 清 肌 红 蛋 白(g / m L)05101520252.512.522.532.542.552.5图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布人 数肌 红 蛋 白 含 量 人 数 0 2 5 3 10 7 15 9 20 10 25 22 30 23 35 14 40 9 45 50 2 表表2-3 101名正常人

7、的血清肌红蛋白含量分布名正常人的血清肌红蛋白含量分布g/mL2描述频数分布的描述频数分布的特征特征表表21数据的频数分布特征:数据的频数分布特征:数据数据的范围在的范围在5784 (次(次/分分 )数据数据在在6873 (次(次/分)分)之间,尤以组段的人数之间,尤以组段的人数71(次(次/分)最多。分)最多。且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值 4便于进一步做统计分析和处理便于进一步做统计分析和处理第二节第二节 集中趋势的描述集中趋势的描述 统计上使用平均数(统计上使用平均数(average)这一指标体系来

8、描)这一指标体系来描述一组变量值的集中位置或平均水平。述一组变量值的集中位置或平均水平。常用的平均数有常用的平均数有: 算术均数(均数)(算术均数(均数)(mean) 几何均数(几何均数(geometric mean) 中位数中位数 (median)与百分位数()与百分位数(percentile) 众数(众数(mode) 一、算术均数一、算术均数算术均数:简称均数(算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量值可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置在数量上的平均水平或者说是集中位置的特征值。的特征值。1、计算方法、计算方法(1)直接计算法)直接计算

9、法 公式公式 :12nXXXXXnn举例:试计算举例:试计算4,4,4,6,6,8,8,8,10的均数?的均数?1323101836243X例例2-1 测得测得130健康成年男子脉搏资料健康成年男子脉搏资料(次次/分分)如下,试编制频如下,试编制频数表和观察频数分布情况。数表和观察频数分布情况。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865

10、77697775796479737661806469707369686570696681636480747876846670736076827364657373638068767079776470666973787632.711307678727675X(2)加权法)加权法(利用频数表):利用频数表):公式 :112233123kkkfXf Xf Xf Xf XXfffffX 本组段下限值+下组段下限值其中2k:频数表的组段数,:频数表的组段数, f :频数,:频数, X:组中值。:组中值。表2-2 130名健康成年男子脉搏(次/分)的频数分布表Nf ffXfXfXfX2 22 57.55 6

11、0.51 84.5931171.62()251130X 次 分2、应用、应用 均数均数适用于对称分布,特别适用于对称分布,特别是正态分布资料。是正态分布资料。二、二、 几何均数(几何均数(geometric mean) 可用于反映一组经可用于反映一组经对数对数转换转换后呈对称分布或正态分后呈对称分布或正态分布的变量值在数量上的平均布的变量值在数量上的平均水平。水平。几何均数(几何均数(geometric meangeometric mean)12121lg1lg(lglglg)lglgnnnGX XXXGXXXnnXGn为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数

12、几何均数:变量变量对数值的对数值的算术均算术均数数的反对数的反对数。 其他对数(如自然对数)变换获得相同的几何均数例例2-5 有有8份血清的抗体效价分别为份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。求平均抗体效价。57.566403201608040201058G1lg (lg5lg10lg20lg640)/856.57G平均抗体效价为:平均抗体效价为: 1:57(2)加权法)加权法公式:公式:1lglg ()fXGf 例例2-6 69例类风湿关节炎(例类风湿关节炎(RA)患者)患者血清血清EBV-VCA-

13、lgG抗体滴度的分布见表抗体滴度的分布见表2-4第第(1)、(2)栏,求其平均抗体滴度。栏,求其平均抗体滴度。111lg150.2778lg ()lg ()lg (2.1779)150.669fXGf2、应用:、应用: 适用于成等比数列的资料,适用于成等比数列的资料,特别是服从对数正态分布资特别是服从对数正态分布资料。料。三、三、 中位数与百分位数中位数与百分位数11个大鼠存活天数:个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数平均存活天数?(一)中位数(一)中位数(median) 是将每个变量值从小到大排列,是将每个变量值从小到大排列,位置位置居于中间的那

14、个变量居于中间的那个变量。 计算计算公式公式: n为奇数时为奇数时 n为偶数时为偶数时 1()2nMX()(1)2212nnMXX例例2-3 9名中学生甲型肝炎的潜伏期名中学生甲型肝炎的潜伏期分别为分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其天,求其中位数中位数。88451222214 15 214.5()MXXXX如果只调查了前八位中学生,则:()( )天)(155219天XXM频数表资料的中位数频数表资料的中位数(50%)(50%)LmMnnfMLif 所在组段下限值至该下限值的累计频数组距所在组段下限值至上限值间的频数下限值下限值L上限值上限值Ui; f

15、m中位数中位数M)%50(Lfn例21频数表中位数的计算Nf f中位数71+3x(130 x50%59)/26应用应用1、各种分布类型的资料、各种分布类型的资料2、特别适合大样本、特别适合大样本偏态偏态分布资料或分布资料或者者一端或两端无确切数值的资料一端或两端无确切数值的资料。 %X(100)%XXP 百分位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile) 例例 对某医院细菌性痢疾治愈者的住院对某医院细菌性痢疾治愈者的住院天数统计,天数统计,120名患者的住院天数从小到大名患者的住院天数从小到大排列如下,试求排列如下,试求第第5百分位数和百分位数和第第99百分位百分

16、位数。数。患患 者者:住院天数住院天数: (1)n=120, ,为整数为整数: 5(6)(7)11(34)3.5()22PXX天120 5%61 2 3 4 5 6 7 8 9 117 118 119 120 1 2 2 2 3 3 4 4 5 40 40 42 452频数表法 公式:(%)XXXLXiPLnXff XL:第X 百分位数所在组段下限 Lf:小于XL各组段的累计频数 Xi:第X 百分位数所在组段组距 n:为总例数 当 时,公式(2-9)即为中位数的计算公式50505050()2LinMPLff1%50%2X 例例2-9 试分别求例试分别求例21频数表的第频数表的第25、第、第75

17、百分位数。百分位数。P2565+3x(130 x25%19)/15P7574+3x(130 x75%85)/19 设有甲、乙、丙三名医生,分别对相同的设有甲、乙、丙三名医生,分别对相同的5份血样进行份血样进行红细胞计数(万红细胞计数(万/mm3),甲得出了),甲得出了560、540、500、460、440,乙得出了,乙得出了520、510、500、490、480,丙得出了,丙得出了510、505、500、495、490,见下图,见下图2,三名医生的计数结果得,三名医生的计数结果得到的均数均为到的均数均为500,5个数值之和均为个数值之和均为2500。第三节第三节 离散趋势的描述离散趋势的描述甲

18、医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。常用统计指标:常用统计指标:极差、四分位数间距、极差、四分位数间距、方差、标准差和变异系数。方差、标准差和变异系数。一、极差(一、极差(Range) 极差,用极差,用R表示:即一组变量值最大表示:即一组变量值最大值与最小值之差。值与最小值之差。 对于书中例对于书中例2-1数数据,有据,有845727(/)R 次 分简单,但仅利用了两端点值,稳定性差。二、四分位数间距二、四分位数间距(quartile range) 四分位数间距,用Q表示: Q=下四分位数: 上四分位数:50P2575PP 25LQP

19、75UQP25P100P0P75P例21数据P2565+3x(130 x25%19)/15P7574+3x(130 x75%85)/19三、方差与标准差三、方差与标准差 1. 方差(方差(variance)也称均方差)也称均方差(mean square deviation),反映一组数),反映一组数据的平均离散水平。据的平均离散水平。 总体方差总体方差 样本方差样本方差 22()XN离均差平方和SS22()1XXSn2、公式: 样本标准差用 表示 ,其度量单位与均数一致,所以最常用。公式:总体标准差用表示 2()XNS2()1XXSn离均差平方和SS 标准差的公式还可以写成 :利用频数表计算标

20、准差的公式为22()1XXnSn22()1fXfXfSf例2-11 对例2-1的前10个数据: 75,76,72,69,66,72,57,68,71,72, 用直接法计算标准差。48984727675,698727675,102222XXn248984698 /105.41()10 1S次/分例2-12 利用表2-2中的数据和频数表法计算标准差。Nf ffXfXfXfX2 22671354.59311.0 /1305.89()130 1S次/分标准差的意义和用途 说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差; .。 标准差与原始数据的单位一致,在科技论文

21、报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。 用于计算变异系数 用于计算标准误(见第四章) 结合均值与正态分布的规律,估计参考值的范围(见第五节)。四、变异系数四、变异系数C VSX 1 0 0 % 变异系数(coefficient of variation,CV) 常用于比较度量单位不同度量单位不同或均数相差均数相差悬殊悬殊的两组(或多组)资料的变异程度。 某地某地7岁男孩身高的均数为,标准差为;岁男孩身高的均数为,标准差为;体重均数为,标准差为体重均数为,标准差为2.26kg,比较其变异度?比较其变异度? 体重 2.26100%10.14%22.29CV 身高 4.71

22、100%3.83%123.10CV 第四节第四节 正态分布正态分布图 2-4 频 数 分 布 逐 渐 接 近 正 态 分 布 示 意正态曲线(正态曲线(normal curvenormal curve)的发现)的发现de Moivre(1667-1754),),published in 1733Laplace(1749-1827)Gauss(1777-1855)正态分布)正态分布: 又称又称高斯分高斯分布布(Gaussian distribution)一、正态分布的概念和特征一、正态分布的概念和特征1正态分布曲线的数学表达式正态分布曲线的数学表达式(概率密度函数,概率密度函数,probabil

23、ity density function,pdf ) ,X 则称 X 服从正态分布,记作2( ,)XN ,为 X 的总体均数, 2为总体方差。 22()21()2Xf Xe2正态分布的特征正态分布的特征正态曲线下面积分布有一定的规律,总面积正态曲线下面积分布有一定的规律,总面积=1。00.10.20.30.40.5-4-3-2-101234 2-5 正态分布位置变换示意图 00.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456=0.5 =1=2 2-6 正态分布形态变换示意图 累积面积规律:累积面积规律: X 轴与正态曲线所夹面积恒等于 1 或 100%

24、; 区间的面积为 68.27%; 区间1.96的面积为 95.00%; 区间2.58的面积为 99.00%。 图图2-7 正态曲线面积分布示意图正态曲线面积分布示意图 二、标准正态分布二、标准正态分布见见P404405,ZN(0,1)2221( )2ZZZedZ例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:与5.80 (次/分);问在正态分布假定下,脉搏在6575(次/分)之间有多少人?126571.325.807571.32051.09,.63.0,8ZZ 该界值左侧面积为0.1379该界值左侧面积为0.7357两者之间的面积为0.73570.1379=0.597860%,即包

25、括60 13078人一、基本概念一、基本概念第五节第五节 医学参考值范围的制定医学参考值范围的制定 1.意义:意义:医学参考值(医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正代谢产物等各种生理及生化指标常数,也称正常值。常值。 由于存在个体差异,生物医学数据并非由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不值范围作为判定正常和异常的参考标准,但不是是“金标准金标准”。2.

26、单、双侧问题,常依据医学专业知识而定单、双侧问题,常依据医学专业知识而定 双侧双侧 :如:血清总胆固醇、血液白细胞数无论过低或过如:血清总胆固醇、血液白细胞数无论过低或过高均属异常高均属异常单侧上限单侧上限 :如:血清转氨酶、如:血清转氨酶、 体内有毒物质过高异常体内有毒物质过高异常(越低越好(越低越好, P5 ) 3. 有有90%、95%、99% 等医学参考等医学参考值范围,值范围,最常用的是最常用的是95% 。计算医学参考值范围的常用方法:计算医学参考值范围的常用方法: 1、正态分布法、正态分布法 2、百分位数法、百分位数法二、正态分布法二、正态分布法公式:公式:双侧1参考值范围:/2Xu

27、S 单侧1参考值范围: Xu SXu S或 式中X为均数,S为标准差,u值可由表 2-6 查出。 单侧单侧下限下限单侧单侧上限上限ZZZZ三、百分位数法三、百分位数法 适合偏态分布资料,样本含量较正态分布法要多(100) ,其计算公式为 双侧1参考值范围:1002100 1002PP 单侧1参考值范围:100100 100 PP或 单侧单侧下限下限单侧单侧上限上限尿 汞 值 频 数f 累计频数 f 累计频率(%) 0 4 5 4 5 1 6 . 0 8 . 0 6 4 1 0 9 3 8 . 6 1 6 . 0 9 6 2 0 5 7 2 . 7 2 4 . 0 3 8 2 4 3 8 6 .

28、 2 3 2 . 0 2 0 2 6 3 9 3 . 3 4 0 . 0 1 1 2 7 4 9 7 . 2 4 8 . 0 5 2 7 9 9 8 . 9 5 6 . 0 2 2 8 1 9 9 . 6 6 4 . 0 7 2 . 0 1 2 8 2 1 0 0 . 0 例例2-16 测得某年某地名正常人的尿汞测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的值如下表,试制定正常人尿汞值的95%参参考值范围。考值范围。 表表2-7 282名正常人尿汞值(名正常人尿汞值( )测量结果)测量结果g / L鉴于正常人的尿汞值为偏态分布, 且过高为异常, 故用百分位数法计算上侧界值即第 95 百分位数 95958.0(95%)40.0(282 95%263)43.6( g/L)11LiPLnff 故该地正常人的尿汞值的 95%医学参考值范围为43.6(g /L)。 单侧上限单侧上限Sx64. 1Sx96. 1Sx28. 1Sx28. 1Sx58. 2955pp Sx64. 1Sx32. 2Sx64. 1Sx32. 25 .995 . 0pp5 .975 . 2pp10p90p5p95p1p99p

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!