医学统计学及其软件包.ppt

上传人:w****2 文档编号:16585145 上传时间:2020-10-15 格式:PPT 页数:46 大小:245.51KB
收藏 版权申诉 举报 下载
医学统计学及其软件包.ppt_第1页
第1页 / 共46页
医学统计学及其软件包.ppt_第2页
第2页 / 共46页
医学统计学及其软件包.ppt_第3页
第3页 / 共46页
资源描述:

《医学统计学及其软件包.ppt》由会员分享,可在线阅读,更多相关《医学统计学及其软件包.ppt(46页珍藏版)》请在装配图网上搜索。

1、医学统计学及其软件包 上海第二医科大学 生物统计教研室 第一章 绪论 第一节 医学统计学 数学 统计学 医学统计学 第一节 医学统计学 1.统计学 (statistics):收集,整理和分 析 带有随机性 的数据。 2.医学统计学 (medical statistics):统 计学的原理和方法在医学和生物学中的 应用。 第一节 医学统计学 医学统计学的主要内容有: 1.统计研究设计 2.统计描述 3.统计推断 4.研究联系 5.研究分类,鉴别 6.研究检测 统计研究设计 1.估计研究对象的数量(样本大小估计) 2.跟据研究目的确定对照的类型 3.保证随机化和双盲原则的贯彻 4.跟据研究目的确定

2、主要和次要考核指标 5.如何收集和汇总数据以保证数据质量 6.如何进行统计分析 统计研究设计 1调查研究或观察性研究 (observational study) 2实验研究( experimental study) 统计描述 ( statistical discription) 统计描述指用统计指标、统计表、统计图等 方法,对资料的数量特征及其分布规律进行测 定和描述。 统计推断 (statistical inference) 统计推断指用样本推断总体。 总体 (population):一个统计问题所研究对象的全体。 总体中每一个研究对象称为个体 (individual)。 有限总体:有确定的

3、时间和空间范围,总体内观察单 位是有限的。 无限总体:没有时间和空间范围限制,因而观察单位 数无限。 样本 (sample):按 随机的方式 从总体中抽取若干个 体构成一个样本 。 参数 (parameter) :用于描述总体分布的数字特征 的量 。 如: , , 统计量 (statistics):不包含总体中任何未知参数的 样本指标和样本数据的函数 。 如: , S, P 统计推断 (statistical inference) x 1.参数估计 (estimation of parameter) 根据总体中所抽得的样本,由样本统计量估计 总体分布中的未知参数。可分为点估计和区 间估计。 1

4、)点估计 (point estimation):选择一个适当 的样本统计量作为总体参数的估计值称为点 估计。 统计推断 (statistical inference) 统计推断 (statistical inference) 2) 区间估计 (interval estimation):根据一定的精 确度要求 , 确定一个概率水平 , 由样本统计量计 算出一个适当的区间作为未知总体参数真值所在 的范围 , 称为区间估计 。 称此概率水平为可信度 , 或置信度 , 或可信水平 , 或置信水平 ( confidence level)。 所估计的区间称为可信区间或置信区间 (confidence in

5、terval), 区间的端点称为可信限 (confidence limit), 有上限 , 下限之分 。 例如 , 估计用某方法治疗某病的治愈率 。 从患 某病的病人总体中随机抽得 100例病人进行治疗 , 治愈 50例 , 则可得样本治愈率为 50%。 总体治 愈率的点估计为 50%。 总体治愈率区间估计 , 当可信度为 95%时 , 总体治愈率的 95%可信区 间为 40% 60%。 当可信度为 99%时 , 总体治 愈率的 99%可信区间为 37% 63%。 统计推断 (statistical inference) 统计推断 (statistical inference) 从样本率对其总

6、体率的估计 总体治愈率 (%) 样本含量 治愈例数 样本治愈率 (n) (x) (%) 点估计 95% 信度区间估计 99% 信度区间估计 10 5 50 50 19 81 13 87 100 50 50 50 40 60 37 63 1000 500 50 50 47 53 46 54 统计推断 (statistical inference) 2.假设检验 (hypothesis testing) 又称显著性检验 (significance testing)。 先对 总体的参数或分布作出某种假设 , 例如总体为 正态分布 , 两个总体均数相等 , 两总体率相等 , 然后检验这个假设成立的可能

7、性大小 , 作出推 断 。 两种药物疗法治疗某病有效率的比较 组别 有效例数 无效例数 合计 有效率 ( % ) A 药 80 20 100 80.0 B 药 60 40 100 60 .0 合计 140 60 200 70 .0 P 1 P 2 1 2 ? 统计推断 (statistical inference) 统计推断 (statistical inference) 无效假设 ( null hypothesis) H0 : 1 2 备择假设 (alternative hypothesis) H1 : 12 然后根据检验假设 , 1 2 70%, 成立的情况 下 , 计算由于抽样误差得到目

8、前样本及更极端情况 的可能性大小 。 本例用卡方检验 , 得到检验统计量 2=9.524, 根据检验统计量的分布计算概率 ( 可 能性大小 ) P值 , P=0.002, 可能性很小 。 统计推断 (statistical inference) 概率论认为:在一次试验中小概率事件不可能发生 。 在统计中 , 一般公认为 P0.05为小概率 。 本例 P=0.002 0.05, 因此可认为假如 1 2, 即使抽 样误差也不可能得到目前样本 , 于是检验假设 , 1 2不成立;与检验假设对立的备择假设成立 , 即 12 , A药组的总体有效率不同于 B药组的总 体有效率 , 从本例情况 , A药组

9、的总体有效率大于 B药组的总体有效率 。 统计推断 (statistical inference) 如果本例用卡方检验 , 得到其可能性大小 P=0.08 0.05, 这个概率不是很小 , 有可能检验假设 , 1 2 , 成立的情况下 , 由于抽样误差得到目前样本 , 所以不能拒绝检验假设 。 总结假设性检验的过程 。 (1)建立 H0, H1和确定显著性水准 (significance level, 用 表示 , 常取 0.05) (2)选择合适的统计检验方法 , 计算统计量 。 (3)根据检验统计量的分布计算概率 P值 , 根据 P值 作出统计的推断结论 。 统计推断 (statistic

10、al inference) P值:根据 H0规定的总体情况 , 作随机抽样 , 获得 大于等于现有样本统计量值的概率 。 如果 P 0.05, 则不拒绝 H0; 0.01 P0.05, 则在 =0.05水平上 , 拒绝 H0; P0.01 则在 =0.01水 平上 , 拒绝 H0。 假设检验的特点: (1)反证法 。 (2)结论是概率性的 , 不是绝对的肯定或否定 , 有 犯错误的可能性 假设检验时应注意的问题 1.要有严密的抽样研究设计 保证样本的随机性 组间的均衡性和可比性:除了对比的主要因素外 其它影响结果的因素也应可比。或能在资料处理时消 除其影响。 2.选用的假设检验方法应符合其应用

11、条件。 研究变量的类型不同,设计类型不同,是大样本 还是小样本等,所用假设检验的方法也不同。 3.正确理解检验假设和备择假设 以两样本均数差异的显著性检验为例。 正确的写法: H0:两总体均数相等 H1:两总体均数不相等 以下是错误的写法。 H0:两样本均数相等 H1:两样本均数不相等 H0:两总体均数无显著差异 H1:两总体均数有显著差异 H0:两样本均数无显著差异 H1:两样本均数有显著差异 假设检验时应注意的问题 假设检验时应注意的问题 4.正确理解差别有无显著性的统计意义,写好统计结论 过去习惯: P0.05,两样本均数无显著差异 P0.05,两样本均数有显著差异 P0.05,两样本均

12、数的差异无统计学意义( P0.05 ) P0.05,两样本均数的差异有统计学意义( P0.05 ) P0.01,两样本均数的差异有统计学意义( P0.01 ) 最好给出具体的 P值,如 P 0.0345 注意: “ 两样本均数的差异 ” ,而不是 “ 两总体均数的差异 ” 从 两样本均数的差异有统计学意义( P 0.0345),可 推断出两总体均数有差异,其结论错误的可能性为 3.45 % 假设检验时应注意的问题 两类误差 两类误差 客观实际 拒绝 H 0 不拒绝 H 0 H 0 成立 第一类误差 推断正确 H 0 不成立 推断正确( 1 - ) 第二类误差 第一类误差 常是可控制的 , =0

13、.05, P0.05。 第二类误差 常未知 。 但也可根据样本数据计算得到 。 1-又称为检验的效能 (Power of Test), H0不成立时拒绝 H0的概率 。 检验效能 (Power of Test) 影响效能的四要素 (1) 客观上两种药物效应差异越大 , 效能 越大 。 (2) 个体间标准差越小 , 效能越大 。 (3) 样本量越大 , 效能越大 。 (4) 第 类误差的概率越大 , 效能越 大 。 同时降低两类误差的唯一办法是加大样本 。 检验效能 (Power of Test) 例:一项关于降血压药的临床试验分设两组随机样 本 , 各含 15例。一组服用常规药 , 另一组服用

14、新药。 如果新药的降压效果至少比常规药平均高出 0.8kPa方可考虑在临床推广 ; 据以往经验 , 不论常 规药还是这种新药 , 个体降压值的标准差约为 1kPa。经 0.05水平的两组均数比较的统计检 验 ,两组平均降压效果的差异尚无统计学意义 ,此 事如何理解 ? 检验效能 (Power of Test) 经计算: 0.2912, 1- 0.7088,可见 , 如果新药的降压 效果比常规药高出 0.8kPa, 只有 70.88%的机会被此检验认可 ;如果比常规药高出的数值还不如 0.8kPa, 则被埋没的机会更 大 , 必须加大样本量 。 如取 0.01, 则得 n 59, 即两组各 含

15、59例时 , 如果新药的降压效果比常规药高出 0.8kPa, 有 99%的机会可检验出差异有统计学意义 。 如取 0.10, 则得 n 41 如取 0.20, 则得 n 25 检验效能 (Power of Test) 例 一项关于维生素 C预防感冒作用的研究随机抽取 两组正常人各 30名 , 一组服用维生素 C, 另一组服 用安慰剂 , 欲比较一定时期内发生感冒的频率。结 果 ,安慰剂组有 6人发生感冒 , 维生素 C组有 3人发生 感冒 , 经 0.05水平的检验 ,差异无统计学意义 , 此事如何理解 ? 经计算: 0.7071, 1- 0.2929 检验效能 (Power of Test)

16、 可见 , 此项研究的效能只有 29.29%。 换言之 , 若维 生素 C 能使发生感冒的机会减为 10%,此项研究只有 29.29%的机会发现这一差异性 ,约 70%的机会给出 阴性的结果 。 如取 0.01, 则得 n 461,此项研究需要每组各 461 名受试者 。 每组各 30例是远远不够的 。 单侧检验和双侧检验 双侧检验 (two-tailed test) H0: 1=2 H1: 12 单侧检验 (one-tailed test) H0: 1=2 H1: 1 2 (或 H1: 1 2) 单侧检验和双侧检验 df=10 时的 t 界值表 双侧 P 0.50 0.2 0.1 0.05

17、0.02 0.01 单侧 P 0.25 0.1 0.05 0.025 0.01 0.005 t 界值 0.70 1.372 1.812 2.228 2.764 3.169 单侧检验和双侧检验 单侧检验如果误认为是双侧的,就不易拒绝 H0 双侧检验如误用单侧就较易拒绝 H0 必须根据实际问题本身决定使用单侧还是双侧。 通常进行的都为双侧检验;进行单侧检验时必须特别 说明,要有充分的理由 (另一侧为不可能),并且在实 验设计阶段就要预先规定好。 研究联系 分类鉴别研究 检测研究 第二节 一些基本概念 资料的类型 数值变量 计量资料 分类变量 -二分类变量 计数资料 无序多分类变量 有序多分类变量

18、等级资料 自由度 (degree of freedom) 泛指事物在 N维空间中能自由活动的维数 。 在数学上自由度是指能自由取值的变量个数 。 自由度 (degree of freedom) 2 2 表 2 3 表 30 20 50 20 10 20 50 50 10 60 20 30 10 60 80 30 110 40 40 30 110 第三节 几种主要的分布 二项分布 (binomial distribution) 二项分布常用于描述二分类变量的分布。 二项分布主要用于率的统计推断,如总体率的估计, 样本率与总体率的比较, 两样本率的比较,还可用于 两分类变量的统计分析,如 logi

19、stic回归等。 正态分布 (normal distribution) 正态分布特征:呈钟形 , 以均数为中心 , 左右对称 。 正态分布 (normal distribution) 均数 :位置参数 , 增大 , 曲线向右移动 。 标准差 :形状参数 , 增大 , 数据分散 , 曲线 低平; 减小 , 数据集中 , 曲线高尖 。 记为 N(, 2), 标准正态分布: uN(0, 1) 正态曲线下面积分布规律: ( 1.96) ( 1.96) 占 95%, 双侧尾 部各占 2.5%。 ( 2.58) ( 2.58) 占 99%, 双侧尾 部各占 0.5%。 正态分布 (normal distr

20、ibution) 正态分布的重要性 1.正态分布是很多统计方法的理论基础 , 很多统 计方法 要求样本来自正态分布的总体 。 2.某些分布 , 如二项分布等的极限为正态分布 , 当样本 量较大时可按正态近似的方法来处理 。 3.不少医学资料服从正态分布或近似正态分布 , 有的呈偏 态分布的医学资料可经过变量变换转 换为正态分布 。 4.正态曲线下面积分布规律可用于医学正常值范围和控制 实验中的检测误差 。 2分布 (2 distribution) 2 分布是一种连续型分布 , 2变量是相互独立的标 准正态变量 u的平方和 , 即 2=u12+u22+uv2 其中 df=。 用途:检验资料的实际

21、观察频数与按某种检验理论 所算得的理论频数是否相符 。 t 分布 t分布 (t distribution)是一种连续型分布 , 随机变量 t 是标准正态分布变量与 df=的 2分布中的比值 , 即 用途: t检验 、 回归系数及相关系数检验等 。 /2 u t F 分布 F= F分布有二个自由度 1和 2 , 它们分别为分子 的自由度与分母的自由度 。 用途:多个均数比较的方差分析 , 也用于回归 分析中假设检验 , 以及方差齐性检验等 。 )/()/( 222121 第四节 统计软件包简介 一 . SAS统计软件包 ( Statistical Analysis System) 二 .BMDP

22、统计软件包 ( Biomedical Computer Programs) 三 .SPSS统计软件包 ( Statistical Package for the Social Science) 四 .SYSTAT统计软件包 ( the System for Statistics) 五 .GLIM统计软件包 (Generalized Linear Interactive Model System) 第四节 统计软件包简介 六 MINITAB 统 计 软 件 包 ( MINITAB statistical software) 七 EPIINFO 软 件 包 (statistics program

23、for epidemiology on microcomputers) 八 SLIDE软件包 九 STATPAL统计软件包 ( a statistical package for micro computers) 第四节 统计软件包简介 十 . PEMS统计软件包 (package for encyclopaedia of medical statistics) 十一 .SASD统计软件包 (a package for statistical analysis of stochastic data) 十二 . SPLM统计软件包 (statistical program for linear modelling) 十三 .SDAS软件包 (statistical design and analysis system)

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!