医学案例统计分析与SAS应用

上传人:ta****u 文档编号:213076535 上传时间:2023-05-24 格式:DOCX 页数:18 大小:303.94KB
收藏 版权申诉 举报 下载
医学案例统计分析与SAS应用_第1页
第1页 / 共18页
医学案例统计分析与SAS应用_第2页
第2页 / 共18页
医学案例统计分析与SAS应用_第3页
第3页 / 共18页
资源描述:

《医学案例统计分析与SAS应用》由会员分享,可在线阅读,更多相关《医学案例统计分析与SAS应用(18页珍藏版)》请在装配图网上搜索。

1、序言生物体的变异性决定了医学统计学在医药卫生研究中的重要地位。医学统计学是什么? 医学统计学是与生物体神秘莫测的变异紧密关联的,是为了探求医学生物体个体变异的规律 而产生和发展的。没有医学统计学指导的医药学研究不能称为真正的医药学研究,缺乏医学 统计学支持的医药卫生研究结果永远不会得到医学界的承认。这已经为越来越多的医药卫生 研究工作者所认识。多年来,大批医学统计工作者积极从事医学统计的普及工作,撰写了不 少应用的文章与专著,努力指导医药卫生研究工作者掌握这门工具。但医学统计学在医学生 或临床医生面前却依然犹如雨后云雾环绕的山峰,若隐若现,看似清楚,却又朦胧,似乎伸 手可及,却又似远隔万丈。他

2、们中的许多人,对于统计的认识就是处于这样一种一知半解的 朦胧状态,对于统计方法学的使用尚处于“知其然、不知其所以然”、照猫画虎、依葫芦画 瓢的阶段。在众多眼花缭乱、望而生畏的数学公式面前,更多的人则是一脸茫然,束手无策, 无所适从。这些不仅增添了他们对这门学科的神秘感,而且必定会使他们对医学统计学“敬 而远之”,从而影响这门学科的发展。在从现在起往前的三十余年间,信息技术得到飞速发 展,出现了功能强大的统计分析软件,诸如SAS、SPSS等,统计分析从此结束了手工计算 的时代。统计软件可以使许多原来计算繁琐的统计方法不断引入到统计学中,可以使你不必 专注于繁杂的统计计算,而是将关注点转移到统计方

3、法的选择、数据分析的思路上,提高了 研究效率,产出了手工时代难以获得的结果。但统计软件却又是一把双刃剑,人们在赞叹其 功能神奇的同时,很少有人关注统计方法的使用条件,极少有人去认真进行结果解释。更多 看到的却是对统计软件的不求甚解以及由此出现在各类医学期刊上的比比皆是的尴尬。艺术家的朦胧醉眼可以使他们的思维犹如行空的天马,在由此产生的奇思异想指导下的 作品可以成为绝世佳作。但在科学上却不允许有任何醉眼,来不得一点点的朦胧。对统计方 法的一知半解和统计软件的误用不仅会使研究者难以获得真正重要的关键信息,从而使研究 结果前功尽弃,甚至可能由于错误的信息,而将决策者引入歧途。这就使如何深入浅出、通

4、俗易懂地将医学统计方法及其软件应用介绍给广大迫切希望掌握这门专业的医药卫生工作 者,成为辅助他们进行医学研究得心应手的工具,成为摆在从事医学统计的专业工作者面前 的头等大事,也是他们所面临的巨大难题之一。难题之一,是如何冲破似是而非、千书一律的概念叙述、故弄玄虚、生拉硬拽的方法介 绍的固有模式,深入浅出地把统计概念、方法介绍清楚,这是使医学工作者对医学统计学不 再“敬而远之”、朦胧看山的关键。难题之二,如何正确使用统计软件。统计软件的编写考 虑到了不同用户的需求,正因为如此,对于使用条件的选择与结果的解释就显得尤其的重要, 既涉及对统计方法的正确理解,又要对其与统计软件的结合十分熟悉。破解此二

5、难题,绝非 易事。所幸的是,目前已有一批热爱统计的年轻人致力于推广、普及医学统计学,努力拉近 医学统计学与使用者的距离,努力使医药卫生工作者对医学统计学不再“敬而远之”,而是 使他们能灵活应用医学统计学。冯国双博士正是其中的代表之一,自2008 年起他就开始在 网络上用通俗浅显的语言推广医学统计学的原理和分析思路,而且收到了很好的效果。此次 冯国双博士将其对医学统计学的理解和心得整理成册,即将付梓,这是难能可观的。故欣然 为序。本书通俗易懂,文字流畅,可读性强,有助于培养读者的统计思维,提高数据分析技能。 它不是简单的统计学方法和SAS软件的应用介绍,更多的则是作者多年来数据分析经验和 体会的

6、总结。其编写也不同于以往统计学教材的书写风格,不以方法划分章节,而以数据分 析的需求为导向,引导读者逐步深入对数据的分析,并通过SAS软件实现结果的输出。这 实在是一个值得推荐的尝试。能把复杂的统计学方法介绍的如此通俗易懂、深入浅出,说明 作者在把统计方法变成一种大众喜爱的艺术方面所作的努力。感谢作者为医学统计学领域提 供了一本有益的著作。相信不管是医学研究生还是广大医务工作者或是科研人员,均可从本 书获得相应的知识和借鉴。金水高2010 年 7 月于北京、亠前言我在研究生时就对统计学特别感兴趣,甚至可以用着迷来形容。那时几乎每天晚上都看 各种统计书,学习各种统计方法,并不断在SAS上练习应用

7、。但真正让我萌生写一本统计 书的念头则是在我博士毕业后。我是在北京大学医学部的附属医院攻读博士,在此期间我接 触了大量的临床资料,经常协助临床或科研科室进行数据处理和分析。在数据分析过程中, 我不断地将理论转化为实践,对许多统计方法有了自己的见解,不再局限于课本的束缚。在 与临床医师的接触过程中,我发现他们其实很希望能掌握一些常用的统计学方法,但由于各 种原因,他们始终不得要领。而且我发现,如果用一些通俗的语言进行讲解,他们也可以比 较轻松地理解。这让我产生了写一本适合临床医师的统计书的想法。最初我只是将一些统计学心得用通俗的话写在博客( 我并没有预期有多少人会关注,因为医学统计毕竟太专业了。

8、但我没想到,在短短的一年的 时间里,竟然有近10 万次点击量,更有许多跟我一样热爱统计的博友纷纷留言,对文章做 出了肯定,下面是部分博友的留言:“拜读了您的统计心得,有些纠缠了很久的问题豁然开朗,学术界有您的分享相信多了 很多精彩。谢谢您的辛勤劳动和大度分享”。“看了 7 个小时,全部文章看完了!一句话:领悟很多!统计能学到这种境界,佩服博 主”。“读您的文章,如醍醐灌顶,受益颇多,期待您的新文章”。“所有文章都学习过了,浅显易懂,触类旁通,谢谢”。 “讲的非常浅显易懂,本人受益匪浅”。“读君一博客,胜看教科书”。诸如此类的留言让我很感动,也给了我继续与大家分享统计学心得的动力。后来在一次 机

9、会中,我与北京大学医学出版社的董采萱编辑见面,谈到这些事情,她建议我将这些内容 整理出本书,这与我的想法不谋而合。于是真正开始着手准备。本书的特点是实用,因此一切都围绕“让人看懂”这一理念来写。语言上,避免以往教材中严肃庄重的语言,尽量使用通俗易懂的话语来阐释各种统计方 法,并在分析中融入自己的心得。书中除非不得已,尽量不出现计算公式。内容上,本书根据多来年的分析经验,选择了临床中最为常用的几种分析方法。像判别 分析、聚类分析、因子分析、典则分析等方法由于临床应用较少,并未包含在本书中。结构上,本书摒弃了以往教材中每章介绍一种方法的模式,因为统计分析是根据研究目 的、数据类型等选择相应方法,而

10、不是拿统计方法去套数据。因此本书以研究目的和数据类 型为导向,以此作为划分章节的依据。对每一案例的数据,给出选用的分析分析,并说明为 什么要用这种方法,以及如何通过统计软件来实现,对统计软件输出的结果给出详细的解释, 使读者掌握不同数据的应用方法,做到举一反三。案例选择上,本书没有采用以往教材中“完美案例”的做法。以往教材中多是对每一种 方法举一案例,该案例的数据非常完美,总是能恰好满足所学的方法。但实际中这种典型的 案例并不多见,很多情况下,数据分析过程中步步荆棘,因此本书着重介绍了如何一步步披 荆斩棘的过程,对分析中出现的问题给出如何解决的方法,使读者在面临类似问题时有一定 的借鉴作用。本

11、书融入了作者多年来对临床研究、新药研发、流行病学研究等各领域数据分析的心得, 对初学者容易困惑而又很难在普通教科书上找到答案的问题给出了较为通俗的解释。如为什 么某因素在单因素分析中有意义,而在多因素分析中变得无意义?为什么某因素的危险度会 大于999,真的有这么高吗? SAS同时输出两个结果相差很大,该选择哪个结果?类似的实 际问题是初学者最容易犯错而又很难找到答案的地方。 本书的数据均来自于实际研究项目,有的来自医院、研究所的研究项目,有的来自网友 的热心提供。由于本书出版时有的项目尚未整理发表,因此书中主要是借用项目的研究指标, 数据在实际基础上做了一些改动,仅用于统计分析的思路阐释,其

12、结果并不一定代表真实情 况。请读者不要将其作为实际结论采用。为了方便读者运用SAS程序,本书中所有的SAS程序均放在北京大学医学出版社的官 方网站(),有需要的读者可自行下载。本书的主要对象是临床医师以及公共卫生相关专业的研究生,但统计学在不同领域的应 用是相通的,也希望本书能对其它领域的统计工作者有一定参考价值。本书包含了作者多年来数据分析的经验和心得,有的可能只是“一家之言”,限于水平, 错谬之处在所难免,真诚地希望同行专家及广大读者不吝批评指正。相应的意见和建议可直 接到“卫生统计空间”(冯国双2010 年 7 月于北京目录第一章 医学统计学与SAS简介8第一节 医学统计学简介8一、医学

13、统计学概述8二、医学统计学中常用的几个概念8三、统计分析中应注意的几个问题9四、统计学应用的几个误区10第二节 SAS 简介 11一、SAS 概述11二、SAS 界面介绍 11三、SAS 常用窗口介绍 12四、SAS 编程简介 14第三节 小结 16第二章 医学研究设计与 SAS 实现 错误!未定义书签。第一节 科研设计思路及SAS命令简介错误!未定义书签。一、样本含量估计及SAS命令简介错误!未定义书签。二、常用实验设计方法及SAS命令简介错误!未定义书签。第二节 科研设计的SAS实现错误!未定义书签。一、完全随机设计与样本含量估计错误!未定义书签。二、随机区组设计与样本含量估计错误!未定义

14、书签。三、析因设计的随机分组错误!未定义书签。四、关系型研究的样本含量估计错误!未定义书签。第三节 小结错误!未定义书签。第三章 统计描述与 SAS 分析 错误!未定义书签。第一节 统计描述及SAS命令简介错误!未定义书签。一、常用的统计描述指标错误!未定义书签。二、常用的统计图表错误!未定义书签。第二节 统计描述的 SAS 实现 错误!未定义书签。一、定量资料的统计描述错误!未定义书签。二、分类资料的统计描述错误!未定义书签。第三节 小结错误!未定义书签。第四章 定量资料的 SAS 统计分析 错误!未定义书签。第一节 定量资料常用统计方法及SAS命令简介错误!未定义书签。一、t检验及SAS命

15、令简介错误!未定义书签。二、方差分析及SAS命令简介错误!未定义书签。三、秩和检验及 SAS 命令简介 错误!未定义书签。四、多重检验及SAS命令简介错误!未定义书签。第二节 定量资料的分析思路及SAS实现错误!未定义书签。一、两组正态资料的比较错误!未定义书签。二、两组非正态资料的比较错误!未定义书签。三、多组正态资料的比较错误!未定义书签。四、多组非正态资料的比较错误!未定义书签。五、析因设计资料的分析错误!未定义书签。六、配对设计资料的分析错误!未定义书签。七、随机区组资料的分析错误!未定义书签八、多指标的组间比较错误!未定义书签第三节 小结错误!未定义书签第五章 分类资料的 SAS 统

16、计分析 错误!未定义书签第一节 分类资料常用统计方法及SAS命令简介错误!未定义书签。一、X检验及SAS命令简介错误!未定义书签。第二节 分类资料的分析思路及SAS实现错误!未定义书签。一、四格表资料的分析错误!未定义书签二、Rx2表资料的分析错误!未定义书签。三、2xC表无序资料的分析错误!未定义书签。四、2xC表有序资料的分析错误!未定义书签。五、配对资料的分析错误!未定义书签六、多层分类资料的分析错误!未定义书签第三节 小结错误!未定义书签第六章 相关性分析及SAS实现错误!未定义书签。第一节 相关分析及SAS命令简介错误!未定义书签。一、定量资料相关分析及SAS命令简介错误!未定义书签

17、。二、分类资料相关分析及SAS命令简介错误!未定义书签。第二节 相关分析的思路及SAS实现错误!未定义书签。一、线性相关分析错误!未定义书签二、分类资料的相关性分析错误!未定义书签三、配对分类资料的相关性分析错误!未定义书签四、多分类指标的相关性分析错误!未定义书签第三节小结错误!未定义书签第七章 线性回归与SAS分析错误!未定义书签。第一节线性回归及SAS命令简介错误!未定义书签。一、线性回归简介错误!未定义书签二、线性回归的应用条件错误!未定义书签三、线性回归模型的分析过程错误!未定义书签四、线性回归模型诊断与评价错误!未定义书签五、线性回归的SAS程序错误!未定义书签。第二节线性回归的分

18、析思路及SAS实现错误!未定义书签。一、简单线性回归分析错误!未定义书签二、多重线性回归分析错误!未定义书签第三节线性回归的替代方法及SAS实现错误!未定义书签。一、主成分回归错误!未定义书签二、偏最小二乘回归错误!未定义书签三、稳健回归错误!未定义书签四、非参数回归错误!未定义书签第四节小结错误!未定义书签第八章Logistic回归与SAS分析错误!未定义书签。第一节Logistic回归及SAS命令简介错误!未定义书签。一、 Logistic 回归简介错误!未定义书签。二、Logistic回归模型的分析过程错误!未定义书签。三、Logistic回归的SAS程序错误!未定义书签。第二节Logi

19、stic回归的分析思路及SAS实现错误!未定义书签。一、单因素 logistic 回归分析错误!未定义书签二、多因素logistic回归分析错误!未定义书签。第三节logistic回归的扩展及SAS实现错误!未定义书签。一、多项 logistic 回归 错误!未定义书签二、有序logistic回归错误!未定义书签。第四节 小结错误!未定义书签第九章 生存分析与SAS分析错误!未定义书签。第一节 生存分析及SAS命令简介错误!未定义书签。一、生存分析中的常见名词错误!未定义书签二、生存分析方法简介错误!未定义书签第二节 生存分析思路及SAS实现错误!未定义书签。一、生存曲线的比较错误!未定义书签

20、二、等比例风险的 Cox 回归 错误!未定义书签三、非等比例风险的Cox回归错误!未定义书签。第三节 小结错误!未定义书签第十章 一般线性模型与广义线性模型错误!未定义书签第一节 一般线性模型与广义线性模型简介错误!未定义书签一、一般线性模型及SAS命令简介错误!未定义书签。二、广义线性模型及SAS命令简介错误!未定义书签。第二节 一般线性模型与广义线性模型的SAS实现错误!未定义书签。一、协方差分析错误!未定义书签二、Poisson回归分析错误!未定义书签。第三节 小结错误!未定义书签第十一章 多水平数据的SAS分析错误!未定义书签。第一节 多水平数据常用统计方法及SAS命令简介错误!未定义

21、书签。一、多水平模型及SAS命令简介错误!未定义书签。二、广义估计方程及SAS命令简介错误!未定义书签。第二节 多水平数据的分析思路及SAS实现错误!未定义书签。一、定量资料的多水平数据分析错误!未定义书签二、分类资料的多水平数据分析错误!未定义书签第三节 小结错误!未定义书签参考文献 错误!未定义书签。第一章 医学统计学与 SAS 简介第一节 医学统计学简介一、医学统计学概述马克吐温说:“世界上有三种谎言:谎言、该死的谎言和统计数据”。不少人对统计学存 在一定的误解,认为统计学是数字游戏。实际上,统计数字有可能是谎言,但统计学绝对是 科学。统计学不仅是一门科学,更是一种艺术,是一种决策艺术,

22、它教你在面对不确定性事件 时如何做出合理的决策。这种决策小到今天你出门是否决定带雨伞,大到国家某一政策是否 应该出台,都需要统计学的帮助才能做出合理的决策。比如某药厂准备研发一种降糖药,想 了解该新药是否比旧药效果好,是否值得上市推广。这就是不确定性事件,需要做出决策。 统计学可以通过合理的统计设计和分析提供科学的依据,协助药厂做出决定。医学统计学的内容包括研究设计、资料搜集、数据整理、数据分析等一系列的过程。例 如,要确定新的降糖药是否该上市,首先要设计一个合理的研究计划,对样本选择、随机分 组、确定分析指标、选择数据分析方法等一系列问题做出安排。研究计划书确定后,需要按 照计划收集相应数据

23、,如研究对象的性别、年龄等基础资料,空腹血糖、餐后2 小时血糖等 疗效指标。数据收集结束后,需要将数据录入数据库并核对整理,这是数据分析的前期工作。 一旦数据库核实整理完毕,就可以采用相应的统计分析方法对数据做出分析,给出统计学结 论,如新药与旧药的疗效是否有差异。最终药厂可根据这一结论做出决策,决定是否应该申 报上市。医学统计学的主要功能是帮助我们透过现象认识本质,从一堆看似杂乱无章的数据中发 现规律,阐明事物的本质。统计学不可能创造出规律,只是对已有规律的探索发现,通过发 现这些规律,帮助我们进行合理的决策。有的医学生花了大量精力收集了珍贵的资料,但在 距离真相只有一步之遥的时候,却因不懂

24、统计而寸步难行,有时甚至因为误用统计方法而与 真相失之交臂,实在令人惋惜。很多情况下,如果加上合理的统计方法这一点睛之笔,就会 “破壁而出”,揭示事物的本质。而缺少这一有力工具,很可能就会功亏一篑,仅隔一层窗 户纸却看不清真相。因此,建议医学生掌握一点医学统计学的思维,具体的设计和分析可以 跟统计学家共同合作,但是自己一定要有统计学思维。二、医学统计学中常用的几个概念(1)总体和样本总体和样本是相对的。总体是根据研究目的确定的同质个体的全体集合。样本则是从总 体中抽取的部分个体的集合。总体根据研究目的不同而不同,如要了解某学校学生的身高, 则该校所有学生的身高组成总体。如果采用随机抽样的方法从

25、该校抽取部分学生测量身高, 然后利用统计学方法估计该校所有学生的身高,则抽取的学生身高就是样本。再如,要比较 两种药物疗效是否不同,则所有服用这两种药物的人的疗效就是总体,但这些人可能分布于 全球各地,其资料很难全部获得,只能选择部分服用两种药的人,观察他们的疗效,然后以 此推断两种药物是否疗效不同,选择人群的疗效就是样本。(2)参数和统计量参数和统计量也是相对的,参数是描述总体特征的指标,统计量则是描述样本特征的指 标。它们一般都用字母表示,为了区分,参数通常用希腊字母表示,统计量通常用英文字母 表示。如总体均数用希腊字母u表示;样本均数用英文字母X表示,总体标准差用希腊字母 O表示,样本标

26、准差用英文字母S表示;总体比例用希腊字母7表示,样本比例用英文字母 p 表示。统计分析的一个重要目的就是通过样本统计量估计总体参数。(3) 变量和资料变量(variable)是对研究个体进行观察或测量的某种特征,如对身高进行测量,身高 就是变量;观察某药物的疗效,疗效就是变量。变量的观察值构成资料(data),也就是我 们接触到的具体数据。资料大致可分为两大类,一是定量资料(quantitative data),又分为离散型资料和连续 型资料,二是定性资料(qualitative data),即分类资料(categorical data),又分为无序分类 资料和有序分类资料。连续型资料可以取任

27、意数值,可以有小数点,如身高、体重、血压、血糖等。离散型资 料只能取整数,不能有小数点,如发病人数等。无序分类资料指各分类之间无等级或程度的变化,如血型分为A、B、0、AB四型,它 们是地位平等的。有序分类资料也称等级资料(ordinal data),指各分类之间有等级或程度 的差异,如疗效分痊愈、显效、有效、无效四类,各类之间有等级差别。( 4)第一类错误和第二类错误统计学结论往往是建立在样本数据基础上的,由于样本是随机抽取的,因此不可避免地 会存在抽样误差,结论也可能存在一定的错误风险。常见的错误有两种:第一类错误是假阳 性错误,即把“无统计学意义”错误地判断为“有统计学意义”,通常用a表

28、示。第二类错 误是假阴性错误,即把“有统计学意义”错误地判断为“无统计学意义”,通常用0表示。三、统计分析中应注意的几个问题(1) 关于 P 值的理解P 值可以理解为结论的风险大小,也就是根据数据得出的结果有多大的错误风险, P 值 越小,结论错误的风险越小,即结论越可靠。 P 值越大,错误的风险越大,即结论的可靠性 差。 P 值是对已有结果的错误风险判断,与结果大小无关。目前不少医学杂志上仍然存在着 关于P值的不规范用语,如PW0.05认为“差异显著”,PW0.01认为“差异非常显著”等, 将 P 值大小与实际差异大小联系起来,这是医学工作者值得注意的地方。统计学中普遍以 0.05 作为假设

29、检验的检验水准,这在当年手工计算的时代无疑是十分 方便的。但到了计算机发达的今天,我们已经可以很轻松地计算出确切的P值,仅以PW0.05 认为有统计学意义已经不符合潮流了。P值等于0.049和等于0.051有什么差别呢?无非就 是0.049比0.051多了 0.2%支持结论的证据,但是少了这0.2%的证据难道就没有意义了吗? 因此发表文章时不要仅仅给出“PW0.05”,最好给出确切的P值,以给读者更多的信息。(2) 关于significant的理解以往教材通常将 significant 译为“显著的”,这一词很容易让人将其与实际差别大小联 系起来。实际上significant的含义应该是“非偶

30、然的”,当根据样本资料所得结果是significant, 实际上表明这一结果“不是偶然”得到的,更可能是真实存在这样一种结果。如显著性水准 设为0.05,则PW0.05表示根据样本数据计算的统计量只有不到5%的可能是偶然造成的, 反过来就是说,计算的统计量不大可能是偶然造成的,而更有可能是真实的情况。(3)统计学意义与实际意义当统计分析结果显示PW0.05时,我们的结论应写为“组间差异有统计学意义” “相关 性有统计学意义”“影响有统计学意义”等,而不应直接写“组间有差异”“变量间有相关”、“变量有影响”等。统计学结论与实际结论不同,它仅反映了从样本数据得到当前结果不是 偶然的,但不反映实际结

31、果的大小。理论上,样本含量越大,越有可能得到小的P值。即使实际差别很小,大样本所得的P 值也可能很小,有的人便认为统计学是数字游戏。实际上并非如此,大样本的 P 值小,表 明大样本的结果更为稳定可靠,恰是反映了统计学的严谨性。比如某医生治疗1 人治愈,他 据此宣称治愈率 100%你会相信吗?但如果他治疗 10 000 人仍然全部治愈,那他说治愈率 100%你会不会更相信?当一个人说街上有虎,魏王并不相信,当三个人说街上有虎,为什 么魏王就相信?关键的问题是,当增加样本的时候,是不是还会保持原来的结果?治疗1 人可以痊愈, 治疗第2个人一定会痊愈吗?第一个人可以说街上有虎,第二个人一定也会这么说

32、吗?如果 不断地增加样本,而结果仍然不变,统计学就会认为这种建立在大样本基础上的结果是可靠 的,而不是偶然的,就会给出一个小的 P 值。如果小样本的结果发现有差异,统计学会认 为基于小样本的差异不一定可靠,因此会给出一个较大的P值,以提醒研究者谨慎下结论。(4)单侧检验与双侧检验单侧和双侧检验多用于组间比较,如要比较A、B两种药物疗效,如果预期B药不可 能不如 A 药,则可以采用单侧检验。这种情形常用于新药与安慰剂比较,预期药物疗效不 可能比安慰剂差,可用单侧检验。如果对两种药的疗效并不确定, B 药可能优于 A 药,也 可能劣于A药,则多采用双侧检验。一般而言,如果事先对A、B两组了解不多,

33、没有足够的证据了解A和B孰大孰小, 就可选择双侧检验。如果事先已经明确A 一定不会小于B,或B 一定不会小于A,就可以 选择单侧检验。单侧检验和双侧检验的选择必须根据专业在数据分析之前确定,对于同一资料,单侧检验比双侧检验更容易得到“有统计学意义”的结论,也就是更容 易得到阳性结果。因此,切不可得到 P 值后再返回来选择有利的单侧检验或双侧检验,否 则那就真的是在玩统计游戏了。本书中的案例分析如果没有特殊说明,均为双侧检验。(5)关于把握度的理解把握度又称检验效能(Power),它表示如果确实有统计学意义的话,按照现有数据能 够发现这种统计学意义的概率或把握有多大。例如,两组比较中,Power

34、为0.8,表示如果 两组确实有差异的话,那我们在分析中有80%的把握能够得到“有统计学差异”的结论。把握度通常用1-0表示,0即犯第二类错误的概率。把握度在平常的统计分析中一般 不大为人所重视,但当你的数据出现阴性结果的时候你就会发现它的用处了。你可以根据把 握度来判断一下阴性结果是否因为例数太少,如果是,你可以继续增加样本含量,如果不是, 那就只好宣布试验结果事与愿违了。四、统计学应用的几个误区( 1)研究目的大而全很多医学研究者都很珍惜做科研的机会,总想在每次研究中尽可能多地收集资料,尽可 能多地实现研究目的。想法是好的,但并不切实际。卧虎藏龙中有句台词:“把手握紧, 里面什么也没有,把手

35、松开,你拥有的是一切。”。研究中的精力、物力都是有限的,如果追 求的目的太多,反而什么目标也实现不了。一般情况下,研究设计的目的不宜太多,最好在 设计时仔细论证,明确研究目的,每次研究目标以不超过三个为宜。(2)方法一味追求新颖 不少医学生存在这样的想法,认为统计学方法越新颖,越能体现出研究的水平,其实不 然。统计方法绝无优劣之分,只有合适与否。很多人不屑于用方差分析、相关分析等,认为 过于简单。实际上,这些方法历经数十年至今仍然广为应用,已经充分说明了它们的有效性。 对于数据分析,利用简单的方法实现复杂数据的分析,化繁为简,返璞归真,这才是数据分 析的至高境界。一味追求方法的新颖性,反而脱离

36、了初始的目标,变得迷途忘返,这是初学 者需要警惕之处。(3)统计方法盲目套用不少临床工作者在用到统计学方法时,不是去请教统计学家,而是先从网上搜一篇跟自 己数据类似的文章,然后照猫画虎,依样葫芦进行分析,浑然不理会文章的方法是否正确。 而目前国内医学杂志不少文章都存在统计学误用现象,这样方法照搬的结果就是统计学方法 一直误用下去,错误的方法一直延续下去。有的医学生发现自己的结果跟上一届的师兄师姐 不同,就理所当然地认为是自己的实验出了问题,有的为了毕业甚至会造假数据以达到与上 一届的结果相符。而实际情形很可能是上一届错误而自己正确,这正如“皇帝的新衣”,大 家心知肚明,只是无人点破。这不仅是个

37、人的悲哀,更是科学的悲哀。第二节 SAS 简介一、SAS概述SAS全称是Statistical Analysis System,直译就是统计分析系统。在数据处理和统计分 析领域,SAS 一直被誉为国际上的标准软件系统。其领先的技术和全面的功能,使得它成 为全球数据分析的首选软件。目前全球500强企业中,90%以上的公司使用SAS软件解决 方案。在欧美职场流行一句话“只要有了 SAS认证,你就永远不会失业”(If you have a SAS certification, you will never lose your job)。SAS是一个综合软件系统,包含了众多的功能模块,分别可完成不同的

38、任务。最常用 有 SAS/BASE (基础模块)、SAS/STAT(统计模块)、SAS/GRAPH (绘图)、SAS/QC (质量 控制)、SAS/OR (运筹规划)SAS/ETS (计量经济和时间序列)SAS/GIS (地理信息系统) 等。医学统计中用到的主要是SAS/BASE和SAS/STAT,本书中所涉及的SAS命令均属于 这两个模块。目前医学领域存在一种误解,一提到SAS就想到编程,好像遥不可及。事实上,SAS 的编程跟其它软件的编程不同。SAS中的命令大多有固定的格式和选项,只要记住常用的 命令和选项,就可以轻松实现各种统计分析方法的编程。SAS只是统计分析的辅助工具, 只要统计方法

39、选择正确,分析思路明确,仅利用SAS完成数据的分析并不难。二、SAS界面介绍SAS启动后的界面如图1.1所示,尽管各版本在细节上略有不同,但总体结构是相同的。图 1.1 SAS 启动界面菜单栏包括文件(file)、编辑(edit)、查看(view)、工具(tools)、运行(run)、解决 方案(solutions)、窗口(window)、帮助(help)。文件主要用于文件打开、关闭、保存、打印、发送、数据导入、数据导出等功能。 编辑主要有撤销、剪切、复制、粘贴、选定、清空、查找、替换等功能。 查看主要用于显示不同的窗口,如编辑窗口、图形窗口、日志窗口、结果输出窗口等。 工具主要用于图形、报表

40、等的编辑,以及对SAS的一些简单设定。运行主要用于对程序运行的控制,可以直接运行,也可选择部分程序运行。 窗口主要用于各个窗口的排列、大小调整等。帮助主要提供了 SAS中各种模块、各种命令的帮助,可以随时查看。解决方案是 SAS 中最主要的菜单,该菜单提供了各种模块可以调用。该菜单还提供了 分析家(Analyst),可用于下拉菜单式的分析,适用于新手上路。工具栏中的图标跟其它软件类似,其功能基本上一目了然,只有主图标需要注意,这 是个程序运行的标志,当程序编写好之后,点此图标便可运行。左边的SAS资源管理器(explorer)显示和管理SAS数据库,初学者可暂不理会,它对 编程和分析关系不大。

41、三、SAS常用窗口介绍SAS最常用的窗口有三个,即编辑窗口(editor)、日志窗口(log)和输出窗口(output)0 编辑窗口用于程序编写,当程序写好,点击土提交运行后,运行结果显示在输出窗口,而 运行过程中的信息显示在日志窗口。SAS 启动后一般直接进入编辑窗口,在此窗口可直接输入数据和编写程序。图 1.2 给出 了一段简单的程序编写。图 1.2 简单 SAS 程序示例可以发现,SAS对不同语句自动赋予了不同的颜色,这是SAS 8e版本以后增加的增强 型编辑窗口 (enhanced editor)的特有功能。增强型编辑窗口对不同的语句赋予不同的颜色, 便于发现错误。程序会根据输入的语句

42、或数据自动赋予四种颜色,即深蓝、浅蓝、黄底黑色 和白底黑色。如果程序书写错误,相应的颜色就会发生变化。如图1.2中, PROC MEANS 为深蓝色,如果将PROC改为PROD(图1.3),则PROC变为红色,提示输入错误。图 1.3 错误的 SAS 程序示例这时如果切换到日志窗口(图1.4),可以发现有一句绿色的话“假定符号PROC错拼 为PROD”,即尽管PROC拼写错误,但SAS会自动判断可能正确的语句,然后给出输出结 果。日志窗口一般会有四种颜色字体:黑色是对程序的重复,没有太大意义;蓝色字体主要 是“提示(note)”作用,提供了 SAS运行的常规信息,一般情况下我们不必理会;绿色字

43、 体是“警告(warning)”作用,一般提示的是小错误,SAS大多会自动纠正,而且继续运行; 红色字体提示程序出现“错误(error)”,SAS已经无法运行下去,需要根据提示修改程序。图 1.4 日志窗口的提示实际中常见的SAS程序错误有:拼写错误,如proc拼写为prod;遗漏run语句,导致 程序无法执行;漏写分号,或写成了中文状态下的分号;数据后的分号没有另起一行;引用 了不存在的选项;过程步中的变量名称与数据步中的变量名称不符;引号不对称;等。程序编写结束,点击土后,输出窗口会输出程序的运行结果,图1.2中的程序运行结果如图1.5所示。该程序采用proc means命令,对数据进行简

44、单的统计描述,结果给出了均 数、标准差等统计量。该命令在第三章有详细介绍,这里仅给出一个简单的示例。图 1.5 输出窗口的结果四、SAS编程简介图1.2中的程序虽然简单,但包含了 SAS程序的基本结构。SAS程序主要包括两部分, 第一部分是数据输入部分,称为数据步(data step);第二部分是数据分析部分,称为过程步 ( proc step)。图1.2中共有三个语句是深蓝色,即DATA语句、PROC语句和RUN语句。DATA表 示数据步的开始,这部分主要用于完成数据输入;PROC表示过程步的开始,这部分主要通 过相应的命令实现数据分析;RUN表示程序运行的开始,即提交程序,使之运行。数据步

45、用于输入数据或调取电脑上已有的数据文件。DATA是数据步开始的标志,这是 大多数程序的起始,表示要建立一个数据集。在DATA与PROC之间的语句都是数据步, 其目的是建立一个用于分析的数据集。DATA后面的“examplel_l”是数据集的名称,是给 数据集起的名字,该名字可根据自己的爱好自行决定,名字必须由字母或下划线起始,可包 括英文字母、下划线、数字,不能有中文及%、#、!等特殊字符。Input语句表示要输入变量名称,图1.2的程序共有两个变量,变量名称由自己指定, 一般取意义较为明确的英文名,如分组变量起名为group,分析变量起名为num。如果有多 个变量,则依次输入,变量之间空格。

46、如果输入的变量是数值型,则直接依次输入变量名即 可。如果变量是字符型,则需要在变量名后加一“$”符号, SAS 根据这一标志就可判断它 是字符型。如图1.2中的group不是数值型,而是字符A和B,因此在group后加入“$”。Cards语句起一个承前启后的作用,连接变量和数据。Cards前面的input语句输入变量, 而cards则提示其后就是与变量对应的数据。Cards后面的数据一定要与变量一一对应,尤 其对于初学者,最好先严格按一定格式输入数据。过程步用于对已有数据的统计分析。PROC是过程步的开始标志,表示从这里开始就要 调用 SAS 中相应的统计分析命令。不同的研究目的需要调用不同的

47、命令,图 l.2 中调用的 是 proc means 命令,表示对数据进行简单描述,输出均数、标准差等统计量。本书用到的 统计分析方法所对应的命令见表1.1。表 l.l 本书用到的 SAS 统计分析命令及其用途简介命令用途PROC PLAN实验设计的随机化分组PROC POWER样本含量估计,把握度估计PROC MEANS统计描述PROC UNIVARIATE统计描述,正态性检验PROC TTEST定量资料的两组间比较,t检验,配对t检验等PROC GLM一般线性模型,包括方差分析、协方差分析、线性回归等PROC NPAR1WAY非参数检验的组间比较,Wilcoxon、Kruskal-wall

48、is检验等PROC MULTTEST多指标、多重比较, Bonferroni 法、 permutation 法、 bootstrap 法等PROC FREQ分类资料组间比较及相关性分析,X检验PROC CORR相关性分析, Pearson 相关、 Spearman 相关等PROC REG线性回归分析PROC PRINCOMP主成分分析PROC PLS偏最小二乘回归PROC ROBUSTREG稳健回归PROC GAM广义可加模型PROC LOGISTIC二分类 logistic 回归、有序 logistic 回归PROC CATMOD对数线性模型,多项logistic回归PROC LIFETES

49、T生存数据组间比较,Kaplan-Meier法PROC PHREG生存数据的Cox回归PROC GENMOD广义线性模型,包括logistic回归、Poisson回归、广义估计方程等PROC MIXED多水平模型,混合线性模型SAS命令中,许多语句都是通用的,最常见的如class、by、weight、freq、var语句。Class语句用于指定分类变量,如两组或多组的组间比较中,class语句可指定组别变量。By 语句也用于指定分类变量,但其功能与 class 语句不同, by 语句按指定分类变量的 类别将数据集分割为多个子数据集,在各自数据集内分别执行相应的命令。使用by语句时, 一定要先按

50、照by语句定义的变量排序,否则会给出错误提示。Weight语句和freq语句在多数情况下功能相似,用于指定权重或频数变量。Var 一般用于指定分析变量。上述几个语句在很多命令中都会出现,读者可在后面几章的分析中体会它们的用途。图1.2中,class指定分类变量为group,表示以group作为分组指标。Var指定分析变量 是num,表示对每组的num进行描述分析。Run表示前面程序的结束,并执行前面的程序。Run语句起到画龙点睛的作用,有了 run 语句,前面的程序才可以运行。大多数 SAS 程序的结构都与此类似,只是变量的个数不同,选择的命令不同,但格式 都是一致的。本书各章节主要采用逐列输

51、入的简单输入方式,待读者SAS水平逐渐提高后, 可以自己选择更为快捷的输入方式。需要注意的是,任何一句SAS语句的结束,一定要加一个分号“隔开,而且必须是 英文状态下的分号。数据输入完成后,要另起一行加入“;”,不可直接加在最后一个数据的 后面。 SAS 不区分大小写,输入时大小写均可,完全按自己的习惯。此外,SAS程序中为了阅读方便,可以加入注释语句。注释语句对SAS程序进行注解, 但不参与分析。注释语句以/*起始,以*/结束。本书中各章节的SAS程序均加入了注释语句, 以说明各语句的作用。第三节 小结本章主要对医学统计学和SAS做一简单介绍。统计学在医学中的重要性自不必说,SAS 在数据处

52、理中的优势也是显而易见的。医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死 钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生 化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。本书不会解释这 些名称由来,只会告诉你在什么情况下应该用什么方法,什么指标应该用于什么情形。如果 你一下子理解不了也不要紧,你可以先从模仿做起,模仿本书中的案例分析过程。本书介绍 的分析思路不是唯一的,也不见得是最好的,但通常在实际中是可以奏效的。数据统计分析一般可遵循以下思路:(1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统

53、计方法不同, 常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法 有t检验、方差分析、X检验、非参数检验等。二是相关性分析,即分析两个或多个变量之 间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可 用的方法有线性回归、logistic回归、Cox回归等。(2)明确数据类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也 不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分 类资料可用的方法有x检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究 目的、不同数据类型常用的统计分析

54、方法。(3)选定统计方法后,需要利用统计软件具体实现统计分析过程。 SAS 中,不同的统 计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结 果的输出。(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从 中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结 合实际做出合理专业结论。差异性比较视资料有序或无序选用x 检验或秩和检验视资料分布选用t检验或 秩和检验视资料分布选用方差分析 或秩和检验视资料有序或无序选用x 检验或秩和检验相关性分析视资料分布选用Pearson相关或Spearman相关影响性分析结局为生存资料线性回归等Logistic回归等Cox回归等图1.6部分数据统计分析方法小结

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!