统计学上机实习讲义2011

上传人:痛*** 文档编号:161060170 上传时间:2022-10-12 格式:DOC 页数:20 大小:350.50KB
收藏 版权申诉 举报 下载
统计学上机实习讲义2011_第1页
第1页 / 共20页
统计学上机实习讲义2011_第2页
第2页 / 共20页
统计学上机实习讲义2011_第3页
第3页 / 共20页
资源描述:

《统计学上机实习讲义2011》由会员分享,可在线阅读,更多相关《统计学上机实习讲义2011(20页珍藏版)》请在装配图网上搜索。

1、 医学统计学SPSS上机实验讲义统招硕士研究生医学统计学SPSS上机实验讲义天津中医药大学医疗系公共卫生教研室主讲人 李戈2008-9绪论:学点统计学,迎接挑战1 什么是统计学:the science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable results。即:统计学是一套收集数据和分析信息的方法和原则,以帮助人们在面对不确定性时制定决策。由此看来:1)它是处理资料中变异性的科学和艺术。

2、2)它的目的在于取得可靠的结果。3)它是在搜集、归类、分析和解释大量数据的过程中完成其使命的。2 学习统计学可以:1)在从事医药方面的科学研究时,从设计、分析到解释全面借助统计学。2)在医学论文所应用的统计学知识中70%是最基本的概念和经典的统计方法,出现的错误也最多。为此,作为读者也学提高识别统计学错误的本领,否则就不能正确对待出版物中的结果和结论,人云亦云,贻误自身工作。3)在工作中,正确理解与运用医学指标的正常参考范围、总结自己的治疗经验、证实自己提出的诊断方法不亚于现有方法、考证民间验方的优劣等。3 学什么:学统计学的基本概念,学统计学独特的思维方式,学常用的统计方法和电脑软件的使用。

3、至于复杂的统计理论和技术,专业性比较强,需要时可通过协作解决问题。实验安排实验一:1)SPSS统计软件的概述及数据文件的建立与修改第13周 实验二:1)统计图 第13周 2)计量资料统计描述实验三:1)t检验第14周实验四:1)单因素方差分析2)测验13)多因素方差分析 第15周实验五:1)检验2)非参数检验 第16周 3)测验2实验六:1)相关与回归 第17周2)上机考试 上课时间:8:00-12:00上课地点:本部实验楼一、 SPSS统计软件的概述及数据文件的建立与修改1 SPSS统计软件的概述:SPSS是社会科学用的统计软件包。事实上,它不仅适用于社会科学,同样可应用于经济学、心理学、医

4、学等各个不同领域。除了数据录入外,它无须编写程序,完全可以在Window下通过“菜单”、“对话框”使用点击或双击鼠标来操作,对读者提供及大的方便,深受用户欢迎。SPSS for window安装时,根据所选的模块多少及版本的不同,所占的硬盘空间也不同, 一般来说,需要16-24MB。除此之外,为了运行此软件,一般还应有大于10MB的自由空间,否则,会感到存取速度明显的下降,甚至会出现错误信息。目前,本软件无汉化版。本软件与其他软件有数据转化接口,可以方便地读入其他软件的数据文件,也可以方便地转化为相应的其他数据文件。2SPSS13.0的主要窗口:数据编辑窗(Data Editor)、结果输出窗

5、(Viewer)、程序编辑窗(Syntax Editor)和脚本编辑窗(Script)。3SPSS for Window的启动和退出 双击软件图标,进入其主界面,主菜单的内容有:File 文件操作Edit 文本编辑View 视图Data 数据文件的建立与编辑Transform 数据转换Analyze 统计分析Graphs 统计图表的建立与编辑Utilities 实用的一些工具Window 窗口信息与控制Help 帮助每个菜单都包括一系列功能,用鼠标点击可出现下拉式菜单,供下一步选择和操作。4 数据文件的建立:数据文件的建立是指把科研工作过程中采集的各种信息、数据以某种方式存入到计算机的磁盘中,

6、建立可随时存取、修改、统计分析的数据文件的全过程。一般来说,它包括数据编码、建立数据文件的二维结构、数据录入、选定数据文件名及保存数据等几个步骤。操作过程:FileNewData4.1数据编码 在建立数据文件之前首先要进行数据编码(Data Code),它包括如下三个层次:4.1.1定义数据项的变量名(Variable Name)给数据项取变量名可以用汉语拼音或是英文缩写。但是,应遵循如下原则:1)变量名由一般不多于8个字符组成。2)首字符应该是英文字母,其后可以为字母或数字及除了“?”“!”“*”以外的字符。但是应该注意,不能以下划线“-”和“.”作为变量名的最后一个字符。3)变量名不能使用

7、SPSS的保留字。SPSS的保留字有:ALL、AND、OR、NOT、EQ、GE、GT、LE、LT、NE、TO、WITH及一些常用的函数符号等。4)系统中不区分变量名中的大小写字母。例如ABCE与abcd被认为是同一变量。4.1.2定义数据项变量的标签(Variable Label)定义变量标签是对该变量名所表示的数据项内涵的进一步说明,可以用英文或中文。变量标签是一个可选择项,可以定义,也可以不定义。4.1.3定义数据项变量取值的标签(Value Labels)每个变量名对应一个数据项,每个变量取不同的值,表示数据项中的不同信息。有时为了更好地理解统计分析过程中的输出结果,要进一步给变量的不同

8、的取值赋以不同的标签,以便对不同的信息作出解释。并不是所有的变量值都要定义标签,一般来说,离散变量才给变量值定义标签。3.2建立数据文件的操作定义变量包括定义变量名、变量类型、变量长度(含小数点位数)、变量标签、变量值标签、缺失值和变量显示格式(宽度、对齐方式)等。定义变量的步骤如下:进入数据窗口、激活定义变量的对话框、定义每个变量的名称及数据类型等、保存(存储)数据文件的框架结构、最后是数据录入和存储。5其他类型的数据文件的读入 SPSS有很好的兼容性,它能把DBASE、FOXBASE、FOXPRO及EXCEL所建立的数据文件读入并进行统计分析。6上机内容:5.1根据医学统计学135页表15

9、-1 围手术期输血对先天性巨结肠术后感染关系的探讨的数据,在电脑上建立该项数据文件:并依照188页定义相应的变量名,定义合适的变量类型,数据宽度和小数点为数,依照189页表15-2定义变量标签,依照189页表15-3 定义分类变量的变量值标签。最后录入该数据,并以“EG1501”为名保存在D盘的“SPSS上机实验”的文件夹下。5.2对EG1501.sav数据集依照sex和age排序。操作过程:DataSort Cases5.3对EG1501.sav数据集依照sex拆分成两个数据文件。操作过程:DataSplit File5.4根据医学统计学1页表1-1,建立可在SPSS软件上分析用数据文件。5

10、.5根据医学统计学39页表5-2,建立可在SPSS软件上分析用数据文件。本单元参考书目:1 马斌荣.医学统计学人民卫生出版社二、 统计图表统计表和统计图是统计描述的重要工具,在搜集、整理及分析资料时,尤其在科研论文中,表达统计结果及进行对比分析时应用极为广泛。将统计分析的事物及其指标用表格的形式列出,即为统计表。合理的统计表可将统计数据和分析结果简明而正确地表达出来,既可避免冗长的文字叙述,又可使数据条理化、系统化,便于理解、分析和比较。1统计表 在对分类变量较多的数据进行分类汇总,或在处理由多项应答组成的问卷时,SPSS的统计表(Table)过程体现了很大的灵活性和方便性。统计表菜单下包括以

11、下六种过程:Custom Tables 自定义统计表Multiple Response Sets 定义多项应答数据集Basic Tables 基本统计表General Tables 综合统计表Multiple Response Tables 多项应答统计表Tables of Frequencies 频数统计表本课程只讲授基本统计表(Basic Tables) 基本统计表过程可用以创建三维统计表。所谓三维统计表,是指由行变量(row/down variable)、列变量(column/across variable)和分层变量(layer/separate variable)构成的统计表。2统计

12、图 统计图利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标,它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解,可以给读者留下清晰的印象,研究论文与宣传展示中经常用到它。统计图的缺点是往往不能精确地显示数字大小,所以经常与统计表一起使用。在医学中常用的统计图有直条图、百分条图、圆图、普通线图、半对数线图、直方图、箱图和散点图等。绘制统计图总的基本要求首先是根据资料的性质和分析目的选择适当的图形。击主菜单中的GraphsInteractive,弹出统计制图的子菜单:19Bar 直

13、条图Dot 点形图Line 线图Ribbon 带形图Drop-Line 下降线图Area 面积图Pie 饼图Boxplot箱式图Error Bar误差条图Histogram直方图Scatterplot散点图3上机内容1. 基本统计表:数据集为上节课录入并存储的EG1501.sav。操作过程:AnalyzeCustom TablesBasic Tables,弹出基本统计表主对话框。Summaries:汇总变量,一般为定量变量。选入汇总变量后,击Statistic按钮,可在统计量对话框中选择汇总统计量,如均数、标准差、标准误等。Subgroups定义分组变量。 Down:行变量,一般为分类变量。

14、Across:列变量,一般为分类变量。 Separate:分层变量 ,一般为分类变量。 All combinations (nested):嵌套排列。当行变量、列变量或分层变量同时选入两个或两个以上变量时,该选项被激活。 Each separately(stacked):平行排列。当行变量、列变量或分层变量同时选入两个或两个以上变量时,该选项被激活。根据数据集,以sex、hct、opa、disease、infect为研究变量制作三维统计表、行变量嵌套统计表、行变量平行排列统计表。2. 条图: 用以描述按性质分组某项指标值的大小。如表2-1数据,建立数据文件bar.sav,(建立三个变量:yea

15、r(11952,21972),cause(1肺结核,2=心脏病,3=恶性肿瘤),prop)并制图:表2-1 某地两年3种疾病的死亡率(1/10万)死因1952年1972年肺结核163.227.4心脏病72.583.6恶性肿瘤57.2178.21) 单式条图:分别以1952和1972年数据制图,作三种疾病的死亡率比较。DataSelect CasesIf 时间1, GroupsBarSimple & Summaries Define Other summary function(Mean) Variable : Prop Category : cause2) 复式条图:建立3种疾病死亡率比较的复

16、式条图: GroupsBarCluster & Summaries Define Other summary function(Mean) Variable : Prop Category : cause(year) Defin Cluster by :year (cause)。4)分段条图(stacked)3. 线图(Line): 用以描述某一(些)变量随时间变量变化的关系。根据表2-2中数据,建立数据line.sav,并制作单变量线图(simple)和复变量线图(multiple)。表2-2 某地居民1950-1964年伤寒与结核病死亡率(1/10万)年份19501952195419561

17、958196019621964伤寒31.322.418.09.25.03.81.60.8结核174.5157.1142.0127.297.771.359.246.04. 饼图(pie):用以描述构成比资料。根据表2-3中数据,建立数据pie.sav,并制作5种主要死因构成饼图。表2-3 某地1983年 5种主要死因构成死因分类例数心脏病1242脑血管病1113恶性肿瘤651呼吸系统病337消化系统疾病1575. Pareto 图:产生从高到低排列的条图,并可给出累积曲线。以pie.sav 为例,绘制单式Pareto 图。6. 箱丝图 (Boxplot):用以描述数值变量的五个百分位点,即P0(

18、最小值)、P25、P50、P75、P100(最大值)。对EG1501.sav 数据文件,作出hct关于sex的简单箱形图。7. 散点图(Scatter):用于表示双数值变量之间的相关关系。以数据文件line.sav为例,绘制结核与伤寒之间关系的简单散点图。绘制复合散点图(Overlay):以数据文件line.sav为例,x轴表示时间变量,y轴表示结核和伤寒死亡率。8. 直方图(Histogram):用以描述一组数值变量资料的频数分布对EG1501.sav数据文件,作出hct的直方图。本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社三、

19、计量资料的统计描述1数据汇总报告(Report) 主菜单Analyze列出了统计分析的绝大部分内容,在菜单中Reports列在第一行,它的重要功能是数据的汇总统计,它可以按自行规定的格式报告描述统计量。1.1. 即时汇总分析(OLAP Cubes)OLAP是Online Analytical Processing的缩写,该过程主要用于统计描述。其特点是提供快捷、灵活多样的交互方式。操作过程:从菜单选择AnalyzeReportsOLAP Cubes Summary variable:分析变量。一般为计量变量。 Grouping variable:分组变量。可选1个或多个,对上面的分析变量进行分

20、组统计。Statistics:统计量。数据集EG1501.sav分别以sex为分组变量 、infect为分组变量及二者共同为分组变量对time, hct计算统计量,包括合计、均数、样本量、标准差、标准误、最小值和最大值。1.2 数据汇总(Case Summarize)数据汇总是将数据编辑窗中的全部或部分数据源在结果窗中罗列出来,以便浏览或打印。同时对数据的基本特征进行描述。操作过程:从菜单选择AnalyzeReportsCase Summarize Variables:选入汇总变量。Grouping variable:选入分组变量。Statistics:统计量。对数据集EG1501.sav以s

21、ex 为分组变量,计算反应变量time、lossb、opab的例数、均数及标准差,只限于数据文件中前20例的计算,并输出原始数据。1.3行汇总报告(Report Summaries in Row)行汇总报告过程可以罗列原始数据,其格式是以观察单位和统计量为行标目,以报告变量为列标目。与汇总数据过程相比,它可以给出更为复杂的报告形式,其输出格式的设置也更为详细。操作过程:从菜单选择AnalyzeReportsReport Summaries in Row Data Columns:定义报告变量。Break Columns :选入分组(分类)变量。注意:在本界面存在两个Summary正下方Summ

22、ary:分组报告统计量。右下方Summary:汇总报告统计量。对数据集EG1501.sav以sex 为分组变量,计算反应变量time、lossb、opab,分组统计量选择均数、样本量和标准差,汇总统计量选择均数、样本量、标准差及最大和最小值。1.4列汇总报告(Report Summaries in Column)列汇总报告以分组变量的不同水平为行目标,以报告变量(包括合计汇总变量)和统计量为列目标。列汇总报告的功能与行汇总报告有许多相似之处,但也有不同,列汇总每次只能选择1个变量,但可以分别选择不同的统计量,不能列出原始数据;行汇总可多选变量,但入选变量只能选择相同的统计量,可以列出原始数据。

23、操作过程:从菜单选择AnalyzeReportsReport Summaries in ColumnData Columns:定义报告变量。Break Columns :选入分组(分类)变量。对数据集EG1501.sav以sex 为分组变量,在报告变量中,每次选一个变量,Summary按钮被激活,击Summary按钮,分别选定待输出的统计量,一次仅选一个待输出的统计量。若不选,则系统默认求合计。本实验要求:计算反应变量time的Percentage inside Low:120 High:180、lossb均数、opab最大值。2频数分布分析(Frequencies) 频数分布分析主要通过频数

24、分布表、条图和直方图,以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。操作过程:从菜单选择AnalyzeDescriptiveFrequenciesStatistics:统计量。有包括四分位间距等的百分位数、包括均数等的集中趋势和包括标准差的离散趋势可供选择。Chart:统计图。对数据集EG1501.sav的lossb(失血量)作描述性分析,并绘制直方图。3描述性统计分析(Descriptives)描述性统计分析主要用以计算描述集中趋势和离散趋势的各种统计量,此外还有一个重要功能是对变量做标准化变换,即Z变换。操作过程:从菜单选择AnalyzeDescriptiveDescriptiv

25、es对数据集EG1501.sav的lossb、opab进行描述性分析。4探索性分析(Explore)探索性分析主要有以下几个目的:对数据进行初步检查,判断有无离群点(outliers)和(或)极端值(extremevalues)。对前提条件假定,如正态分布和方差齐性进行检验。了解组间差异特征。探索性分析(Explore)可以给出统计量、正态性检验和描述性统计图,包括茎叶图、直方图和箱图。对数据集EG1501.sav中的time(手术时间)按分组(分类)变量sex(性别)进行探索性分析,要求输出描述统计量、做出箱图和茎叶图、作正态性检验及方差齐性检验并绘制正态概率图。5对12只小鼠进行完全随机分

26、3组:方法1:Tansform Random number seedCompute,指定目标变量m,Uniform(3),Tansform Categorize方法2:Data-Select Cases-Random sample Filtered,于Sample中,指定Exactly 4 cases from 12 cases, 选择Tansform Compute,指定目标变量m,Numeric Expression为1,选择Tansform Compute,指定目标变量m,Numeric Expression为3,if filter=1,Data-Sort Cases,指定m、Ascen

27、ding。最后从前面的8条中按上述方法再测取4条。本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社四、两组计量资料的均数比较- t检验与单因素方差分析1对于两组计量资料的均数做显著性检验可用t检验。它要求该两组资料都分别服从正态分布或近似正态分布,并且要求两组的方差具有齐同性。t检验可根据实验设计分为单样本t检验(Oen-Sample T Test)、配对t检验(paired-samples T test)和两组独立样本的t检验(independent- samples T test)。表4-1 两均数差别的比较样本均数与总体均数的比

28、较H0:=0H1:0n较小,服从正态分布t=n50,或0已知 or 配对资料H0:d=0H1:d0成组设计两样本均数比较H0:H1:n150 , n2502 方差分析:又称为变异度分析,它是英国统计学家R.A.Fisher首先提出的一种统计方法,为此有时也称为F检验。方差分析简写为ANOVA(Analysis of Variance)。它要求各组观察值服从正态分布或近似正态分布,并且各组之间的方差具有齐性。方差分析的基本思想是把所有观察值之间的变异分解为几个部分,即把描写观察值之间的变异的离均差平方和分解为某些因素的离均差平方和及随机抽样误差的离均差平方和,进而计算其均方,然后相互比较,做统计

29、学处理。如表3-2表4-2 完全随机设计方差分析计算表差异源SS(自由度)MSF组间SS组间组间=k-1MS组间= SS组间/组间F= MS组间/ MS组内组内(误差)SS组内=SS总-SS组间组内=总-组间 =N-kMS组内= SS组内/组内总计SS总总=N-13步骤要求:1)写出检验假设 2)建立数据文件 3)统计分析,并纪录统计量和检验结果4)写出统计结论和专业结论4单样本 t检验: 推断样本所代表的未知总体与已知总体均数有无差别,还可以计算相应的描述性统计量及样本均数和总体均数之差的95%可信区间。操作过程:AnalyzeCompare MeansOne-Sample T Test已知

30、某水样中含CaCO3的真值为20.7mg/L,现用某法重复测定改水样11次,CaCO3的含量为:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20.00,23.00,22.00。问该法侧得的均数是否偏高?5配对t检验:用于检验两组相关样本或成对样本所得平均数间是否有显著性差异,实质上是检验样本差值的总体均数与0的差异有无显著性意义,以及配对样本是否相关。操作过程:AnalyzeCompare Meanspaired-samples T test 比较 10例矽肺患者经药物治疗前后的血红蛋白量 (g/dl)。表4-3 10例矽肺患者经药物治疗前后

31、的血红蛋白量 (g/dl)治疗前11.315.013.512.810.011.012.013.012.315.0治疗后14.014.013.513.512.014.711.413.812.013.86 两组独立样本的t检验:用来检验两个独立样本的总体均数是否有显著差异。操作过程:AnalyzeCompare Meansindependent- samples T test 某克山病区侧得11例急性克山病患者于13名健康人的血磷值(mg)如下:患 者:2.60,3.24,3.73,3.73,4.32,4.73,5.18,5.58,5.78,6.40,6.53健康人:1.67,1.98,1.98,

32、2.33,2.34,2.50,3.60,3.73,4.14,4.17,4.57,4.82,5.78问:该地急性克山病患者与健康人的血磷值是否不同?7两样本几何均数得比较:将钩端罗选题病人的血清用标准株和水生株做宁荣试验,所得稀释倍数如下:标准株组:100 200 400 400 400 400 800 1600 1600 1600 3200水生株组:100 100 100 200 200 200 200 400 1600问:两组的平均效价有无差别。8完全随机设计的单因素方差分析方法:(One Way ANOVA):用一对单因素多个独立样本均数进行比较, 并可以进行两两之间均数得比较,亦可进行多

33、个处理组与一个对照组的比较。操作过程:AnalyzeCompare MeansOne -Way ANOVA用二氧化矽50mg对大鼠染尘后, 不同时期全肺湿重的变化如下表,试比较染尘后1月,3月,6月,三个时期的全肺湿重有无差别?表4-4 三个时期的全肺湿重一月二月六月3.43.43.63.64.44.44.33.45.14.14.25.04.24.75.53.34.24.7 数据文件格式:定义两列变量,其中一个分类变量,一个因变量。分类变量用以说明每一观察单位所属的组(类)别,并进行变量标记。因变量(反应变量)为定量变量。 要求做方差齐性检验、方差分析和各组间的两两比较,并纪录统计结果和统计结

34、论。 本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社五、多个处理因素的方差分析 在医学研究中,如果涉及两个或多个处理因素,而研究者希望了解各个处理因素的效应以及各个处理因素之间有无交互作用时,可采用如随机区组设计(一个分组因素,一个区组因素)、析因设计设计等。1随机区组设计的方差分析 随机区组设计可以考察两个因素的作用。因素A是处理因素,是本次试验观察的重点,因素B是区组因素,是可能对试验效应产生作用的主要非处理因素。操作过程:AnalyzeGeneral linear ModelUnivariate用4种不同方法治疗8名患者,其血

35、浆凝固时间(分)的资料如下表,试做(单变量)随机区组设计方差分析:表5-1 4种治疗方法血浆凝固时间(分)比较受试者编号(区组,b)处理组(a)123418.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.487.98.18.210.0 数据文件格式:定义三个列变量,其中两个分类变量,一个因变量。分类变量用以说明每一观察单位所属的组(类)别,并进行变量标记。因变量(反应变量)为定量变量。把10只家兔按体重配伍为5组,处理一:注射抗毒素;处理二:注射生理

36、盐水。每只家兔甲、乙两个部位,分别以高、低两种浓度注射,测定的皮肤损伤直径范围如下表,分析不同注射物、不同浓度对家兔皮肤损伤的影响。表5-2 两水平的两种处理家兔皮肤损伤直径药物浓度配 伍 组12345抗毒素低浓度15.7515.5015.5017.0016.50高浓度19.0020.7518.5020.5020.00生理盐水低浓度18.2518.5019.7521.5020.75高浓度22.2521.5023.5024.7523.752析因设计 当G个处理组是各因素各水平的全面组合时,称为析因设计。治疗缺铁性贫血病人12例,分为4组给予不同治疗,一个月后观察红细胞增加数(百万/mm3)其资料

37、如下表,假设甲药为因素A,用甲药和不用甲药为因素的两个水平;又假设乙药为因素B,用乙药和不用乙药也为因素的两个水平;次级组各有3个病例。试问甲药、乙药单独使用的治疗效果如何?甲、乙两药同时使用的治疗效果又如何?表5-3 4种不同治疗红细胞增加数(百万/mm3)乙药(B)甲药(A)用(1)不用(2)用(1)2.10.92.21.12.01.0不用(2)1.30.81.20.91.10.7 本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社六、检验 1检验用于分类计数资料的假设检验方法,检验两个(或多个)率或构成比之间差别是否有统计学意义,

38、从而推断总体率或构成比之间差别是否有统计学意义。表6-1 检验的基本计算资料形式用途H0 、H1的设立与计算公式自由度四格表独立资料两样本率的比较配对资料两样本率的比较H0:两总体率相等;H1:两总体率不等专用公式当n40但1T5时,校正公式配对设计:1RC表多个样本率、构成比的比较H0:多个总体率(构成比)相等H1:多个总体率(构成比)不全相等(R1)(C1)2步骤要求:1)写出检验假设 2)建立数据文件 3)统计分析,并纪录统计量和检验结果4)写出统计结论和专业结论3普通四格表检验 两个独立样本率比较的数据格式有两种,一种是频数表格式,一种是原始记录格式。健康心理学2004年学习不良初中生

39、心理健康状况研究一文,学习不良(LD)组与对照组心理健康问题检出的数据情况如下表,试判断学习不良是否会影响心理健康。表6-2 学习不良(LD)与对照组心理健康问题检出的数据情况组别心理健康心理异常LD组2629对照组4015 数据格式:4行3列,3个变量分别为行变量、列变量和频数变量。 说明频数变量:DataWeight Cases将频数变量选入框内。操作过程:AnalyzeDescriptive StatisticsCrosstabs Chi-square成都中医药大学学报2004年3月一文中,观察的数据如表6-3所示,判断双清颗粒治疗反复呼吸道感染的疗效。表6-3 小儿双清颗粒治疗反复呼吸

40、道感染的临床观察组别有效无效治疗组443对照组510 数据格式:4行3列,3个变量分别为行变量、列变量和频数变量。 说明频数变量:DataWeight Cases将频数变量选入框内。甲乙两种疗法对某病的治疗效果如表,试判断两种方法的疗效是否不同。表6-4 不同疗法的疗效比较组别有效无效甲法141乙法73 数据格式:4行3列,3个变量分别为行变量、列变量和频数变量。 说明频数变量:DataWeight Cases将频数变量选入框内。对数据集EG1501.sav中,不同性别间的感染率有无差别。4配对四格表检验 操作过程:AnalyzeDescriptive StatisticsCrosstabs

41、McNemarOR AnalyzeNonparametrics tests2 Related Samples McNemar用甲乙两种方法检查鼻咽癌患者93例,两种检查方法检测结果如下表,判断两种方法的阳性检出率是否不同。表6-5 两种方法检查相同患者的结果组别乙乙甲4522甲 620 数据格式:4行3列,3个变量分别为行变量、列变量和频数变量。 说明频数变量:DataWeight Cases将频数变量选入框内。为研究静脉曲张是否与肥胖有关,观察122对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况,见表5-5,试分析之。表6-6 122对同胞兄弟静脉曲张发生情

42、况正常体重肥 胖合计发生未发生发生19524未发生128698合计31911225RC表检验操作过程:AnalyzeDescriptive StatisticsCrosstabs Chi-square某医院研究鼻咽癌患者与健康人的血型构成情况如下表,试判断患鼻咽癌与血型有无关系。表6-7 鼻咽癌患者与健康人的血型构成情况分类A型血B型血O型血AB型血合计患癌者648613020300健康人12513821026499合计18922434046799 数据格式:12行3列,3个变量分别为行变量、列变量和频数变量。某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4组,每组100例,

43、分别给予不同的镇痛处理,观察的镇痛效果见表5-9,问4种镇痛方法的效果有无差异?表6-8 4种镇痛方法的效果比较镇痛方法例数有效率颈麻10041注药10094置栓10089对照10027某研究者检测脑梗死组与对照组血清Apo(a)表型的分布,结果如下表。问病例与对照两组的构成比有无不同?表6-9 脑梗死组与对照组血清Apo(a)表型的分布分组S1S2S2+S3S3S4Null合计病例组12982114468对照组61242720877合计182112483412145本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社3. 周仁郁. SP

44、SS13.0统计软件西安交通大学出版社4刘丹红. 医学统计学 科学技术文献出版社七、非参数检验1非参数检验是不依赖与总体分布类型,不考虑总体参数,而对总体的分布或分布位置进行假设检验的方法(nonparametric test)。这类检验方法又称为任意分布或不拘分布检验(distribution-free test)。适用的资料类型:1)总体分布为偏态或分布形式未知的计量资料(尤其在n30的情况下)。2)等级资料。3)个别数据偏大或数据的某一端无确定的数值。如“0.01mg”,只有一个下限,而没有具体数据。4)各组数据离散程度相差悬殊,即各总体方差不齐。2步骤要求:1)写出检验假设 2)建立数

45、据文件 3)统计分析,并纪录统计量和检验结果4)写出统计结论和专业结论3单样本K-S拟合优度检验(1-Sample K-S Test):是用来检验样本的分布是否服从某种理论分布,如:正态性检验。操作过程:AnalyzeNonparametrics tests1-Sample K-S Test某乡卫生院为了解健康农民的血压水平,测得120名健康成年男性农民的舒张压值,检验其是否服从正态性分布。表7-1. 健康男性农民120舒张压测定值70 70 64 75 86 78 72 67 73 76 62 84 76 76 74 81 80 75 78 72 69 81 75 79 75 77 72 7

46、1 90 91 71 73 78 68 79 87 83 65 64 62 80 66 82 85 64 72 84 75 83 73 65 67 78 76 67 88 82 71 87 83 62 80 58 79 74 80 86 76 70 63 79 68 84 77 72 67 77 82 75 79 78 64 75 86 68 70 80 78 86 79 69 76 68 65 74 84 73 75 68 76 72 65 71 75 71 70 76 81 76 79 68 78 87 84 77 65 数据格式:1个变量和120个观察单位。4. 两独立样本非参数检验(2

47、 Independent Samples Tests)用以检验两个独立样本间是否具有相同的分布。操作过程:AnalyzeNonparametrics tests2 Independent Samples Tests 测得铅作业工人与非铅作业工人的血铅值(mg/100g)如下,问两组工人的血铅值有无差别?非铅作业组: 5 5 6 7 9 12 13 15 18 21铅作业组:17 18 20 25 34 43 44数据格式:为2列17行,1个分组变量和1个观察变量。用某药治疗不同病情老年性慢性支气管炎病人,疗效见表7-2,试比较该药对两种病情的疗效。表7-2 某药对老慢支两种病情的疗效疗效病 情

48、单纯性单纯性合并肺气肿控制6542显效186有效3023无效13115 多个独立样本非参数检验(K Independent Samples Test):用以检验多个独立样本间是否具有相同的分布。操作过程:AnalyzeNonparametrics testsK Independent Samples Test 对4组大白鼠各用不同剂量的某种激素后,测得耻骨间隙宽度的增加量(mm),结果如表7-3。试分析不同剂量的该激素对大白鼠耻骨间隙宽度的增加量的影响。表7-3 四组大白鼠耻骨间隙宽度的增加量(mm)第1组第2组第3组第4组0.151.200.51.500.301.351.201.500.40

49、1.401.402.500.401.502.002.500.501.902.302.202.202.50数据格式:为2列21行,1个分组变量和一个观察变量。 五种病人阴道涂片按巴氏细胞学分级的检查结果,见表7-4,问此5种病人的细胞学分级有无程度上的差别?表7-4 巴氏细胞学分级的检查结果巴氏分级慢性炎症不典型增生原位癌浸润癌轻度重度I2119II44413III061131IV231542V2177数据格式:为3列16行,定义三个变量,分别是1个分组变量、1个观察变量和1个频数变量。本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社3

50、. 周仁郁. SPSS13.0统计软件西安交通大学出版社4刘丹红. 医学统计学 科学技术文献出版社八、相关与回归分析当分析两个变量之间是否存在相关关系时,可采用双变量相关关系(Bivariate)。双变量相关分析中,对于双变量正态分布资料,可选用积矩相关系数(Pearson相关系数);对于非双变量正态分布资料,可选择等级相关系数(Spearman相关系数)或Kendall相关系数等非参数方法。线性回归(linearregression)过程用于分析一个或多个自变量与一个因变量之间的线性数量关系,并可进行回归诊断分析。表5-1线性回归与相关的区别与联系:线性相关(系数)线性回归(系数)区别目的:

51、说明两变量间的关联关系目的:说明两者数量上的依存关系资料要求:双变量正态分布资料要求:双变量正态分布(型)或Y是服从正态分布的随机变量而X是可精确测量和严格控制的变量(型)。-1r1:无量纲,说明具有线性关联的两个变量之间关系的密切程度与相关方向-b+:有量纲,表示X每增加一个单位时,Y平均改变b个单位联系方向一致:对一组数据若能同时计算r和b,它们的符号一致假设检验等价:对同一样本,tr=tb 用回归解释相关:决定系数r22步骤要求:1)写出检验假设 2)建立数据文件 3)统计分析,并纪录统计量和检验结果4)写出统计结论和专业结论3双变量相关分析操作过程:AnalyzeCorrelateBi

52、variate10名20岁男青年身高与前臂长的数据见表8-1,计算相关系数并对其进行假设检验。表5-2 10名20岁男青年身高与前臂长身高(cm)170173160155173188178183180165前臂长(cm)45424441475047464943数据格式:2列10行,定义两个变量,分别为身高和前臂长。278例尸体解剖资料见表8-2,试分析年龄与冠状动脉粥样硬化等级之间的相关关系。表5-3 年龄与冠状动脉硬化的关系年龄(岁)冠状动脉硬化等级合计207022429830272493634016231375950920151458合计122894126278 数据格式:3列16行,定义

53、3个变量,分别是年龄、动脉硬化等级和频数。4线性回归(Linear Regression)某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表8-3。求直线回归方程并对回归系数作假设检验。表5-4 8只大白鼠的进食量和体重增加量鼠号12345678进食量(g)800780720867690787934750增量(g)185158130180134167186133数据格式:2列8行,定义两个变量,分别为进食量和增量。5多元线性回归20名儿童的血红蛋白y(g/dl)与微量元素钙x1(ug/dl)、铁x2(ug/dl)、锰x3(ug/dl)的测定结果见马斌荣.医学统计学

54、239页表15-57,试做多元线性回归。本单元参考书目:1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社3. 周仁郁. SPSS13.0统计软件西安交通大学出版社4刘丹红. 医学统计学 科学技术文献出版社测验1.1 某地100例30-40岁健康男子血清总胆固醇(mg/dl)测定结果如下:20218423422314921122119520717317424817819215516425214918413121018317818215617817017223214722119914620115016918522214921913818316121324

55、1253184209174224182165165228175189174168161142165185209124161199136230164205130177200176174177147159147170195153174181168197156189191210142206172234171172188113160156(1) 编制频数分布并画出相应的统计图。(2) 根据资料的分布情况,请计算适当的统计指标来描述其分布的中心位置。(3) 分别计算P5,P25,P75和P952 分别测得15名健康人和13名III度肺气肿病人痰中1抗胰蛋白酶含量如下表所示问健康人与III度肺气肿病人痰中

56、1抗胰蛋白酶含量是否不同。健康人III度肺气肿病人健康人III度肺气肿病人2.73.60.64.82.23.41.95.64.13.71.34.14.35.41.53.32.63.61.74.31.96.81.31.74.71.31.92.932003年昆明市西郊某工厂职工医院为了解职工健康状况,调查苯作业工人、一般工人和一般健康人各15名,测得其白细胞总数(千/mm3)资料如下表所示。问三种人白细胞总数是否不同?苯作业工人一般工人一般健康人5.58.59.25.67.28.95.58.99.54.77.38.86.07.79.25.86.98.54.38.28.83.97.49.14.67.37.9

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!