生物统计学常用的SAS程序

上传人:沈*** 文档编号:66866769 上传时间:2022-03-29 格式:DOC 页数:62 大小:719.50KB
收藏 版权申诉 举报 下载
生物统计学常用的SAS程序_第1页
第1页 / 共62页
生物统计学常用的SAS程序_第2页
第2页 / 共62页
生物统计学常用的SAS程序_第3页
第3页 / 共62页
资源描述:

《生物统计学常用的SAS程序》由会员分享,可在线阅读,更多相关《生物统计学常用的SAS程序(62页珍藏版)》请在装配图网上搜索。

1、生物统计学常用的SAS程序杜荣骞高等教育出版社高等教育电子音像出版社目 录第二章 几种常用的SAS程序 2.1 利用SAS软件描述样本数据2.1.1 用MEANS语句描述数据2.1.2 频数分布表的编制2.1.3 频数分布图的绘制 2.2 统计假设检验的SAS程序2.2.1 单个样本的t检验2.2.2 配对数据t检验2.2.3 成组数据t检验 2.3 2检验的SAS程序 2.4 单因素方差分析的SAS程序 2.5 常用实验设计方差分析的SAS程序2.5.1 三因素交叉分组实验的方差分析2.5.2 随机化完全区组实验的方差分析2.5.3 拉丁方与正交拉丁方实验的方差分析2.5.4 两因素随机化区

2、组实验的方差分析2.5.5 裂区实验设计的方差分析2.5.6 套设计的方差分析2.5.7 正交设计的方差分析 2.6 相关与回归分析的SAS程序2.6.1 一元线性回归分析2.6.2 一元线性回归的图形描述2.6.3 一元非线性回归2.6.4 相关系数和偏相关系数的计算 2.7 多元回归分析的SAS程序2.7.1 多元回归方程计算2.7.2 逐步回归分析第二章 几种常用的SAS程序 2.1 利用SAS软件描述样本数据用SAS可以对样本数据进行全面描述,得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作”。2.1.1 用MEANS语句描述数据例 2.1 计算

3、课本上习题1.2的平均数和标准差。解 在进行分析之前,最好先建立一个外部数据文件。如果不建立外部数据文件,在作业流中输入数据也可以。一般来说,在数据量比较大,有可能重复使用时,最好建立一个数据文件。在这里我们创建一个称为2-1data.dat 的外部数据文件,存储在A盘中。用MEANS过程描述数据的最基本的程序如下:options linesize=76;data abc;infile a:2-1data.dat;input x;run;proc means;run;提交SAS运行后,所得结果如下:表21: 例2.1输出的结果 The SAS System Analysis Variable

4、: XNMeanStd DevMinimumMaximum25063.27600003.013994155.000000070.0000000 打印的结果中包括:数据个数,平均数,标准差,最小值和最大值。这是MEANS语句在缺省时得到的基本结果。若需要对数据作更详细的描述,则要指明所需的统计量(关于统计量的概念见课本2.2.4)。用MEANS过程所计算的统计量,在这里也一并列出。下面还会反复提到“变量”这一名词,关于变量的概念见课本2.2.1。MEANS过程所计算的统计量是用关键词表示,这些关键词及其含义如下:N:输入的观测值(观测值的概念见课本2.2.1)个数NMISS:每个变量所含缺失值的

5、个数MEAN:变量的平均数STD:变量的标准差MIN:变量的最小值MAX:变量的最大值RANGE:变量的极差SUM:变量所有值的和VAR:变量的方差USS:每一变量原始数据的平方和(未校正平方和)CSS:每一变量的离均差平方和(校正平方和)CV:变异系数STDERR:每一变量的标准误差(平均数的标准差)T:在H0:= 0时的t 值(见课本5.1.4)PRT:在H0:= 0 的假设下,统计量t 大于t 临界值绝对值的概率(见课本4.1.1)SKEWNESS:偏斜度KURTOSIS:峭度CLM:置信区间的上限和下限(见课本6.2.1)LCLM:置信区间的下限UCLM:置信区间的上限另外,在PROC

6、 MEANS语句中还有12个选项,其中几个主要选项如下:DATA(SAS 数据集):指出SAS 数据集的名称,若省略,则使用最近产生的数据集MAXDEC(数字):指出所输出的结果中,小数部分的最大位数(08),缺省时为8 位FW(域宽):指出打印的结果中每个统计量的域宽,缺省时为12VARDEF(DF / N):VARDEFDF为缺省值,表示计算方差时,使用n-1 作分母, VARDEFN表示计算方差时,使用观测值个数n 作分母ALPHA(值):指出在计算置信区间时,选用的显著水平 例2.2 计算课本上习题1.2的离均差平方和,方差,偏斜度和平均数的0.95置信区间。解 仍然使用2-1data

7、.dat 外部数据文件。MEANS过程如下:options linesize=76;data abc; infile a:2-1data.dat; input x;run;proc means data=abc maxdec=4 fw=8 alpha=0.05 css var skewness clm;run;运行的结果如下:表22:例2.2输出的结果 The SAS System Analysis Variable : XCSSVarianceSkewnessKurtosisLower 95.0% CLMUpper 95.0% CLM2261.969.0842-0.1548-0.189462

8、.900663.6514 在PROC MEANS语句中,data=abc选项是可以省略的,因为PROC MEANS语句所分析的正是最近的SAS数据集,若需从SAS数据库中调用某一数据集时,则DATA选项不可省略。在建立外部数据文件时,应每个数据占一行,250个数据占250行(只占一列)。这样输入数据太麻烦,核对起来也不方便。如果想连续输入数据,则应在INPUT语句的变量后加上,即“inpet x ;”,具体说明见例2.4。在进行科学研究时,需要处理的变量数目往往很多,而且变量之间还存在一定关系,经常要计算在某一变量特定水平下,其它变量的一些特征数。例如,在做人群健康情况调查时,涉及的变量多达十

9、几个甚至几十个。如,性别、年龄、身高、体重、吸烟程度、饮酒程度、视力、听力、血压、脉搏、血黏度、胆固醇含量。如果要计算不同程度吸烟者或不同性别受检者的各项指标或其中若干项指标的某些统计量,只需加上VAR语句和CLASS语句,便能很容易完成此项工作。VAR语句指明所需描述的变量,CLASS语句可以按观测值的不同类别分类计算指定的统计量。 例 2.3 在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分列在下表中(表23)。在表23中共列举了四个变量,即:株高、穗长、穗粒数和成熟早晚。分别用hop、loe、nog和fas代表上述四个变量,以成熟的早(e)、中(m)、晚(l)分类,分别计算株高与

10、穗长的平均数、标准差和标准误差以及穗粒数的范围和变异系数。 表23 60 8.0 60 m 61 8.0 50 m 61 8.5 61 l 61 7.5 54 e 65 7.5 50 l 63 6.5 46 e 62 7.0 48 l 63 7.5 45 m 66 8.0 54 m 61 7.0 50 e 63 7.0 48 e 67 8.0 50 l 66 8.0 54 l 70 7.0 44 e 62 8.0 54 e65 8.0 55 l63 9.0 56 e67 9.0 52 m64 7.0 46 e62 8.0 56 e65 9.0 58 m68 8.5 48 e64 6.5 44

11、m63 7.0 52 e62 8.0 48 e63 7.0 50 l69 8.0 52 l63 7.5 52 m68 7.0 46 e61 7.5 52 e65 7.5 48 e66 8.0 48 l66 8.5 54 e70 8.0 46 e68 8.0 48 m62 8.5 62 m65 8.5 66 m60 9.0 64 e69 7.5 48 e66 8.0 46 e68 7.5 42 m70 9.0 46 m69 7.0 42 l72 8.0 52 e66 7.5 52 m70 8.0 50 m69 7.5 50 l71 8.0 50 e67 6.0 38 l 67 7.5 48 e

12、解 先建立一个称之为2-2data.dat 的外部数据文件,外部数据文件的格式如表23所示。PROC MEANS程序如下:options linesize=76;data wheat;infile a:2-2data.dat;input hop loe nog fas $;run;proc means maxdec=2 fw=8 max min mean std stderr;var hop loe;class fas; proc means data=wheat range cv; var nog; class fas; run;打印结果见表24。表24 例2.3输出的结果 The SAS

13、SystemFASN ObsVariableMaximumMinimumMeanStd DevStd Errore23HOP72.0060.0065.093.640.76LOE9.006.507.700.670.14l12HOP69.0061.0065.752.700.78LOE8.506.007.540.690.20m15HOP70.0060.0065.203.080.79LOE9.006.508.030.690.18 The SAS System Analysis Variable : NOGFASN ObsRangeCVe2320.00000009.1612372l1223.000000

14、011.8202275m1524.000000013.3156456 除MEANS过程外,还可以使用SUMMARY过程和UNIVERIATE过程描述数据。其中SUMMARY过程与MEANS过程类似,对初学SAS软件的读者来说,能够使用MEANS过程已经够用了。2.1.2 频数分布表的编制可以利用PROC FREQ过程编制频数分布表。例 2.4 利用PROC FREQ过程,编制课本上例1.1原始数据的频数分布表。解 将120天中每天新生儿体重超过3公斤的人数,建成一个名为2-3data.dat的外部数据文件,存储在A盘中。编制频数分布表的程序如下:options linesize=76;data

15、 baby;infile a:2-3data.dat; input number ; run; proc freq; run;INPUT语句中的称为双尾符,它的作用是在SAS从数据文件中读取数据时,读完一个数据行的第一个观测后指针并不移到下一行,而停留在观测后的第二列,接着读这一行的第二个观测,在指针移过数据行末尾时,自动为该行解固。因此,在建立数据文件时,每一个数据行可以输入几个观测。如建立2-2data.dat数据集时,每一个数据行就不仅是一个观测的四个值,而可以是几个观测,譬如 60 8.0 60 m 61 8.0 50 m 61 8.5 61 l 61 7.5 54 e 65 7.5

16、50 l 63 6.5 46 e : : 上述程序输出的结果如表25:表25 例2.4输出的结果 The SAS SystemCumulativeCumulativeNUMBERFrequencyPercentFrequencyPercent310.810.8421.732.551210.01512.561915.83428.373932.57360.883428.310789.29108.311797.51032.5120100.0 可以用同样的方法编制非数值型变量的频数分布表。例 2.5 编制表23中“成熟早晚”的频数表。解 data wheat;infile a:2-2data.dat;

17、input hop loe nog mature $;run;proc freq;table mature;run;所得结果如下:表26 例2.5输出的结果 The SAS SystemCumulativeCumulativeMATUREFrequencyPercentFrequencyPercente2346.02346.0l1224.03570.0m1530.050100.0 对于连续型数据,也可以用PROC FREQ过程编制频数分布表。例 2.6 编制课本上表1-2高粱三尺三株高的频数分布表。解 先建立一个名为a:2-4data.dat的外部数据文件。SAS程序如下:proc forma

18、t;value hfmt141-143=141-143 144-146=144-146 147-149=147-149 150-152=150-152 153-155=153-155 156-158=156-158159-161=159-161 162-164=162-164 165-167=165-167168-170=168-170;run;data sorghum;infile a:2-4data.dat;input hight ;run;proc freq;table hight;format hight hfmt.;run;这里使用PROC FORMAT过程的目的是将数据按使用者的要

19、求格式化。VALUE语句中要给出被定义的输出格式名,在这里称为hfmt。若以组界分组,还需加上“”号,如143.5-|T|92.49540120.0372 2.2.2 配对数据t检验配对数据t检验的SAS程序与2.2.1节中的程序基本相同,不同点只是在INPUT语句中包含三个变量,在赋值语句中的新变量是两个变量的差而不是变量与一个常量的差。以课本中表53的数据为例,SAS程序如下:options linesize=76;data matdat;input id prepro postpro ;diff=prepro-postpro;cards;proc means n mean stderr

20、t prt; var diff;run;输出结果见表29表29 配对数据t检验的输出结果18.4787.99427.5127.14137.2228.26748.0538.28057.6896.74068.5287.63276.9725.91387.3718.16995.7607.570107.9307.569117.2556.322126.7956.417 The SAS System Analysis Variable : DIFFNMeanStd ErrorTProb|T|120.12925000.26395130.48967360.6340 2.2.3 成组数据t检验可以使用PROC T

21、TEST过程做成组数据t检验。以课本中例5.9的数据为例,说明成组数据t检验的SAS程序。options linesize=76;data wheat;input strain days ;cards;proc ttest;class strain;var days;run;上述的CLASS语句称为分类语句,在t检验中的分类变量(品种),应在CLASS语句中给予说明,以便PROC TTEST过程按不同类别(品种)进行检验。输出结果见表210。110111001991991981100198199199199210029821002992982992982982992100 表210 成组数据t

22、检验的输出结果 The SAS System TTEST PROCEDUREVariable: DAYS STRAINNMeanStd DevStd Error11099.200000000.918936580.2905932621098.900000000.875595040.27688746VariancesTDFProb|T|Unequal0.747418.00.4645Equal0.747418.00.4645For H0: Variances are equal, F = 1.10 DF = (9,9) ProbF = 0.887 表210中给出了方差齐性检验和t检验结果以及方差不具

23、齐性时,用Satterthwaite方法计算的近似t统计量的自由度。从表的最后一行得知,方差具齐性,因此只选用Equal行的结果即可。Prob|T|的含义是变量T大于统计量t的概率,P(Tt)。(参考课本“小概率原理”一节)。不论是单侧检验还是双侧检验,该概率值都是一样的。做单侧检验时P0.05差异显著,在做双侧检验时P0.025时差异显著。 2.3 2检验的SAS程序在阅读以下内容之前,请先阅读第一章“SAS软件基本操作”。使用PROC FREQ过程(见2.1.2)进行2检验,首先应使用TABLE语句生成一个两向表。在TABLE语句的“/”后,可供使用的选项共有24个,其中的几个基本选项如下

24、:CHISQ:2检验及22列联表的Fisher精确检验。EXACT:对大于22列联表进行Fisher精确检验。ALPHA(p):设置置信区间时使用的显著水平,缺省时a0.05。MISSIN:要求FREQ把缺失值当做非缺失值看待,在计算百分数或其它统计量时包括它们。例 2.7 以课本中例7.3的数据为例,说明2检验的SAS程序。解 记符号“o”为口服,“i”为注射,“e”为有效,“n”为无效。options linesize=76;data medicine;input way $ effect $;cards;o eo ni ei n : :proc freq formchar(1,2,7)=

25、|-+; table way * effect / chisq;run;在TABLE语句中way * effect将形成一个两向表,第一个变量形成表的行,第二个变量形成表的列。在PROC FREQ语句中的选项formchar(1,2,7),是输出表格线的形状。输出结果如下。表2-11 例2.7输出的结果 The SAS System TABLE OF WAY BY EFFECT WAY EFFECTFrequenyPercent Row Pct Col Pct enTotalo58409830.0520.7350.7859.1840.8247.5456.34i64319533.1616.064

26、9.2267.3732.63 52.4643.66 Total12271193 63.2136.79100.00 STATISTICS FOR TABLE OF WAY BY EFFECTStatisticDFValueProbChi-Square11.3900.238Likelihood Ratio Chi-Square11.3920.238Continuity Adj. Chi-Square11.0600.303Mantel-Haenszel Chi-Square11.3820.240Fishers Exact Test (Left)0.908 (Right)0.152 (2-Tail)0

27、.296Phi Coefficient0.0850Contingency Coefficient0.0850Cramers V0.0850 Sample Size = 193 表211给出2值,连续性矫正2值和精确检验2值。该例如果使用以下程序,在数据步中数据的输入变得很简单了。options linesize=76;data; do way=1 to 2; do effect=1 to 2; input case ; output; end; end; cards;58 4064 31;proc freq formchar(1,2,7)=|-+; weight case; tables wa

28、y*effect;run;在数据步中使用了一个DO语句,这是一个循环语句。“way=1 to 2”表示“方式”有两个水平,“effect=1 to 2”表示“效果”有两个水平,如果实验是一个高阶的列联表,那么TO后面的数字也应做相应的改变。在程序步中的WEIGHT语句是一个权数语句,它的值是这些观测相应的权数。输出的结果如下,因为在TABLE语句中没有规定统计分析选项,所以只输出列联表: The SAS SystemTABLE OF WAY BY EFFECT WAY EFFECTFrequenyPercent Row Pct Col Pct 12Total158409830.0520.735

29、0.7859.1840.8247.5456.34264319533.1616.0649.2267.3732.63 52.4643.66 Total12271193 63.2136.79100.00 比较前面的两个列联表,只是表的形式有些不同,其它结果没有任何变化。在输出的列联表中还有一些选项可供使用,如:EXPECTED:在独立性假设下,要求输出单元频数的期望值。NOCOL:不输出交叉表里的单元列百分数。NOROW:不输出交叉表里的单元行百分数。CELLCHI2:要求该过程输出每个单元对总2统计量的贡献。NOPERCENT:不输出交叉表的单元百分数和累计百分数。如果在TABLE语句中加入上述选

30、项,输出的结果更接近教材中列联表的格式。options linesize=76;data; do way=1 to 2; do effect=1 to 2; input case ; output; end; end; cards;64 3158 40;proc freq formchar(1,2,7)=|-+; weight case; tables way*effect/cellch2 expected nocol norow nopercent;run;输出结果如下表: The SAS System TABLE OF WAY BY EFFECT WAY EFFECTFrequenyExp

31、ectedCell Chi-Square12Total158409861.94836.0520.25160.4324264319560.05234.9480.25960.446Total12271193 例 2.8 计算课本中例7.5的精确2。解 记A饲料为1,B饲料为2;未增重为1,增重为2。SAS程序如下:options linesize=76;data mouse;input feed weight ;cards;1 1 1 1 1 1 1 1 1 22 2 2 2 2 2 2 2 2 2 2 2proc freq formchar(1,2,7)=|-+; table feed * we

32、ight / chisq missing;run;输出结果如下:表212 例2.8输出的结果 The SAS System TABLE OF FEED BY WEIGHT FEED WEIGHT FrequenyPercent Row Pct Col Pct 12Total141536.369.0945.4580.0020.00100.0014.2920660.0054.5554.550.00100.00 0.0085.71Total4711 36.3663.64100.00 STATISTICS FOR TABLE OF FEED BY WEIGHT StatisticDFValueProb

33、Chi-Square17.5430.006Likelihood Ratio Chi-Square19.4170.002Continuity Adj. Chi-Square14.4820.034Mantel-Haenszel Chi-Square16.8570.009Fishers Exact Test (Left)1.000 (Right)0.015 (2-Tail)0.015Phi Coefficient0.8280Contingency Coefficient0.6380Cramers V0.8280 Sample Size = 11 WARNING: 100% of the cells

34、have expected counts less than 5. Chi-Square may not be a valid test. 精确2值为0.015,与课本上例7.5的结果一致。 2.4 单因素方差分析的SAS程序在阅读以下内容之前,请先阅读第一章SAS软件基本操作。单因素实验设计又称为完全随机化实验设计。该实验设计要求实验条件或实验环境的同质性很高。例如,比较a个作物品种的产量,每一品种设置n个重复,全部实验共有an次。根据完全随机化实验设计的要求,试验田中的an个试验小区的土质、肥力、含水量、小气候、田间管理等条件必须完全一致。至于哪一个品种的哪一次重复安排在哪一个小区,完全是

35、随机的,因此得到了“完全随机化实验设计”这一名称。例2.9 下面以课本中例8.1的数据为例,给出单因素方差分析的SAS程序。 解:先按以下输入方式建立一个称为a:2-5data.dat的外部数据文件。164.6165.3164.8166.0165.8264.5265.3264.6263.7263.9367.8366.3367.1366.8368.5471.8472.1470.0469.1471.0569.2568.2569.8568.3567.5SAS程序如下:options linesize=76;data wheat;infile a:2-5data.dat; input strain h

36、ight ;run;proc anova;class strain;model hight=strain;means strain / duncan;means strain / lsd cldiff;run;在PROC ANOVA过程中的CLASS语句(分类语句)是必须的,而且一定要放在MODEL语句之前。在方差分析中要使用的分类变量(因素),首先要在CLASS语句中说明。分类变量可以是数值型的,也可以是字符型的。MODEL语句用来规定因素对实验结果的效应,一般形式为,因变量因素效应。本例即为株高品系效应。MEANS语句应放在MODEL语句之后,MEANS语句后列出希望得到均值的那些变量。M

37、EANS语句有很多选项,下面列出几个与本教材有关的选项,将选项写在MEANS语句的“/”之后。DUNCAN: 对MEANS语句列出的所有主效应均值进行DUNCAN检验。SNK: 对MEANS语句列出的所有主效应均值进行Student-Newman-Keuls检验。T | LSD: 对MEANS语句列出的所有主效应均值进行两两t检验,它相当于在样本含 量相同时的LSD检验。ALPHA 均值间对比检验的显著水平,缺省值是0.05。当用DUNCAN选项时只能取0.01、0.05和0.10,对于其它选项,可取0.0001到0.9999之间的任何值。CLDIFF: 在选项T和LSD时,过程将两个均值之差以置信区间的形式输出。CLM: 在选项T和LSD时,过程把变量的每一水平均值以置信区间的形式输出。执行上述程序,输出结果见表213。表 213: 例2.9方差分析输出结果 The SAS System Analysis of Variance Procedure Class Level InformationClassLevelsValuesSTRAIN51 2 3 4 5 Number of observations in data set = 25 The SAS System Analysi

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!