SAS统计分析及应用.ppt

上传人：san****019 文档编号：17223928 上传时间：2020-11-15 格式：PPT 页数：120 大小：2.73MB

收藏版权申诉举报下载

第1页 / 共120页

第2页 / 共120页

第3页 / 共120页

下载文档到电脑，查找使用更方便

14.9 积分

下载资源

资源描述：

《SAS统计分析及应用.ppt》由会员分享，可在线阅读，更多相关《SAS统计分析及应用.ppt（120页珍藏版）》请在装配图网上搜索。

1、SAS统计分析黄玉兰 2010-1-10 一、概述 SAS系统全称为 Statistics Analysis System 最早由北卡罗来纳大学的两位生物统计学研究生编制，并于 1976年成立了 SAS软件研究所，正式推出了 SAS软件。 SAS是用于决策支持的大型集成信息系统，该软件系统最早的功能限于统计分析统计分析功能也仍是它的重要组成部分和核心功能。 SAS现在的版本为 9.0版，大小约为 1G。经过多年的发展， SAS已被全世界 120多个国家和地区的近三万家机构所采用，直接用户则超过三百万人，在金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国，能

2、熟练使用 SAS进行统计分析是许多公司和科研机构选材的条件之一。在数据处理和统计分析领域， SAS系统被誉为国际上的标准软件系统，并在 96 97年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。在以苛刻严格著称于世的美国 FDA新药审批程序中，新药试验结果的统计分析规定只能用 SAS进行，其他软件的计算结果一律无效！哪怕只是简单的均数和标准差也不行！由此可见 SAS的权威地位。 SAS系统是一个组合软件系统，它由多个功能模块组合而成，其基本部分是 BASE SAS模块。 BASE SAS模块是 SAS系统的核心，承担着主要的数据管理任务，并管理用户使用环境，进行用户

3、语言的处理，调用其他 SAS模块和产品。 SAS系统的运行，首先必须启动 BASE SAS模块，它除了本身所具有数据管理、程序设计及描述统计计算功能以外，还是 SAS系统的中央调度室。它除可单独存在外，也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。 SAS系统具有灵活的功能扩展接口和强大的功能模块，在 BASE SAS的基础上还可以增加如下不同的模块而增加不同的功能： SAS/STAT（统计分析模块） SAS/GRAPH（绘图模块） SAS/QC（质量控制模块） SAS/ETS（经济计量学和时间序列分析模块） SAS/OR

4、（运筹学模块） SAS/IML（交互式矩阵程序设计语言模块） SAS/FSP（快速数据处理的交互式菜单系统模块） SAS/AF（交互式全屏幕软件应用系统模块）等等。 SAS有一个智能型绘图系统，不仅能绘各种统计图，还能绘出地图。 SAS提供多个统计过程，每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工，实现更为复杂的统计分析。 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数，使用户能方便地实现特殊统计要求。二、安装 SAS 洪恩的开天辟地有介绍安装 SAS时，应首先将系统时间改到 2002年以前，安装完以后，再 crack，然后将

5、时间修改还原，切记！启动 SAS 启动后，出现如图的 SAS运行界面，称为“ SAS 工作空间（ SAS Application WorkSpace）” 象 Windows应用程序一样，在一个主窗口内，包含若干个子窗口，并有菜单条、工具栏、状态栏等。 SAS有三个最重要的子窗口：程序窗口（ PROGRAM EDITOR）运行记录窗口（ LOG）输出窗口（ OUTPUT）。 Program Editor的窗口（窗口标签为 Editor）就是用来输入 SAS语句的，编程操作的所有内容都是在该窗口内完成的简单运行样例假设我们有一个班学生的数学成绩和语文成绩，数学满分为

6、100，语文满分为 120，希望计算学生的平均分数（按百分制）并按此排名，可以在程序窗口输入此程序： title 0401班学生成绩排名 ; data c0401; input name $ 1-10 sex $ math chinese; avg = math*0.5 + chinese/120*100*0.5; cards; 李明男 92 98 张红艺女 89 106 王思明男 86 90 张聪男 98 109 刘颍女 80 110 ; run; proc print;run; proc sort data=c0401; by descending avg; run; pro

7、c print;run; 程序是文本，可在任何文本编辑工具中输入 Windows中的记事本 Word也可输入这样包含中文的程序输入后使用复制复制、粘贴命令将输入的程序粘贴到 SAS系统程序窗口。（即在记事本中复制输入的程序，然后在 SAS系统程序窗口中使用粘贴命令，把程序复制到 SAS中）。运行此程序，只要用鼠标单击工具栏的提交（ Submit）图标，或用 Run菜单下的 Submit命令，或者直接按下 F8键（ Windows XP)或者 F6 （ Windows 7)，就可运行程序。如果选中某一段程序，然后进行调用，则系统只执行被选中的部分。运行后，输出窗口出现

8、如下 : 0401班学生成绩排名 11:40 Saturday, November 10, 2004 Obs name sex math chinese avg 1 李明男 92 98 86.8333 2 张红艺女 89 106 88.6667 3 王思明男 86 90 80.5000 4 张聪男 98 109 94.4167 5 刘颍女 80 110 85.8333 运行记录窗口则记录每段程序的运行情况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。三、 SAS程序的使用常识 SAS程序的特点 : SAS程序的基本结构 SAS程序由语句组成，语句用分号结

9、束。语句一般由特定的关键词开始，语句中可包含变量名、运算符等，它们以空格分隔。 SAS对语句所占的行数无限制，一个语句可占多行，同样，多个语句也可占一行。 SAS程序的程序组成 SAS程序可以非常复杂其基本结构一般由数个完成单个动作的程序步和环境设置语句构成。程序步分为两种， 1.数据步（ data step），以 DATA语句开始，由若干个语句组成，用来创建和修改用于统计分析的数据集，一般以 RUN语句结束。 2.过程步（ proc step），以 PROC语句开始。由若干个语句组成，一般以 RUN语句结束。利用已创建的数据集完成特定的统计分析任务。

10、libname a d:sysdata; data a.aaaa; input x ; cards; 1 2 3 4 5 ; proc print; var x; run; quit; 第 1句就是一个环境设置语句，其作用是设定一个逻辑库，逻辑库名称为 a, 第 2 6句构成数据步，其功能是新建一个数据集，数据集名称为 aaaa,并且输入数据，第 7 9句构成过程步，其功能是将数据集 aaaa中变量 x的数值在 output窗口中输出。 SAS程序的书写规则与程序注释 SAS对程序的书写格式比较灵活，大小写一般不区分（字符串中要区分大小写）， SAS程序与其它编程语言相似，

11、采用缩进格式，使得源程序结构清楚，容易读懂。 SAS程序的程序注释有以下两种格式：注释语句：以星号 “ *” 开始，可占多行，以分号 “ ;”结束。注释段落：用“ /*”和“ */”包括起来的任何字符，可占多行。程序中要有适当的注释，使程序的可读性强。四、 SAS程序的数据步数据集（ dataset）和库 SAS数据集（ SAS Datasets）由若干行和若干列组成的表格，类似于一个矩阵，但各列可以取不同的类型值，比如整数值、浮点值、时间值、字符串、货币值等等。比如名为 C0401的数据集，它的逻辑形式如下表： NAME SEX MATH CHINES

12、E AVG 李明男 92 98 86.8333 张红艺女 89 106 88.6667 王思明男 86 90 80.5000 张聪男 98 109 94.4167 刘颍女 80 110 85.8333 表 1 数据集的逻辑形式数据集每一行叫做一个观测（ Observation）每列叫做一个变量（ Variable） SAS数据集等价于关系数据库系统中的一个表，实际上一个 SAS数据集有时也称作一个表。在数据库术语中一个观测称作一个记录，一个变量称作一个域。在 C0401数据集中：有 5个观测，分别代表 5个学生的情况，每个学生有 5个数

13、据，分别为姓名、性别、数学成绩、语文成绩、平均分此数据集有 5个变量，变量名依次为 NAME、 SEX、 MATH、 CHINESE和 AVG 数据集要有名字，变量要有名字， SAS中对名字（数据集名、变量名、数据库名，等等） SAS名字由英文字母、数字、下划线组成，第一个字符必须是字母或下划线，名字最多用 8个字符，大写字母和小写字母不区分。比如， name， abc， aBC， x1， year12， _NULL_等是合法的名字，且 abc和 aBC是同一个名字 class-1（不能有减号）、 a bit（不能有空格）、 serial#（不能有特殊字符）、 Docum

14、ents （超长）等不是合法的名字。逻辑库 SAS系统将所使用的文件以库的形式组织起来，而数据集则存放在一个库中，这个库就称为逻辑库。 libname命令就用于指定库标记。其一般格式为： Libname 库名称文件夹位置选项；例如 libname a d:sysdata; data a.aaaa; input x ; cards; 1 2 3 4 5 ; proc print; var x; run; quit; 第一行就指定 d:sysdata为逻辑库位置，其名称为 a. 引用在逻辑库中数据集时要使用两级名称来指定，第一级为库名称，第二级为数据集名，中间用句点“ .”隔开

15、。即用库名称 .数据集名的格式来引用该数据集。仍然是上面的例子，第 2 6句新建一个数据集，数据集名称为 aaaa,就可用 a.aaaa来引用该数据集。数据步的基本结构数据步均以 DATA语句开始，用于创建和处理数据集。数据步中常用的语句如下表：表 2 数据步的常用语句语句格式功能 DATA语句 DATA 数据集名 ; 数据步的开始，同时命名将要创建的数据集 INPUT语句 INPUT 变量名 ; 确定变量的读入格式，即确定输入的数据所对应的变量语句格式功能 CARDS或 DATALI NES语句与数据块 CARDS; 数据块 ; 或 DATALINE

16、S; 数据块 ; CARDS与 DATALINES功能相同，均用于标志数据块的开始 INFILE语句 INFILE 文件名选项 ; 从外部文件中读入数据块 OUTPUT语句将所读入的数据存放在缓存中，也可用 OUTPUT语句强制输出一条新记录 SET语句对数据集中的数据进行编辑，也可将指定数据集的内容复制到新建数据集中下面是几个例子。 Data语句： Data abc; data work.abc data sasuser.abc; data a.abc; INPUT语句 : Input x y z; /*输入变量 x,y,z*/ Input x1-x10; /*输入

17、10个变量 x1到 x10*/ Input x$y; /*输入变量 x,y,符号 $指明 x为字符变量，表示数据是连续读入 */ 完整例子： libname a d:sysdata;/*设定逻辑库，库名为 a*/ data a.aaaa; /*建立数据集，其名为 aaaa*/ input x ; /*输入变量 x, 表示数据是连续读入 */ cards; /*准备输入数据 */ 1 2 3 . 5 ; /*输入数据 ,注意有缺失值（缺失值用单独的小数点代表） */ 五、 SAS程序的过程步 SAS程序的过程步就是用于实现各种统计分析功能的 SAS命令，我们只需要按照其格式调用

18、它们。过程步总是以一个 proc语句开始，后面紧跟着过程步名。下表列出一些常用的过程步名及功能。过程步名功能 Sort 将数据集按指定变量排序 Print 将数据集中数据列表输出 Gchart 绘统计图 Univariate 对指定的数值变量作详细的统计描述 Means 对指定的数值变量作简单的统计描述 Freq 对指定的分类变量作统计描述和检验 Npar1way 非参数检验 Ttest 进行 t检验 Anova 进行方差分析 GLM 拟合一般线性模型 REG 拟合线性回归模型 Corr 进行相关分析 Logistic 拟合 Logistic回归模型 Phreg 拟合 cox比例风险模

19、型过程步的基本结构 SAS过程步的一般形式为： PROC 过程名 DATA=输入数据集选项 ; 过程语句 / 选项 ; 过程语句 / 选项 ; RUN; 其中 PROC语句的选项是可选的，用来规定过程运行的一些设置，如果有多个选项用空格分开。 DATA=输入数据集也是可选的，如果缺省的话使用最近生成的数据集。过程步一般以 RUN 语句结束。通常情况下，过程语句与数据步中的语句不同，数据步中的语句不能用在过程步中。过程步语句一般以某一个关键字开头，比如 VAR、 BY、 TABLES、 WEIGHT等，语句中有一些有关说明，如果有选择项的话要写在斜杠后。 SAS过程步常用语

20、句 1.DATA选项用于指明所需要处理的数据集，如果缺省的话使用最近生成的数据集。 2.VAR语句 VAR语句在很多过程中用来指定分析变量。在 VAR后面给出变量列表： VAR 变量名 1 变量名 2 变量名 n; 变量名列表可以使用省略的形式，如 X1-X3， MATH-CHINESE等。例如： Proc print; var math chinese; run; 3.MODEL语句 MODEL语句在一些统计建模过程中用来指定模型的形式。其一般形式为 MODEL 因变量自变量表 / 选项 ; 比如 ,将下列语句放在某一过程步中 model math=chinese; 则用语文成

21、绩预测数学成绩。 4.BY语句和 CLASS语句 5.OUTPUT语句 6.FREQ语句和 WEIGHT语句 7.ID语句 8.WHERE语句 9.LABEL语句和 FORMAT语句六、 SAS语言入门 SAS是一种专用的数据处理、统计计算语言，但是它也包含一般的高级语言编程能力并扩充了许多数学、统计等方面的函数。由于 SAS的数据处理功能非常强大，我们并不提倡用它来编复杂的程序，因此，我们只介绍 SAS语言用来进行一般编程计算的功能。 SAS语言的编程计算能力主要由 SAS数据步提供（另外 SAS还提供了一个 SAS/IML模块可以进行向量、矩阵运算）。下面给出的例子如果没有写

22、 DATA语句实际应该在例子前面加上 DATA语句，在后面加上 RUN语句才能运行。 DATA语句总是以关键字 DATA 开头，后面给出一个数据集名，就是本数据步要生成的数据集的名字： data tmp1; 也可以省略数据集名，这时 SAS自动生成一个临时数据集名。 1赋值语句在 SAS中用赋值语句计算一个值并存放到变量中。格式为变量名表达式 ; 例如： avg = (math + chinese/120*100)/2;/* 计算平均分数 , 赋值给变量 avg*/ isfem = (sex=女 ); /*先生成一个取值为 0或 1的值，性别为女时为 1，否则为 0*,然后赋值

23、给变量 isffem*/ newv = .; /*将变量赋了缺失值 */ 注意想试验上述语句要把它们放入数据步中，并且等号右边的表达式中的各变量应该是存在的，否则会得到缺失值结果。 2.输出语句 SAS数据步的输出一般是数据集，用赋值语句计算的结果会自动写入数据集。 SAS也提供了一个 PUT语句，可以象其它语言程序的 PRINT、 WRITE(*,*)、 printf等语句一样立即打印输出结果。 PUT的基本语法很多 ,只举几例： data; x=0.5; y=sin(x); put Sine function value of x is y; run; 结果将在运行记录窗口显示一

24、行 Sine function value of 0.5 is 0.4794255386 在 PUT语句中使用“变量名”来指定输出项可以显示带有变量名的输出结果，比如把上程序中的 PUT语句改为 put x= y=; 则结果在 LOG窗口显示为 X=0.5 Y=0.4794255386 分支结构如果需要在某条件满足时执行某一操作，可以用 IF 条件 THEN 程序块 ELSE 程序块的结构，其中 Else语句及其后的程序块可以省略。需要注意的是，如果程序块只有一句，则可直接写出，否则应以 DO开始，以 END结束。比如， if max(a)20 then p=0; else

25、p=1; 上述程序当 max(a)0 THEN DO; PUT X为正数 ; x = 2*x; PUT x=; END; 注意 SAS的分支结构的写法与其它语言有些不同，它不用 ENDIF结束。循环结构 SAS数据步可以使用循环结构，主要的是两种：计数 DO循环和当型、直到型循环。计数 DO循环的写法是： DO 计数变量起始值 TO 结束值 BY 步长 ; 循环体语句 END; 在循环体中可以用 LEAVE语句跳出循环，相当于 C语言的 break语句 ;用 CONTINUE语句可以立即结束本轮循环并转入下一轮循环的判断与执行 . 当型循环的语法是： DO WHILE(循环继

26、续条件 ); 循环体语句 END; 程序先判断循环继续条件是否成立，成立时执行循环体语句，再判断循环继续条件，如此重复，直到循环继续条件不再成立。直到型循环的写法是： DO UNTIL (循环退出条件 ); 循环体语句 END; 程序先执行循环体，然后判断循环退出条件是否成立，成立则结束循环，否则继续。注意每轮循环都是先执行循环体再判断是否退出。如： data; DO i = 1 TO 20 BY 2; j = i*3; put i 3. j 5.; END; run; 可以输出一个 1， 3， 5， 7，， 19的立方表。七、 SAS的基本统计分析功能 SAS Analys

27、is 模块前面我们已经对 SAS系统进行了简要的介绍，下面我们讲如何利用 SAS Analysis 模块计算描述统计量、进行假设检验、拟合曲线以及进行回归分析 1、启动 Analyst模块选择 Solutions菜单下的 Analysis，然后再选择下面的 Analyst，如图：得到 Analyst界面 2、数据集相关操作一、依分布产生数据利用 Data菜单中 Random Variates可以产生服从特定分布的随机数，可以选择的分布类型包括：正态分布均匀分布二项分布卡方分布泊松分布指数分布 Beta分布 Gama分布几何分布极值分布例 1、利用 Anal

28、yst模块生成 100个服从标准正态分布的数据，并把生成的数据命名为 Normal保存在 Sasuser下。操作步骤：（ 1）在 Data菜单中选择 Random Variates，然后选择分布类型 Normal（正态分布），则弹出现一对话框：（ 2）在 Number of values to generate中填 100，在 New column name (变量名称）中填 X，在 Mean中填 0，在 Standard deviation 中填 1，单击 OK （ 3）可以看到数据集中产生了新的一列，在 File 菜单中选 Save As By SAS Name，保存数据集

29、（ 4）在弹出的对话框中双击 Sasuser，并在 Member Name中填数据集名称 Normal，单击 Save即可二、随机抽样使用 Data中 Random Sample可以从数据集中随机抽取记录。例：在刚才生成的正态数据集 normal中随机抽取 50个数据。步骤如下：（ 1）首先选择 Data菜单下 Random Sample命令，弹出对话框：（ 2）在 Rows中填 50，单击 OK即可得到一个表格含有随机抽取的 50个样本，如图： 3、绘制统计图一、绘制变量直方图并在图上拟合分布曲线利用 Grphs中 Histogram可以绘制变量直方图并拟合分布曲线

30、。例：以上节 normal数据集中 X为对象绘制直方图，并在直方图上拟合正态分布曲线。操作步骤：（ 1）打开 Normal文件： FileOpen By SAS NameSasuserNormalOK （ 2）在 Grphs下选 Histogram，单击绘图变量 X，再单击 Analysis将其加入（ 3）选择 Fit在直方图上拟合正态分布曲线，单击 Fit 弹出对话框（ 3）选择 Normal，单击 OK回到原对话框，再单击 OK即得：二、概率图在直方图基础上我们可以猜想变量是服从正态分布的，通过绘制概率图可以来证实我们的想法。概率图将数值排序，给出每个数值对应的分位

31、数，然后打点作图。如果这些点呈现线性特征，说明他们与理论分布相符，同时又在图像上加上一条给定分布的曲线，并给出分布的系数。例：绘制 Normal数据集中 X的概率图，步骤如下：（ 1）首先选择 Graphs下 Probality Plot，弹出对话框（ 2）单击 X，再单击 Analysis，然后选择分布为 Normal，单击 Ok得到概率图：可以看到 X的分布与正态分布基本吻合，图中还给出了正态分布的参数：均值为 0.06217，标准差为 0.996833。一、绘制散点图使用 Graphs下的 Scatter Plot可以绘制散点图例：病人在服用某种放射性药物后，体内

32、的放射性物质的含量 y与时间 x具有一定的关系，绘制二者的散点图，然后找出他们的关系，数据如下： x 1 2 3 4 5 6 7 8 9 10 11 y 37 14 5 1.83 0.67 0.24 0.09 0.03 0.01 0.004 0.001 1、首先将数据输入建立一个名为 Test的数据集，然后在 ANALYST模块下打开 2、然后打开 Scatter Plot对话框 3、在绘制散点图对话框中将 x放在 X轴， y放在 Y轴，单击 OK可以得到二者的散点图，为容易观察，可在 Display中选择用线连接散点图 4、绘制的图形如下，可以看到放射性物质的含量和时间具有负指数衰

33、减关系 4、统计分析与计算一、计算描述性统计量利用 Statistics 的 Descriptive菜单可以计算描述性统计量， Descriptive下有 4个选项： Summary Statistics计算简单统计量 Distribution 计算分布信息 Correlations 计算变量间的相关系数 Frequency Counts统计变量的频数例 1：计算上例 Test中放射性物质 y的简单统计量 1、打开 Test数据集，选 Statistics Descriptive Summary Statistics，出现对话框，选择 y分析 : 2、在 Statistics中设置需要

34、计算哪些统计量，单击 OK即可得所需统计量。 3、输出结果如下例 2：计算 x与 y间的相关系数 1、打开 Test数据集，选择 Statistics Descriptive Correlations，在对话框中将 x与 y选入 Analysis，然后单击 OK 2、输出结果如下，可见 x与 y间的相关系数为 -0.70152 二、列联表分析使用 Statistics菜单下的 Table Analysis可以进行列联表分析（即属性频数数据分析 ) 例 1:为了考察法院判决是否与被告种族有关，调查了 326位被告的判决情况如表所示 : 黑人白人有罪 17 19 无罪 149 141

35、 1、首先建立数据集 Data panjue ; Input A B freq;*其中 A取 1表有罪， 2无罪； B取 1表黑人， 2表白人 * Cards; 1 1 17 1 2 19 2 1 149 2 2 141 ; Run; 2、选择 Table Analysis，打开对话框 3、将 A放在 Row，将 B放在 Column，将 freq放在 Cell Counts 4、在 Statistics中设置 Exact Test检验，单击 OK 5、结果如下，大致分为 3部分，第一部分是频数和列百分比表；第二部分是四种检验方法结果， p值都大于 0.15水平；第三部分是 Fisher精

36、确检验结果， p值位 0.7246，远远大于 0.15，可见判决情况与被告种族是没有关系的。 5、假设检验在 Statistics菜单下的 Hypothesis Tests可以进行各种假设检验，大致可以分为单样本检验和两样本检验，其中单样本包括：单样本均值 Z检验： One Sample Z Tests 单样本均值 t检验： One Sample t Tests 单样本比例检验： One Sample Proportion Tests 单样本方差检验： One Sample test for a variance 两样本的检验包括两样本均值 t检验： Two Sample t T

37、est For Means 成对样本均值 t检验 :Two Sample paired t test for means 两样本比例检验 :Two Sample test for proportions 两样本方差检验： Two Sample test for Variance 2. 正态总体均值的假设检验一、单个总体 N(,2)均值的检验 1.已知时的检验（单样本均值 Z检验： One Sample Z Tests ）例 2 某车间用一台包装机包装葡萄糖。包得的袋装糖重是一个随机变量，它服从正态分布。当机器正常时，其均值为 0.5公斤，标准差为 0.015公斤。某日开工后为检

38、验包装机是否正常，随机地抽取它所包装的糖 9袋，称得净重为（公斤）： 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 问机器是否正常？解按题意需检验假设操作步骤：（ 1）首先输入数据，程序为 data u_weight; input weight; cards; 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 ; run; 运行上述程序。 0 0 1 0: 0 . 5 , : .HH (2)选择 SolutionsAnalysisAnalyst 菜单， (3)选择

39、FileOpen By SAS NameWorku_weight, (4) 选择 StatisticsHypothesis, (5) 选择 One-Sample z-test for a mean,出现图 2，图 2 u-检验的变量设置（ 6）在图 2的窗口中设置变量，我们选择变量为 weight,Null:Mean处是零假设，填入 0.5， Alternate处是备择假设，我们选， Tests 按钮可以选择显著性水平 ,默认是 0.05， Std.Dev.处填入标准差 0.015。（ 7）单击 OK，产生输出结果。 One Sample Z Test for a Mean Sampl

40、e Statistics for weight N Mean Std. Dev. Std. Error - 9 0.51 0.01 0.00 Hypothesis Test Null hypothesis: Mean of weight = 0.5 Alternative: Mean of weight = 0.5 With a specified known standard deviation of 0.015 Z Statistic Prob Z - - 2.244 0.0248 结果分析：由上可见，平均值为 0.51，标准差为 0.01,z统计量是 2.244, Prob Z的值为

41、 0.0248 =0.05,因此应该拒绝 H0，即认为这天包装机不正常。 2.未知时的检验（ One-Sample t-test for a mean ）例 3.某种电子元件的寿命 x(以小时计 )服从正态分布 , , 2均未知 ,现测得 16只元件的寿命如下 : 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于 225(小时 )? 解按题意需检验假设操作步骤：（ 1）首先输入数据，程序为 data lifetest; input life; cards; 0.4

42、97 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 ; run; 0 0 1 0: 2 2 5 , : .HH (2) 选择 SolutionsAnalysisAnalyst 菜单， (3) 选择 FileOpen By SAS NameWorklifetest, (4) 选择 StatisticsHypothesis, (5) 选择 One-Sample t-test for a mean,出现图 3，图 3 t-检验的变量设置（ 6）在图 3的窗口中设置变量，我们选择变量为 life,Null:Mean处是零假设，填入 225， Al

43、ternate处是备择假设，我们选 =， Tests 按钮可以选择显著性水平 ,默认是 0.05。（ 7）单击 OK，产生输出结果。 One Sample t-test for a Mean Sample Statistics for life N Mean Std. Dev. Std. Error - 16 241.50 98.73 24.68 Hypothesis Test Null hypothesis: Mean of life 225 t Statistic Df Prob t - 0.669 15 0.2570 结果分析：由上可见，平均值为 241.50，标准差为 98.73,

44、标准偏差为 24.68， t统计量是 0.669, Prob t 的值为 0.2570=0.05,因此应该接受 H0，即认为元件的平均寿命不大于 225小时。二、两个正态总体均值差的检验例 4.在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率 ,试验是在同一只平炉上进行的 . 每炼一炉钢时除操作方法外 ,其它条件尽可能做到相同 . 先用标准方法炼一炉 ,然后用建议的新方法炼一炉以后交替进行 ,各炼了 10炉 ,其得率分别为 : 1.标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 2.新方法 79.1 81.

45、0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两个样本相互独立 ,且分别来自正态总体 N(1, 2)和 N(2, 2), 1, 2, 2均未知 .问建议的新的操作方法能否提高得率 ?(取 =0.05)(Two-Sample Paired t-test for a mean) 解按题意需检验假设操作步骤：（ 1）首先输入数据，程序为 data mydata; input olddata newdata; cards; 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 ; run; 0 1

46、2 1 1 2: 0 , : 0 .HH (2) 选择 SolutionsAnalysisAnalyst 菜单， (3) 选择 FileOpen By SAS NameWorkmydata, (4) 选择 StatisticsHypothesis, (5) 选择 Two-Sample Paired t-test for a mean,出现图 4 图 4 两个样本 u-检验的变量设置 (6)在图 4的窗口中设置变量，依次选择两个变量 ,零假设处填入 0， Alternate处是备择假设，我们选 0， Tests按钮可以选择显著性水平 ,默认是 0.05。（ 7）单击 OK，产生输出结果。

47、 Two Sample Paired t-test for the Means of olddata and newdata Sample Statistics Group N Mean Std. Dev. Std. Error - olddata 10 76.23 1.8233 0.5766 newdata 10 79.43 1.4915 0.4717 Hypothesis Test Null hypothesis: Mean of (olddata - newdata) = 0 Alternative: Mean of (olddata - newdata) t - -4.202 9 0.

48、0012 结果分析：由上可见， t统计量是 -4.202, Prob t 的值为 0.0012 =0.05,因此应该拒绝 H0，即认为新方法比标准方法为优。 3. 正态总体方差的假设检验由于在 SAS中，单个总体与两个总体的情况在操作上差不多，下面只举两个总体的情况。例 5 对例 4中的数据检验假设 (取 =0.01) (Two-Sample Test for Variances) 2 2 2 2 0 1 2 1 1 2: , : .HH 操作步骤： (1) 首先输入数据，我们就利用前面输入的数据集 mydata。 (2) 选择 SolutionsAnalysisAnalyst 菜单

49、， (3) 选择 FileOpen By SAS NameWorkmydata, (4) 选择 StatisticsHypothesis, (5) 选择 Two-Sample Test for Variances,出现图 5 图 5 两个样本的方差检验（ 6）在图 5的窗口中设置变量，选择 Two variables(两个变量 ),依次选一个变量，按 Group1按钮及 Group2按钮， Alternate处是备择假设，我们选 1， Intervals按钮可以选择显著性水平 ,默认是 0.05，我们选 0.01。（ 7）单击 OK，产生输出结果。 Two Sample Test fo

50、r Variances of olddata and newdata Sample Statistics Group N Mean Std. Dev. Variance - olddata 10 76.23 1.8233 3.324556 newdata 10 79.43 1.4915 2.224556 Hypothesis Test Null hypothesis: Variance 1 / Variance 2 = 1 Alternative: Variance 1 / Variance 2 = 1 - Degrees of Freedom - F Numer. Denom. Pr F -

51、 1.49 9 9 0.5590 结果分析：由上可见， F统计量是 1.49, Pr F的值为 0.5590=0.01,因此应该接受 H0，即认为两总体方差相等。 6、回归分析利用 Statistics菜单下的 Regression可以进行回归分析，包括： Simple回归：单一的自变量，单一的因变量，但自变量次数可以是一次、二次或三次 Linear回归：多个自变量，多个因变量，但是对因变量分别进行回归一、 Simple回归例 1：著名统计学家 K.Pearson收集大量父亲身高 x与儿子身高 y的资料，其中 10对数据如下： X 60 62 64 65 66 67 68

52、70 72 74 Y 63.6 65.2 66.0 65.5 66.9 67.1 67.4 68.3 70.1 70.0 假设对给定的 x, y为正态变量，且方差与 x 无关，求回归方程 y=a + bx,并指出回归效果是否显著。（显著水平取 0.05） 1、首先建立数据集 : data sasuser.reg; input x y; cards; 60 63.6 62 65.2 64 66.0 65 65.5 66 66.9 67 67.1 68 67.4 70 68.3 72 70.1 74 70.0 ; run; 2、再利用菜单完成回归分析 : (1) 选择 SolutionsAna

53、lysisAnalyst 菜单， (2) 选择 FileOpen By SAS Namesasuserreg (3) 选择 StatisticsRegression, (4) 选择 Simple Linear Regression出现一窗口 (5) 在出现的窗口中设置变量，我们选择变量 dependent为 y,选择 Explanatory为 x, Model处选择 Linear， Tests按钮可以选择显著性水平 ,默认是 0.05。。 (6) 单击 OK，产生输出结果首先由模型的方差分析表可以看到， Prob F 的值为 0.0001 F 的值为 0.0001=0.05,因此该回归方程显著 ,再由下面的参数估计可以得出回归方程为 : y=-10.13-0.05x1+0.59x2+0.29x3 但从数表来看，随着国内生产总值（ X1）的增加进口总额（ y）也增加，所以该方程并不一定是真实的反映了他们间的关系。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

SAS统计分析及应用.ppt

最新文档

相关资源

相关搜索