SAS统计分析及应用.ppt

上传人:san****019 文档编号:17223928 上传时间:2020-11-15 格式:PPT 页数:120 大小:2.73MB
收藏 版权申诉 举报 下载
SAS统计分析及应用.ppt_第1页
第1页 / 共120页
SAS统计分析及应用.ppt_第2页
第2页 / 共120页
SAS统计分析及应用.ppt_第3页
第3页 / 共120页
资源描述:

《SAS统计分析及应用.ppt》由会员分享,可在线阅读,更多相关《SAS统计分析及应用.ppt(120页珍藏版)》请在装配图网上搜索。

1、SAS统计分析 黄玉兰 2010-1-10 一、概述 SAS系统全称为 Statistics Analysis System 最早由北卡罗来纳大学的两位生物统计学研究生编制, 并于 1976年成立了 SAS软件研究所,正式推出了 SAS软 件。 SAS是用于决策支持的 大型集成信息系统 , 该软件系统最早的功能限于统计分析 统计分析功能也仍是它的重要组成部分和核心功能。 SAS现在的版本为 9.0版,大小约为 1G。经过多年的发展, SAS已被全世界 120多个国家和地区的近 三万家机构所采用,直接用户则超过三百万人,在金融、医药 卫生、生产、运输、通讯、政府和教育科研等领域。 在英美等国,能

2、熟练使用 SAS进行统计分析是许多公司和科研 机构选材的条件之一。 在数据处理和统计分析领域, SAS系统被誉为国际上的标准软 件系统,并在 96 97年度被评选为建立数据库的首选产品。 堪称统计软件界的巨无霸。 在以苛刻严格著称于世的美国 FDA新药审批程序中,新药试验 结果的统计分析规定只能用 SAS进行,其他软件的计算结果 一律无效!哪怕只是简单的均数和标准差也不行!由此可见 SAS的权威地位。 SAS系统是一个组合软件系统,它由多个功能模块组 合而成,其基本部分是 BASE SAS模块。 BASE SAS模块是 SAS系统的核心,承担着主要的数 据管理任务,并管理用户使用环境,进行用户

3、语言 的处理,调用其他 SAS模块和产品。 SAS系统的运行 ,首先必须启动 BASE SAS模块, 它除了本身所具有数据管理、程序设计及描述统计 计算功能以外,还是 SAS系统的 中央调度室 。它除 可单独存在外,也可与其他产品或模块共同构成一 个完整的系统。各模块的安装及更新都可通过其安 装程序非常方便地进行。 SAS系统具有灵活的功能扩展接口和强大的功能模块, 在 BASE SAS的基础上 还可以增加如下不同的模块而增加不同的功能: SAS/STAT(统计分析模块) SAS/GRAPH(绘图模块) SAS/QC(质量控制模块) SAS/ETS(经济计量学和时间序列分析模块) SAS/OR

4、(运筹学模块) SAS/IML(交互式矩阵程序设计语言模块) SAS/FSP(快速数据处理的交互式菜单系统模块) SAS/AF(交互式全屏幕软件应用系统模块)等等。 SAS有一个智能型绘图系统,不仅能绘各种统 计图,还能绘出地图。 SAS提供多个统计过程,每个过程均含有极丰 富的任选项。 用户还可以通过对数据集的一连串加工,实现 更为复杂的统计分析。 SAS还提供了各类概率分析函数、分位数函数、 样本统计函数和随机数生成函数,使用户能 方便地实现特殊统计要求。 二、安装 SAS 洪恩的 开天辟地 有介绍 安装 SAS时,应首先将系统时间改到 2002年 以前,安装完以后,再 crack,然后将

5、时间 修改还原,切记! 启动 SAS 启动后,出现如图 的 SAS运行界面,称为“ SAS 工作空间 ( SAS Application WorkSpace)” 象 Windows应用程序一样,在一个主窗口内,包 含若干个子窗口,并有菜单条、工具栏、状态栏 等。 SAS有三个最重要的子窗口 : 程序窗口( PROGRAM EDITOR) 运行记录窗口( LOG) 输出窗口( OUTPUT)。 Program Editor的窗口(窗口标签为 Editor) 就是用来输入 SAS语句的,编程操作的所有 内容都是在该窗口内完成的 简单运行样例 假设我们有一个班学生的数学成绩和语文成 绩,数学满分为

6、100,语文满分为 120,希望 计算学生的平均分数(按百分制)并按此排 名,可以在程序窗口输入此程序: title 0401班学生成绩排名 ; data c0401; input name $ 1-10 sex $ math chinese; avg = math*0.5 + chinese/120*100*0.5; cards; 李明 男 92 98 张红艺 女 89 106 王思明 男 86 90 张聪 男 98 109 刘颍 女 80 110 ; run; proc print;run; proc sort data=c0401; by descending avg; run; pro

7、c print;run; 程序是文本,可在任何文本编辑工具中输入 Windows中的记事本 Word也可输入这样包含中文的程序 输入后使用复制复制、粘贴命令将输入的程序粘贴 到 SAS系统程序窗口。 (即在记事本中复制输入的程序,然后在 SAS系统程 序窗口中使用粘贴命令,把程序复制到 SAS中)。 运行 此程序,只要用鼠标单击工具栏的提交 ( Submit) 图标 ,或用 Run菜单下的 Submit命令, 或者直接按下 F8键( Windows XP)或者 F6 ( Windows 7),就可运行程序。如果 选中某一段程 序 ,然后进行调用,则系统只执行被选中的部分。 运行后,输出窗口出现

8、如下 : 0401班学生成绩排名 11:40 Saturday, November 10, 2004 Obs name sex math chinese avg 1 李明 男 92 98 86.8333 2 张红艺 女 89 106 88.6667 3 王思明 男 86 90 80.5000 4 张聪 男 98 109 94.4167 5 刘颍 女 80 110 85.8333 运行记录窗口则记录每段程序的运行情况、所用时间、 生成数据保存情况。如果有错误还会用红色指示错 误。 三、 SAS程序的使用常识 SAS程序的特点 : SAS程序的 基本结构 SAS程序由 语句 组成,语句用 分号 结

9、束。 语句一般由特定的 关键词 开始,语句中可包含变量 名、运算符等,它们以 空格分隔 。 SAS对语句所占的行数无限制,一个语句可占多行, 同样,多个语句也可占一行。 SAS程序的程序组成 SAS程序可以非常复杂 其基本结构一般由数个完成单个动作的 程序步 和 环境设置语句 构成。 程序步分为两种, 1.数据步 ( data step),以 DATA语句开始,由 若干个语句组成,用来创建和修改用于统计 分析的数据集,一般以 RUN语句结束。 2.过程步 ( proc step),以 PROC语句开始。 由若干个语句组成,一般以 RUN语句结束。 利用已创建的数据集完成特定的统计分析任 务。

10、libname a d:sysdata; data a.aaaa; input x ; cards; 1 2 3 4 5 ; proc print; var x; run; quit; 第 1句就是一个 环境设置语句 ,其作用是设定一个逻辑库,逻 辑库名称为 a, 第 2 6句构成数据步,其功能是新建一个数据集,数据集名称 为 aaaa,并且输入数据, 第 7 9句构成过程步,其功能是将数据集 aaaa中变量 x的数值 在 output窗口中输出。 SAS程序的 书写规则与程序注释 SAS对程序的书写格式比较灵活,大小写一般不区 分( 字符串中要区分大小写 ), SAS程序与其它编程语言相似,

11、采用 缩进格式 ,使得 源程序结构清楚,容易读懂。 SAS程序的程序注释有以下两种格式: 注释语句 :以星号 “ *” 开始,可占多行,以分号 “ ;”结束。 注释段落 :用“ /*”和“ */”包括起来的任何字符,可 占多行。 程序中要有适当的注释,使程序的可读性强。 四、 SAS程序的数据步 数据集( dataset)和库 SAS数据集( SAS Datasets) 由 若干行和若干列 组成的表格,类似于 一个 矩阵 ,但各列可以取不同的类型值,比 如整数值、浮点值、时间值、字符串、货币 值等等。比如名为 C0401的数据集,它的逻 辑形式如下表: NAME SEX MATH CHINES

12、E AVG 李明 男 92 98 86.8333 张红艺 女 89 106 88.6667 王思明 男 86 90 80.5000 张聪 男 98 109 94.4167 刘颍 女 80 110 85.8333 表 1 数据集的逻辑形式 数据集 每一行叫做一个 观测 ( Observation) 每列叫做一个 变量 ( Variable) SAS数据集 等价于关系 数据库系统中的一个表 , 实际上一个 SAS数据集有时也称作一个表。 在数据库术语中一个 观测 称作一个 记录 ,一 个变量称作一个 域 。 在 C0401数据集中: 有 5个 观测 ,分别代表 5个学生的情况, 每个学生有 5个数

13、据, 分别为姓名、性别、数学成绩、语文成绩、平均分 此数据集有 5个变量, 变量名依次为 NAME、 SEX、 MATH、 CHINESE和 AVG 数据集要有名字,变量要有名字, SAS中对名 字(数据集名、变量名、数据库名,等等) SAS名字由英文字母、数字、下划线组成, 第一个字符必须是字母或下划线,名字最多 用 8个字符, 大写字母和小写字母不区分 。 比如, name, abc, aBC, x1, year12, _NULL_等是合法的名字,且 abc和 aBC是同 一个名字 class-1(不能有减号)、 a bit(不能有空格)、 serial#(不 能有特殊字符)、 Docum

14、ents (超长)等不是合法的名字。 逻辑库 SAS系统将所使用的文件以库的形式组织起来,而数据集则存 放在一个库中,这个库就称为 逻辑库 。 libname命令就用于指定库标记。 其一般格式为: Libname 库名称 文件夹位置 选项; 例如 libname a d:sysdata; data a.aaaa; input x ; cards; 1 2 3 4 5 ; proc print; var x; run; quit; 第一行就指定 d:sysdata为逻辑库位置,其名称为 a. 引用在逻辑库中数据集时要使用两级名 称来指定,第一级为库名称,第二级为数据 集名,中间用句点“ .”隔开

15、。即用 库名称 .数据集名 的格式来引用该数据集。 仍然是上面的例子,第 2 6句新建一个 数据集,数据集名称为 aaaa,就可用 a.aaaa来 引用该数据集。 数据步 的基本结构 数据步均以 DATA语句开始,用于创建和处理数据集。 数据步中常用的语句如下表: 表 2 数据步的常用语句 语句 格式 功能 DATA语句 DATA 数据集名 ; 数据步的开始,同时命名将 要创建的数据集 INPUT语句 INPUT 变量名 ; 确定变量的读入格式,即确 定输入的数据所对应的变 量 语句 格式 功能 CARDS或 DATALI NES语 句与数 据块 CARDS; 数据块 ; 或 DATALINE

16、S; 数据块 ; CARDS与 DATALINES功能相 同,均用于标志数据块的 开始 INFILE语 句 INFILE 文件名 选项 ; 从外部文件中读入数据块 OUTPUT语 句 将所读入的数据存放在缓存 中,也可用 OUTPUT语句 强制输出一条新记录 SET语句 对数据集中的数据进行编辑, 也可将指定数据集的内容 复制到新建数据集中 下面是几个例子。 Data语句: Data abc; data work.abc data sasuser.abc; data a.abc; INPUT语句 : Input x y z; /*输入变量 x,y,z*/ Input x1-x10; /*输入

17、10个变量 x1到 x10*/ Input x$y; /*输入变量 x,y,符号 $指明 x为 字符变量, 表示数据是连续读入 */ 完整例子: libname a d:sysdata;/*设定逻辑库,库名为 a*/ data a.aaaa; /*建立数据集,其名为 aaaa*/ input x ; /*输入变量 x, 表示数据是连 续读入 */ cards; /*准备输入数据 */ 1 2 3 . 5 ; /*输入数据 ,注意有缺失值(缺失值用单独的小 数点代表) */ 五、 SAS程序的 过程步 SAS程序的过程步就是用于 实现各种统计分 析功能 的 SAS命令,我们只需要按照其格 式调用

18、它们。过程步总是以一个 proc语句开 始,后面紧跟着过程步名。下表列出一些 常用的过程步名及功能。 过程步名 功能 Sort 将数据集按指定变量排序 Print 将数据集中数据列表输出 Gchart 绘统计图 Univariate 对指定的数值变量作详细的统计描述 Means 对指定的数值变量作简单的统计描述 Freq 对指定的分类变量作统计描述和检验 Npar1way 非参数检验 Ttest 进行 t检验 Anova 进行方差分析 GLM 拟合一般线性模型 REG 拟合线性回归模型 Corr 进行相关分析 Logistic 拟合 Logistic回归模型 Phreg 拟合 cox比例风险模

19、型 过程步的基本结构 SAS过程步的一般形式为: PROC 过程名 DATA=输入数据集 选项 ; 过程语句 / 选项 ; 过程语句 / 选项 ; RUN; 其中 PROC语句的选项是可选的,用来规定过程运行的一些设置, 如果有多个选项用 空格分开 。 DATA=输入数据集也是可选的, 如果缺省的话使用最近生成的数据集。过程步一般以 RUN 语 句结束 。通常情况下,过程语句与数据步中的语句不同,数据 步中的语句不能用在过程步中。 过程步语句一般以某一个关键字开头,比如 VAR、 BY、 TABLES、 WEIGHT等,语句中有一些有关说明,如果有选择项的话要写 在斜杠后。 SAS过程步常用语

20、句 1.DATA选项 用于指明所需要处理的数据集,如果缺省的话使用最 近生成的数据集。 2.VAR语句 VAR语句在很多过程中用来指定分析变量。在 VAR后 面给出变量列表: VAR 变量名 1 变量名 2 变量名 n; 变量名列表可以使用省略的形式,如 X1-X3, MATH-CHINESE等。例如: Proc print; var math chinese; run; 3.MODEL语句 MODEL语句在一些统计建模过程中用来 指定模型 的 形式。其一般形式为 MODEL 因变量 自变量表 / 选项 ; 比如 ,将下列语句放在某一过程步中 model math=chinese; 则用语文成

21、绩预测数学成绩。 4.BY语句和 CLASS语句 5.OUTPUT语句 6.FREQ语句和 WEIGHT语句 7.ID语句 8.WHERE语句 9.LABEL语句和 FORMAT语句 六、 SAS语言入门 SAS是一种专用的数据处理、统计计算语言,但是它也包含一 般的高级语言编程能力并扩充了许多数学、统计等方面的函数。 由于 SAS的数据处理功能非常强大,我们并不提倡用它来编复 杂的程序,因此,我们只介绍 SAS语言用来进行一般编程计算 的功能。 SAS语言的编程计算能力主要由 SAS数据步提供(另外 SAS还 提供了一个 SAS/IML模块可以进行向量、矩阵运算)。 下面给出的例子如果没有写

22、 DATA语句实际应该在例子前面加 上 DATA语句,在后面加上 RUN语句才能运行。 DATA语句总是以关键字 DATA 开头 ,后面给出一个数据集名, 就是本数据步要生成的数据集的名字: data tmp1; 也可以省略数据集名,这时 SAS自动生成一个临时数据集名。 1赋值语句 在 SAS中用赋值语句计算一个值并存放到变量中。 格式为 变量名 表达式 ; 例如: avg = (math + chinese/120*100)/2;/* 计算平均分数 , 赋值给变量 avg*/ isfem = (sex=女 ); /*先生成一个取值为 0或 1的值,性 别为女时为 1,否则为 0*,然后赋值

23、给变量 isffem*/ newv = .; /*将变量赋了缺失值 */ 注意想试验上述语句要把它们放入数据步中,并且等 号右边的表达式中的各变量应该是存在的,否则会 得到缺失值结果。 2.输出语句 SAS数据步的输出一般是数据集,用赋值语句 计算的结果会自动写入数据集。 SAS也提供了一个 PUT语句,可以象其它语言 程序的 PRINT、 WRITE(*,*)、 printf等语句一 样立即打印输出结果。 PUT的基本语法很多 ,只举几例: data; x=0.5; y=sin(x); put Sine function value of x is y; run; 结果将在运行记录窗口显示一

24、行 Sine function value of 0.5 is 0.4794255386 在 PUT语句中使用“变量名”来指定输出项 可以显示带有变量名的输出结果,比如把上 程序中的 PUT语句改为 put x= y=; 则结果在 LOG窗口显示为 X=0.5 Y=0.4794255386 分支结构 如果需要在某条件满足时执行某一操作,可以用 IF 条件 THEN 程序块 ELSE 程序块 的结构,其中 Else语句及其后的程序块可以省略。需 要注意的是,如果程序块只有一句,则可直接写出, 否则应以 DO开始 ,以 END结束 。 比如, if max(a)20 then p=0; else

25、p=1; 上述程序当 max(a)0 THEN DO; PUT X为正数 ; x = 2*x; PUT x=; END; 注意 SAS的分支结构的写法与其它语言有些不同,它 不用 ENDIF结束。 循环结构 SAS数据步可以使用循环结构,主要的是两种: 计数 DO循环和当型、直到型循环。 计数 DO循环的写法是: DO 计数变量 起始值 TO 结束值 BY 步长 ; 循环体语句 END; 在循环体中可以用 LEAVE语句跳出循环,相 当于 C语言的 break语句 ;用 CONTINUE语句可 以立即结束本轮循环并转入下一轮循环的判 断与执行 . 当型循环 的语法是: DO WHILE(循环继

26、续条件 ); 循环体语句 END; 程序先判断循环继续条件是否成立,成立时执行循环 体语句,再判断循环继续条件,如此重复,直到循 环继续条件不再成立。 直到型循环 的写法是: DO UNTIL (循环退出条件 ); 循环体语句 END; 程序先执行循环体,然后判断循环退出条件是否成立, 成立则结束循环,否则继续。注意每轮循环都是先 执行循环体再判断是否退出。 如: data; DO i = 1 TO 20 BY 2; j = i*3; put i 3. j 5.; END; run; 可以输出一个 1, 3, 5, 7, , 19的立方表。 七、 SAS的基本统计分析功能 SAS Analys

27、is 模块 前面我们已经对 SAS系统进行了简要的介 绍,下面我们讲如何利用 SAS Analysis 模 块计算描述统计量、进行假设检验、拟合 曲线以及进行回归分析 1、启动 Analyst模块 选择 Solutions菜单下的 Analysis,然后再选择下面 的 Analyst,如图: 得到 Analyst界面 2、数据集相关操作 一、依分布产生数据 利用 Data菜单中 Random Variates可以产生服从特定 分布的随机数,可以选择的分布类型包括: 正态分布 均匀分布 二项分布 卡方分布 泊松分布 指数分布 Beta分布 Gama分布 几何分布 极值分布 例 1、利用 Anal

28、yst模块生成 100个服从标准正态分 布的数据,并把生成的数据命名为 Normal保存在 Sasuser下。 操作步骤: ( 1)在 Data菜单中选择 Random Variates,然后选 择分布类型 Normal(正态分布),则弹出现一 对话框: ( 2)在 Number of values to generate中填 100, 在 New column name (变量名称)中填 X,在 Mean中填 0,在 Standard deviation 中填 1,单击 OK ( 3)可以看到数据集中产生了新的一列,在 File 菜单中选 Save As By SAS Name,保存数据集

29、( 4)在弹出的对话框中双击 Sasuser,并在 Member Name中填数据集名称 Normal,单击 Save即可 二、随机抽样 使用 Data中 Random Sample可以从数据集中 随机抽取记录。 例:在刚才生成的正态数据集 normal中随机抽 取 50个数据。 步骤如下: ( 1)首先选择 Data菜单下 Random Sample命 令,弹出对话框: ( 2)在 Rows中填 50,单击 OK即可得到一个表格含 有随机抽取的 50个样本,如图: 3、绘制统计图 一、绘制变量直方图并在图上拟合分布曲线 利用 Grphs中 Histogram可以绘制变量直 方图并拟合分布曲线

30、。 例:以上节 normal数据集中 X为对象绘制直方 图,并在直方图上拟合正态分布曲线。 操作步骤: ( 1)打开 Normal文件: FileOpen By SAS NameSasuserNormalOK ( 2)在 Grphs下选 Histogram,单击绘图变量 X,再单 击 Analysis将其加入 ( 3)选择 Fit在直方图上拟合正态分布曲线,单击 Fit 弹出对话框 ( 3)选择 Normal,单击 OK回到原对话框,再单击 OK即得: 二、概率图 在直方图基础上我们可以猜想变量是服从 正态分布的,通过绘制概率图可以来证实我 们的想法。概率图将数值排序,给出每个数 值对应的分位

31、数,然后打点作图。如果这些 点呈现线性特征,说明他们与理论分布相符, 同时又在图像上加上一条给定分布的曲线, 并给出分布的系数。 例:绘制 Normal数据集中 X的概率图,步骤如下: ( 1)首先选择 Graphs下 Probality Plot,弹出对话框 ( 2)单击 X,再单击 Analysis,然后选择分布为 Normal,单击 Ok得到概率图: 可以看到 X的分布与正态分布基本 吻合,图中还给出了正态分布的参数:均 值为 0.06217,标准差为 0.996833。 一、绘制散点图 使用 Graphs下的 Scatter Plot可以绘制散点图 例:病人在服用某种放射性药物后,体内

32、的放射性物质 的含量 y与时间 x具有一定的关系,绘制二者的散点 图,然后找出他们的关系,数据如下: x 1 2 3 4 5 6 7 8 9 10 11 y 37 14 5 1.83 0.67 0.24 0.09 0.03 0.01 0.004 0.001 1、首先将数据输入建立一个名为 Test的数据集,然后 在 ANALYST模块下打开 2、然后打开 Scatter Plot对话框 3、在绘制散点图对话框中将 x放在 X轴, y放在 Y轴,单 击 OK可以得到二者的散点图,为容易观察,可在 Display中选择用线连接散点图 4、绘制的图形如下,可以看到放射性物质的含量和时 间具有负指数衰

33、减关系 4、统计分析与计算 一、计算描述性统计量 利用 Statistics 的 Descriptive菜单可以计算 描述性统计量, Descriptive下有 4个选项: Summary Statistics计算简单统计量 Distribution 计算分布信息 Correlations 计算变量间的相关系数 Frequency Counts统计变量的频数 例 1:计算上例 Test中放射性物质 y的简单统计量 1、打开 Test数据集,选 Statistics Descriptive Summary Statistics,出现对话框,选择 y分析 : 2、在 Statistics中设置需要

34、计算哪些统计量,单击 OK即 可得所需统计量。 3、输出结果如下 例 2:计算 x与 y间的相关系数 1、打开 Test数据集,选择 Statistics Descriptive Correlations,在对话框中将 x与 y选入 Analysis,然后 单击 OK 2、输出结果如下,可见 x与 y间的相关系数为 -0.70152 二、列联表分析 使用 Statistics菜单下的 Table Analysis可以进行列 联表分析(即属性频数数据分析 ) 例 1:为了考察法院判决是否与被告种族有关,调查了 326位被告的判决情况如表所示 : 黑人 白人 有罪 17 19 无罪 149 141

35、 1、首先建立数据集 Data panjue ; Input A B freq;*其中 A取 1表有罪, 2无罪; B取 1表黑人, 2表白人 * Cards; 1 1 17 1 2 19 2 1 149 2 2 141 ; Run; 2、选择 Table Analysis,打开对话框 3、将 A放在 Row,将 B放在 Column,将 freq放在 Cell Counts 4、在 Statistics中设置 Exact Test检验,单击 OK 5、结果如下,大致分为 3部分,第一部分是频数和列百分比表; 第二部分是四种检验方法结果, p值都大于 0.15水平;第三部 分是 Fisher精

36、确检验结果, p值位 0.7246,远远大于 0.15,可 见判决情况与被告种族是没有关系的。 5、假设检验 在 Statistics菜单下的 Hypothesis Tests可以进 行各种假设检验,大致可以分为单样本检验 和两样本检验,其中单样本包括: 单样本均值 Z检验: One Sample Z Tests 单样本均值 t检验: One Sample t Tests 单样本比例检验: One Sample Proportion Tests 单样本方差检验 : One Sample test for a variance 两样本的检验包括 两样本均值 t检验: Two Sample t T

37、est For Means 成对样本均值 t检验 :Two Sample paired t test for means 两样本比例检验 :Two Sample test for proportions 两样本方差检验: Two Sample test for Variance 2. 正态总体均值的假设检验 一、单个总体 N(,2)均值 的检验 1.已知时的 检验( 单样本均值 Z检验: One Sample Z Tests ) 例 2 某车间用一台包装机包装葡萄糖。包得的袋装 糖重是一个随机变量,它服从正态分布。当机器 正常时,其均值为 0.5公斤,标准差为 0.015公斤。 某日开工后为检

38、验包装机是否正常,随机地抽取 它所包装的糖 9袋,称得净重为(公斤): 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 问机器是否正常? 解 按题意需检验假设 操作步骤: ( 1)首先输入数据,程序为 data u_weight; input weight; cards; 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 ; run; 运行上述程序。 0 0 1 0: 0 . 5 , : .HH (2)选择 SolutionsAnalysisAnalyst 菜单, (3)选择

39、FileOpen By SAS NameWorku_weight, (4) 选择 StatisticsHypothesis, (5) 选择 One-Sample z-test for a mean,出现图 2, 图 2 u-检验的变量设置 ( 6)在图 2的窗口中设置变量,我们选择变 量为 weight,Null:Mean处是零假设,填入 0.5, Alternate处是备择假设,我们选, Tests 按钮可以选择显著性水平 ,默认是 0.05, Std.Dev.处填入标准差 0.015。 ( 7)单击 OK,产生输出结果。 One Sample Z Test for a Mean Sampl

40、e Statistics for weight N Mean Std. Dev. Std. Error - 9 0.51 0.01 0.00 Hypothesis Test Null hypothesis: Mean of weight = 0.5 Alternative: Mean of weight = 0.5 With a specified known standard deviation of 0.015 Z Statistic Prob Z - - 2.244 0.0248 结果分析: 由上可见,平均值为 0.51,标准差为 0.01,z统 计量是 2.244, Prob Z的值为

41、 0.0248 =0.05,因此应该拒绝 H0,即认为这天包装机 不正常。 2.未知时的 检验( One-Sample t-test for a mean ) 例 3.某种电子元件的寿命 x(以小时计 )服从正态 分布 , , 2均未知 ,现测得 16只元件的寿命如 下 : 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于 225(小 时 )? 解 按题意需检验假设 操作步骤: ( 1)首先输入数据,程序为 data lifetest; input life; cards; 0.4

42、97 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 ; run; 0 0 1 0: 2 2 5 , : .HH (2) 选择 SolutionsAnalysisAnalyst 菜单, (3) 选择 FileOpen By SAS NameWorklifetest, (4) 选择 StatisticsHypothesis, (5) 选择 One-Sample t-test for a mean,出现图 3, 图 3 t-检验的变量设置 ( 6)在图 3的窗口中设置变量,我们选择变 量为 life,Null:Mean处是零假设,填入 225, Al

43、ternate处是备择假设,我们选 =, Tests 按钮可以选择显著性水平 ,默认是 0.05。 ( 7)单击 OK,产生输出结果。 One Sample t-test for a Mean Sample Statistics for life N Mean Std. Dev. Std. Error - 16 241.50 98.73 24.68 Hypothesis Test Null hypothesis: Mean of life 225 t Statistic Df Prob t - 0.669 15 0.2570 结果分析: 由上可见,平均值为 241.50,标准差为 98.73,

44、 标准偏差为 24.68, t统计量是 0.669, Prob t 的值为 0.2570=0.05,因此应该接受 H0,即 认为元件的平均寿命不大于 225小时。 二、两个正态总体均值差的检验 例 4.在平炉上进行一项试验以确定改变操作方法的建议 是否会增加钢的得率 ,试验是在同一只平炉上进行的 . 每炼一炉钢时除操作方法外 ,其它条件尽可能做到相同 . 先用标准方法炼一炉 ,然后用建议的新方法炼一炉以后 交替进行 ,各炼了 10炉 ,其得率分别为 : 1.标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 2.新方法 79.1 81.

45、0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两个样本相互独立 ,且分别来自正态总体 N(1, 2)和 N(2, 2), 1, 2, 2均未知 .问建议的新的操作方法能 否提高得率 ?(取 =0.05)(Two-Sample Paired t-test for a mean) 解 按题意需检验假设 操作步骤: ( 1)首先输入数据,程序为 data mydata; input olddata newdata; cards; 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 ; run; 0 1

46、2 1 1 2: 0 , : 0 .HH (2) 选择 SolutionsAnalysisAnalyst 菜单, (3) 选择 FileOpen By SAS NameWorkmydata, (4) 选择 StatisticsHypothesis, (5) 选择 Two-Sample Paired t-test for a mean,出现图 4 图 4 两个样本 u-检验的变量设置 (6)在图 4的窗口中设置变量,依次选择两个变 量 ,零假设处填入 0, Alternate处是备择假设, 我们选 0, Tests按钮可以选择显著性水 平 ,默认是 0.05。 ( 7)单击 OK,产生输出结果。

47、 Two Sample Paired t-test for the Means of olddata and newdata Sample Statistics Group N Mean Std. Dev. Std. Error - olddata 10 76.23 1.8233 0.5766 newdata 10 79.43 1.4915 0.4717 Hypothesis Test Null hypothesis: Mean of (olddata - newdata) = 0 Alternative: Mean of (olddata - newdata) t - -4.202 9 0.

48、0012 结果分析: 由上可见, t统计量是 -4.202, Prob t 的值为 0.0012 =0.05,因此应该拒绝 H0,即认为新 方法比标准方法为优。 3. 正态总体方差的假设检验 由于在 SAS中,单个总体与两个总体的情况在 操作上差不多,下面只举两个总体的情况。 例 5 对例 4中的数据检验假设 (取 =0.01) (Two-Sample Test for Variances) 2 2 2 2 0 1 2 1 1 2: , : .HH 操作步骤: (1) 首先输入数据,我们就利用前面输入的数据集 mydata。 (2) 选择 SolutionsAnalysisAnalyst 菜单

49、, (3) 选择 FileOpen By SAS NameWorkmydata, (4) 选择 StatisticsHypothesis, (5) 选择 Two-Sample Test for Variances,出现图 5 图 5 两个样本的方差检验 ( 6)在图 5的窗口中设置变量,选择 Two variables(两个变量 ),依次选一个变量,按 Group1按钮及 Group2按钮, Alternate处是 备择假设,我们选 1, Intervals按钮可以 选择显著性水平 ,默认是 0.05,我们选 0.01。 ( 7)单击 OK,产生输出结果。 Two Sample Test fo

50、r Variances of olddata and newdata Sample Statistics Group N Mean Std. Dev. Variance - olddata 10 76.23 1.8233 3.324556 newdata 10 79.43 1.4915 2.224556 Hypothesis Test Null hypothesis: Variance 1 / Variance 2 = 1 Alternative: Variance 1 / Variance 2 = 1 - Degrees of Freedom - F Numer. Denom. Pr F -

51、 1.49 9 9 0.5590 结果分析: 由上可见, F统计量是 1.49, Pr F的值为 0.5590=0.01,因此应该接受 H0,即认为两 总体方差相等。 6、回归分析 利用 Statistics菜单下的 Regression可以进行 回归分析,包括: Simple回归 :单一的自变量,单一的因变量, 但自变量次数可以是一次、二次或三次 Linear回归 :多个自变量,多个因变量,但是 对因变量分别进行回归 一、 Simple回归 例 1:著名统计学家 K.Pearson收集大量父亲身高 x与儿子身高 y的资料,其中 10对数据如下: X 60 62 64 65 66 67 68

52、70 72 74 Y 63.6 65.2 66.0 65.5 66.9 67.1 67.4 68.3 70.1 70.0 假设对给定的 x, y为正态变量,且方差与 x 无 关,求回归方程 y=a + bx,并指出回归效果是否 显著。(显著水平取 0.05) 1、首先建立数据集 : data sasuser.reg; input x y; cards; 60 63.6 62 65.2 64 66.0 65 65.5 66 66.9 67 67.1 68 67.4 70 68.3 72 70.1 74 70.0 ; run; 2、再利用菜单完成回归分析 : (1) 选择 SolutionsAna

53、lysisAnalyst 菜单, (2) 选择 FileOpen By SAS Namesasuserreg (3) 选择 StatisticsRegression, (4) 选择 Simple Linear Regression出现一窗口 (5) 在出现的窗口中设置变量,我们选择变量 dependent为 y,选择 Explanatory为 x, Model处选 择 Linear, Tests按钮可以选择显著性水平 ,默认是 0.05。 。 (6) 单击 OK,产生输出结果 首先由模型的方差分析表可以看到, Prob F 的值为 0.0001 F 的值为 0.0001=0.05,因此该回归方程显 著 ,再由下面的参数估计可以得出回归方程为 : y=-10.13-0.05x1+0.59x2+0.29x3 但从数表来看,随着国内生产总值( X1)的 增加进口总额( y)也增加,所以该方程并不 一定是真实的反映了他们间的关系。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!