SAS过程步操作基础

上传人:san****019 文档编号:21522524 上传时间:2021-05-03 格式:PPT 页数:46 大小:205.51KB
收藏 版权申诉 举报 下载
SAS过程步操作基础_第1页
第1页 / 共46页
SAS过程步操作基础_第2页
第2页 / 共46页
SAS过程步操作基础_第3页
第3页 / 共46页
资源描述:

《SAS过程步操作基础》由会员分享,可在线阅读,更多相关《SAS过程步操作基础(46页珍藏版)》请在装配图网上搜索。

1、SAS过程步操作基础薛 富 波2006/04/23 有关过程步程序的基本概念 过程步(proc step)的概念n过程步是指用以调用某个SAS过程(SAS procedure)的一组SAS语句所构成的相对独立的程序单元。n过程步均以SAS系统中包含的各类过程(procedure)为基础,其中所能包含的语句和语句中的选项均表现为相对固定的形式,取决于所调用的具体过程。n用户所能调用的SAS过程取决于安装SAS时所包含的模块。n不同的SAS模块包含着执行相应功能的一个或多个SAS过程。 过程步程序的一般结构n以proc语句开始、run语句结束;n过程步程序包含以下三方面的内容: (1)proc语句

2、,其中包含proc关键字、所要使用的过程名以及所要处理的数据集等; (2)其它用于定义分析操作内容的语句,如class语句、var语句、tables语句等; (3)run语句,用于标志当前过程步程序的结束。如果此过程步后紧随其它过程步或数据步,run语句可省略。 proc语句n每一个过程步都以proc语句开始;n proc语句以proc关键字开始,紧跟其后的是所调用SAS过程的名称,语句中还可包括众多的控制选项;n多数SAS过程的proc语句中均包括“data=”选项,用以指定该SAS过程所要处理的数据集;n不同的SAS过程,其proc语句中所包含的语句选项也各不相同。 BASE模块SAS过程

3、的功能与操作 BASE模块所含过程的功能分类n报表输出过程:用以显示各种实用信息,包括数据列表、汇总报告、日历、书信、标签、表单以及各种图形报表等。n统计计算过程:用以计算各种基本统计量,包括均数、标准差等基于矩的统计量,分位数,可信区间,频数等;还可编制交叉表、进行相关分析以及针对各种分布形式的假设检验;此外还可对数据进行编秩及标准化等操作。n实用工具类过程:此类过程为用户提供各类实用工具,可实现的功能包括对数据集的创建、编辑、排序以及转置等操作,创建和恢复数据交换文件,创建用户自定义的格式,维护SAS文件等。 n某些SAS过程同时兼备上述分类的两项以上功能,如means过程、freq过程等

4、既具有统计计算功能,又具有报表输出功能。 报表输出过程CALENDAR MEANS SQLCHART PLOT SUMMARYFORMS PRINT TABULATEFREQ REPORT TIMEPLOT 统计计算过程CHART RANK SUMMARYCORR REPORT TABULATEFREQ SQL UNIVARIATEMEANS STANDARD 实用工具类过程APPEND COPY FORMAT PDSCOPY SORTBMDP CPORT FSLIST PMENU SOURCECATALOG CV2VIEW IMPORT PRINTTO SQLCIMPORT DATASETS

5、 OPTIONS PRTDEF TAPECOPYCOMPARE DOCUMENT OPTLOAD PRTEXP TAPELABELCONTENTS EXPLODE OPTSAVE REGISTRY TEMPLATECONVERT EXPORT PDS RELEASE TRANSPOSE BASE中若干常用的SAS过程n contents:显示SAS数据集的有关属性信息,帮助用户了解自己的数据;n print:将数据集中全部或指定的部分变量、以及全部或指定的部分观测输出显示;n means:针对数值型变量计算其各种描述性统计量;n sort:根据一个或多个变量,对数据集的全部观测进行排序。n i

6、mport过程:从外部文件读取数据并创建SAS数据集; n export过程:从SAS数据集读取数据并将其写入外部文件;n printto过程:指定output窗口及log窗口的输出路径。 contents过程n contents过程用于显示指定的SAS数据集的有关信息或者相应逻辑库中所包含成员的列表信息。n对于指定的SAS数据集,contents过程将列出数据集的各种属性信息,以及所包含的全部变量及其属性。n有关变量信息的列表将按照字母顺序排列,变量属性信息包括变量类型、长度、标签以及格式等。n contents过程的一般形式如下: proc contents data=SAS-data-s

7、et options; run; proc contents语句的主要选项n detials|nodetials :用于控制显示结果的详尽程度。前者将显示上述的全部内容,后者则仅显示有关变量信息的部分。默认设置:detials。n varnum :要求将变量按照其在数据集中的排列顺序而非字母顺序显示。n short :有关变量信息部分仅显示变量名称,不显示变量属性。n out= :将输入数据集中有关变量的信息存储到指定的数据集中。 n noprint :禁止程序运行结果在output窗口的输出显示。 contents过程示例proc contents data=sashelp.class va

8、rnum;run;proc contents data=sashelp.class nodetails;run; print过程n print过程用于将数据集中的全部或特定内容输出显示。n可通过特定语句实现对选定列(变量)和特定行(观测)的输出显示。n print过程功能特性:自动格式化,以变量名称或标签为列标题,选择性输出,特定的by格式以及id格式。n print过程的一般形式: proc print data=SAS-data-set options; other statements; run; proc print语句的主要选项n label :使用变量标签作为列标题,否则变量名称将

9、被用作列标题显示。n n :在输出结果的末尾显示观测总数,如果同时设置“=string”项,“string”将同观测总数一同显示。n noobs :禁止显示观测编号列。n obs= :为观测编号列指定作为列标题的标签。 print过程支持的其它语句n by语句:分区显示各by分组(使用by语句需首先对输入数据集按照by变量进行排序)。n id语句:指定一个或多个用以标识观测的变量,替代观测编号的作用。n sum语句:指定一个或多个数值型变量,输出结果中将显示其合计值。n sumby语句:指定一个by变量,以此by变量对数据集的不同分组中,分别进行sum变量的合计值计算与显示。 n var语句:

10、指定所要输出显示的变量。n Where语句:筛选所要显示的观测。 print过程示例data test; do i=1 to 20; do j=1 to 5; x=i*j/2; y=i*2*j; t=sqrt(i*j); output; end; end; label x=one y=tow t=three;run; proc sort data=test; by j;run;proc print data=test label obs=number of observation; by j; sum t; sumby j; var t x y;run; means过程n means过程主要执

11、行数据汇总的功能,与univariate过程有众多相似之处;n可对全部观测或在指定的分组内对指定(或默认)的变量计算各种指定(或默认)的描述性统计量;n means过程还可对样本的分布位置(对应于均数为零的无效假设)执行t检验的功能; n means过程还可创建有关描述性统计量的输出数据集。 means过程的一般形式n means过程的一般形式: proc means data=SAS-data-set statistic_keywords options; other statements; run; n proc means语句中除包含众多的选项外,还可包含各种统计量关键字(“statis

12、tic_keywords”项),用来指定means过程所要计算的统计量。 proc means语句的主要选项n missing:将class变量的缺失值作为合法的水平用以创建代表分组的组合;n fw=:指定输出结果中显示有关统计量的列的宽度;n maxdec=:指定一个08的整数,用以设置输出结果中有关统计量的最大小数位数;n noprint:禁止在结果窗口显示任何分析结果;n alpha=:指定均数可信区间的置信水平,默认值为0.05。 means过程可计算的统计量(一)关键字所代表的含义关键字所代表的含义N有效数据记录数MAX最大值NMISS缺失数据记录数MIN最小值MEAN均数RANGE

13、全距STD标准差SUM总计STDERR标准误SUMWGT加权总计VAR方差CSS校正的离均差平方和 MEDIAN中位数USS未校正的离均差平方和CV变异系数CLM可信限(上、下界值) means过程可计算的统计量(二)关键字所代表的含义关键字所代表的含义LCLM可信限下侧界值QRANGE四分位数间距UCLM可信限上侧界值P1第一百分位数SKEW偏度P5第五百分位数KURT峰度P10第十百分位数T分布位置假设检验之t统计量(对应的零假设为“M=0”)P90第九十百分位数PROBT上述t统计量对应的双侧检 验概率值P95第九十五百分位数Q1第一四分位数P99第九十九百分位数Q3第三四分位数 mea

14、ns过程可用的其它语句n by 语句:按照by变量的取值分割数据集,每个子集分别进行分析。n class 语句:指定用于分组的变量,可指定一个或多个。n freq 语句:指定用以作为观测频数(重复次数)的变量,该变量的取值表示当前观测被扩增的倍数。n output 语句:将分析所得的各类统计量存储到指定的输出数据集中。 n var 语句:指定所要分析的变量。n weight 语句:指定作为权重的变量,进行各种加权统计量的计算。 means过程示例data test; do i=1 to 3; do j=1 to 2; do k=1 to 30; x=abs(ranuni(0)*10+8; y=

15、x*1.5; output; end; end; end;run;proc means data=test mean median std var cv t probt; class i j; var x y; output out=outdata mean(x y)=mx my std(x y)=sx xy;run; sort过程n sort过程用于对SAS数据集的观测按照一个或多个变量的观测值进行排序,排序后的数据可存为新的数据集,也可直接替换原有数据集。n sort过程可根据一个或多个变量进行排序操作,升序或降序可由用户自定义。n在windows和unix系统中,sort过程的排序操作依

16、照ASCII码的排列顺序为准。 字符排列顺序n字符型变量: blank ! “ # $ % ? A B C D E F G H I J K L M N O P Q R S T U V W X Y Z _ a b c d e f g h I g h I j k l m n o p q r s t u v w x y z | n数值型变量: 缺失值 (._ . .A to .Z) 数值 ( 依照大小顺序 ) sort过程的形式和语句选项n sort过程一般形式: proc sort data=SAS-data-set options; by var1 ; run;n proc sort语句的几个重

17、要选项: (1)nodupkey:查找在by变量上(观测值)的重复观测并将其从数据集中剔除。 (2)noduprecs:查找重复的观测(两行上所有的变量取值相同)并剔除之。 (3)out=:指定一个输出数据集的名称,用以存储排序后的数据,否则原有数据将被替换。 n by语句中的升序降序设置:默认情况下by语句中指定的变量将以升序的方式排列观测,如需将其改变为降序排列,在相应变量名前设定descending选项。 sort过程示例data test; input sn x y; datalines; 2 61 90 1 30 25 5 55 62 3 23 21 4 32 38 3 39 16

18、;run;proc sort data=test out=testn nodupkey; by sn;run;proc print data=testn;run; import过程n import过程用于从外部数据文件中读取数据,创建SAS数据集。n import过程可读入诸多类型的外部数据文件来创建新的SAS数据集,其中包括微软的access数据库、excel工作表,lotus的数据文件,以及各种分隔符(空格、逗号等)分隔的数据文件(文本文件等)。 import过程的形式和语句n import过程的形式: proc import options; data source statements

19、; run;n proc import语句的重要选项: datafile=:用以指定外部数据文件的物理路径; table=:用以指定数据库文件中所要读入的数据表(此选项与datafile=选项不可同时使用); out=:用以指定所要创建的数据集名称; replace:如果所要创建的数据集已存在,设置此选项将会以新数据集覆盖已有的数据集; dbms=:用以指定所读入外部数据的格式。windows环境下import过程可读入的外部数据格式见下页。 windows环境下可用的外部数据格式Identifier Input Data Source ExtensionACCESS Microsoft Ac

20、cess 2000 or 2002 table .mdbACCESS97 Microsoft Access 97 table .mdbACCESS2000 Microsoft Access 2000 table .mdbACCESS2002 Microsoft Access 2002 table .mdbCSV delimited file (comma-separated values) .csvDBF dBASE 5.0, IV, III+, and III files .dbf DLM delimited file (default delimiter is a blank) .*EXC

21、EL Excel 2000 or 2002 spreadsheet .xlsEXCEL4 Excel 4.0 spreadsheet .xlsEXCEL5 Excel 5.0 or 7.0 (95) spreadsheet .xlsEXCEL97 Excel 97 or 7.0 (95) spreadsheet .xlsEXCEL2000 Excel 2000 spreadsheet .xlsJMP JMP table .jmpTAB delimited file (tab-delimited values) .txtWK1 Lotus 1-2-3 Release 2 spreadsheet

22、.wk1 WK3 Lotus 1-2-3 Release 3 spreadsheet .wk3WK4 Lotus 1-2-3 Release 4 or 5 spreadsheet .wk4 import过程的数据源语句n数据源语句(data source statements)为import过程读入外部数据时提供更为细致和具体的控制信息。n不同的外部数据格式对应不同类型的数据源语句。 工作表及PC文件对应的数据源语句Data Source Supported Syntax Valid Values Default ValueCSV/TAB GETNAMES= DATAROW=GUESSING

23、ROWS= YES | NO 1 to 327671 to 32767 YES 2NoneDLM GETNAMES= DATAROW=GUESSINGROWS= YES | NO 1 to 327671 to 32767 YES 2NoneDBF GETDELETED= YES | NO NOWK1 / WK3 / WK4 GETNAMES= RANGE= SHEET= YES | NO Range Name or Absolute Range Value, such as A1.C4Sheet Name YES EXCEL EXCEL97EXCEL2000EXCEL2002 GETNAMES

24、= RANGE=SHEET=MIXED=SCANTEXT=SCANTIME=USEDATE=TEXTSIZE=DBSASLABEL= YES | NO Range Name or Absolute Range Value, such as A1.C4Sheet NameYES | NOYES | NOYES | NOYES | NO1 to 32767COMPAT | NONE YES NOYESYESYES1024COMPAT 数据库表对应的数据源语句ACCESS ACCESS97ACCESS2000ACCESS2002 DATABASE= DBPWD=UID=PWD=WGDB=SCANME

25、MO=SCANTIME= USEDATE=MEMOSIZE=DBSASLABEL= The complete path and filename for the MS ACCESS database file. Database passwordUser IDUser passwordThe complete path and filename for the Workgroup Administration file.YES | NOYES | NOYES | NO1 to 32767COMPAT | NONE YESYESNO1024COMPAT import过程示例proc import

26、 datafile=d:officeseminarsas_basecasesstroke1.xls out=stroke1 dbms=excel2002 replace; sheet=stroke1; getnames=yes;run; export过程n export过程执行与import过程完全相反的功能,从SAS数据集读取数据写入指定的外部数据文件(新建)。n可写入的外部数据文件格式与import过程可读入的数据文件格式完全相同。n export过程一般形式: proc export options; data source statements; run; n proc export语

27、句中的选项与import过程的相应选项相对应;n export过程所含的数据源语句多数也与import过程相同或相近。 proc export语句选项n data=:指定要读取的SAS数据集,对应于import过程的out=;n outfile=:指定要写入的外部数据文件,对应于import过程的datafile=;n outtable=:指定要写入的数据库表,对应于import过程的table=;n dbms=:同import过程的相应选项; n replace:同import过程的相应选项。 export过程示例proc export data=stroke1 outfile=d:offi

28、ceseminarsas_basecasesstroke1n.xls dbms=excel2002 replace; sheet=data;run; printto过程n printto过程用于指定SAS程序运行结果以及log窗口内容的显示或存储位置。n默认状态下,SAS程序运行结果显示在output窗口中,log窗口的提示信息显示在log窗口中。n printto过程允许用户将上述的两项内容保存到外部文件中或者SAS的目录条目(catalog entry)中。n printto过程的一般形式: proc printto options; run; proc printto语句选项n log=

29、:指定log窗口内容的显示或存储位置。指定为外部文件时, log窗口内容将被存储到此文件中,log窗口本身不再显示任何内容。设置为log=log时恢复默认显示方式。n print=:指定output窗口内容的显示或存储位置。指定为外部文件时, output窗口内容将被存储到此文件中,output窗口本身不再显示任何内容。设置为print=print时恢复默认显示方式。n new:如果log或output窗口内容目标文件已存在,则清空其中所含的原有内容,仅保存此次新加入的内容;未指定此选项时新内容将被追加到原有内容之后。 printto过程示例proc printto log=d:logfile

30、.txt print=d:outputfile.txt new;run;proc printto log=log print=print;run; 练习1n读入文本文件“data2.txt”,创建数据集data2。n数据说明:数据共5列,前两列为分组因素,取值为1或0,变量名取factor1和factor2,后三列为数值变量,变量名取x1-x3。n目的:按照factor1分层(分割数据集),在每一层内,按照factor2分组,求每一组内变量x1,x2,x3的均数及其95%可信区间、标准差、中位数、四分位数间距、最大值和最小值。创建一个输出数据集,将x1、x2、x3的均数及其95%可信区间保存到

31、该数据集中,输出显示该数据集,观察其中的内容。 n要求:使用means过程,其中使用by语句进行数据分层。 练习2n针对练习1创建的数据集data2,在各层各组内对变量x1-x3进行样本均数与已知总体均数(x1,x2,x3分别对应5,8,12)的比较。n要求:使用means过程,用t检验和可信区间法两种方法完成,并比较所得结果是否一致。n提示:t检验法需要对数据进行适当的变量变换,编制相应的DATA步程序实现此变换过程。 练习3n使用import过程从4个excel文件“stroke1.xls”、 “stroke2.xls”、 “stroke3.xls”、 “stroke4.xls”中读取数据

32、创建数据集stroke1、 stroke2、 stroke3、 stroke4,以subject为匹配依据,将4个数据集横向拼接为一个数据集。n使用export过程将拼接所得的一个完整数据集输出到excel文件“stroke.xls”中,并将相应的工作表命名为“stroke_data”。n注意:4个数据集中除变量subject外,其它4个名称相同的变量UE、HW、LE、Bart分别代表4个时间点上4个指标的测量值,因此不可在拼接数据集时相互覆盖,需在拼接之前分别更换为不同的变量名称。 练习4n使用printto过程,将log窗口内容和output窗口内容输出到某个文本文件(不同的文件或相同的一个文件)中,重复练习1和练习2的操作,浏览输出的结果文件的内容。n将log窗口和output窗口的显示设置恢复为默认状态。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!