SAS中多元线性回归ppt课件

上传人:无*** 文档编号:148137602 上传时间:2022-09-04 格式:PPT 页数:37 大小:267KB
收藏 版权申诉 举报 下载
SAS中多元线性回归ppt课件_第1页
第1页 / 共37页
SAS中多元线性回归ppt课件_第2页
第2页 / 共37页
SAS中多元线性回归ppt课件_第3页
第3页 / 共37页
资源描述:

《SAS中多元线性回归ppt课件》由会员分享,可在线阅读,更多相关《SAS中多元线性回归ppt课件(37页珍藏版)》请在装配图网上搜索。

1、用SAS进展回归分析SAS中用于回归分析的过程SAS中用于回归分析的过程reg过程 普通格式为:proc reg 选项;model 因变量=自变量/选项;weight 变量;print 选项;plot 纵轴变量*横轴变量=“符号;proc reg data=forest;model y1-y5=x1-x7;run;reg过程的选项 proc reg语句的选项有data=输入数据集,simple给出简单统计数,corr给出简单相关系数等。Model语句设定线性数学模型。Weight语句给出权系数变量。Print语句打印分析结果。Plot语句作散点图。REG过程的语法格式如下:PROC REG D

2、ATA=选项选项 ;MODEL 因变量名因变量名=自变量名列自变量名列/选项选项;VAR 变量名列变量名列;FREQ 变量名;WEIGHT 变量名;BY 变量名列;OUTPUT .;PLOT /选项;这也不是完全的reg过程的语法,详细语法,可以参考SAS的协助。proc reg data=forest OUTEST=result1 SIMPLE CORR;model y1-y5=x1-x7/selection=stepwise;Plot y1*x1run;程序中全部语句中只需第一行和MODEL语句是必需的,其他都可以省略。MODEL语句,必需语句,定义回归分析模型 VAR语句为可选的,指定用

3、于计算交叉积的变量 PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。【过程选项reg语句的选项】OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。NOPRINT 制止统计结果在OUTPUT视窗中输出。SIMPLE 输出REG过程中所用的每个变量的根本统计量。CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。ALL 等价于MODEL语句加上全部选项,即输出该语句一切选项分析结果。【MODELMODEL语句】语句】MODELMODEL语句定义模型中的因变量、自变量、模型选项及语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变

4、量,结果输出选项。语句中的变量只能是数据集中的变量,任何方式的变换都必需先产生一个新变量,然后用于分任何方式的变换都必需先产生一个新变量,然后用于分析。如析。如X1X1的二次项,不能在模型中直接指定的二次项,不能在模型中直接指定X1X1*X1X1,而,而要产生另一个新变量代表要产生另一个新变量代表X1X1*X1X1,方可引入模型。,方可引入模型。MODELMODEL语句中常用的选项有:语句中常用的选项有:NOINT NOINT 在模型中不拟合常数项。在模型中不拟合常数项。STB STB 输出规范化回归系数。输出规范化回归系数。CLI CLI 输出个体预测值输出个体预测值 的的95%95%可信区

5、间上下限。可信区间上下限。CLM CLM 输出因变量期望值输出因变量期望值(均值均值)的的95%95%可信区间上下限。可信区间上下限。R R 输出个体预测值、残差及其规范误。输出个体预测值、残差及其规范误。P P 输出实践值输出实践值YiYi、预测值、预测值 和残差等。如已选择了和残差等。如已选择了CLICLI、CLMCLM和和R R,那么无需选择,那么无需选择P P。SELECTION=nameSELECTION=name来选择逐渐回归的方法。来选择逐渐回归的方法。【OUTPUT关键字】REG过程中OUTPUT语句的用法和means过程中的用法一样,只是会用到另一些关键字。关键字用来定义需求

6、输出到新数据集中的统计量,常用的关键字及其含义有:PREDICTED因变量预测值(简写为P)RESIDUAL残差(简写为R)L 9 5 M、U95M均数95%可信区间上下限L95、U95个 体 预 测 值95%可信区间上下限STDP期望值的规范误STDR残差的规范误STDI预测值的规范误STUDENT学 生 化 残 差(即残差与规范误之比)【PLOT语句】语句】PLOT语句用于输出变量间的散点图,其用法和语句用于输出变量间的散点图,其用法和GPLOT过程过程中的中的PLOT语句非常类似。语句非常类似。PLOT语句定义的两变量可为语句定义的两变量可为MODEL语句或语句或VAR语句中定义的任何变

7、量。语句中定义的任何变量。SYMBOL选项可选项可定义散点图中点的标志,如定义散点图中点的标志,如SYMBOL=*,那么每个点以,那么每个点以“*表示。表示。proc reg data=forest SIMPLE CORR;model y1-y5=x1-x7/selection=stepwise;Plot y1*x1=*run;逐渐回归分析 在进展逐渐回归分析时,运用MODEL语句中的SELECTION=name选择项,来选择用于进展逐渐回归分析时模型;其中name可以是FORWARD或F;BACKWARD或B;STEPWISE;MAXR;MINR;RSQUARE;ADJRSQ;CP;NONE

8、运用全回归模型。缺省时运用NONE。参考书p123p124,逐渐回归的统计量运用SELECTION=FORWARD或F变量添加法、BACKWARD或B变量减少法、STEPWISE变量增减法,会用到参数slentry与slstay。它们也可以简写为sle与sls。SLE=概率值,入选规范,规定变量入选模型的显著性程度,前进法的默许是0.5,逐渐法是0.15 SLS=概率值,剔除规范,指定变量保管在模型的显著程度,后退法默以为0.10,逐渐法是0.15 最大R2增量法(MAXR)首先找到具有最大决议系数R2的单变量回归模型,其次引入产生最大R2增量的另一变量。然后对于该两变量的回归模型,用其他变量

9、逐次交换,并计算其 R2,假设换后的模型能产生最大R2增量,即为两变量最优回归模型,如此再找下去,直到入选变量数太多,使设计矩阵不再满秩时为止。最小R2增量法(MINR)首先找到具有最小决议系数R2的单变量回归模型,然后从其他变量中选出一个变量,使它构成的模型其他变量所产生的R2增量最小,不断用新变量进展交换老变量,依次类推,这样就会依次列出全部单变量回归模型,最后一个为单变量最正确模型;两变量最小R2增量的挑选类似最大R2增量法(MAXR),但引入的是产生最小R2 增量的另一变量。对该两变量的回归模型,再用其他变量交换,换成产生最小R2增量者,直至R2不能再添加,即为两变量最优回归模型。依次

10、类推,继续找含个或更多变量的最优回归模型等等,变量有进有出。它与R2增量法选的结果不一定一样,但它在寻觅最优模型过程中所思索的中间模型要比本节第种方法多。R2选择法(RSQUARE)从模型语句中的各自变量一切能够子集中选出规定数目的子集,使该子集所构成的模型的决议系数R2最大。要留意 当观测点少、且模型语句中变量数目过多时,程序不能运转,由于过多变量使误差项无自在度,设计矩阵不满秩,所以最多只能从一切能够的变量中选择观测点数减个变量放入模型。本法和修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)分别是按不同规范选出回归模型自变量的最优子集,这类选变量法不是从一切能够构成的变

11、量中,而仅仅从模袖量中穷举。本法的局限性在于 其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么添加观测,要么反复给出不同模型;其二,选最优子集的规范是R2,完全没思索其他规范。修正R2选择法(ADJRSQ)以及Mallows Cp选择法(CP)与R2选择法(RSQUARE)类似,只不过运用的统计量不同。1、变量x和y的观测值如下,X0.10 0.30 0.40 0.55 0.70 0.80 0.95y1518192122.6 23.8 26绘制x和y的散点图。做直线回归。data a1;input x y;cards;0.1

12、0 15 0.30 18 0.40 19 0.55 21 0.70 22.6 0.80 23.8 0.95 26;run;输入数据集:表示数据不换行,延续输入绘制散点图:proc plot data=a1;plot y*x;run;做直线回归:proc reg data=a1;model y=x;run;quit;假设不加quit语句,有时候SAS会不断坚持reg过程的执行形状,而且让cpu占用率为100%。Sum of Squares:离差平方和Mean Squares:均方Pr F:统计量F的值位于F分布的什么概率位置。Df:自在度Intercept:回归方程的常数项。212121()ny

13、 yiiniiniiy yiSyyUQUyyQyySUSyy:样本离差平方和:样本离差平方和U:回归平方和回归和:回归平方和回归和Q:剩余平方和余和:剩余平方和余和yySUr)1/(/rnQrUF一元线性回归一元线性回归2、变量x和y的观测值以及频数如下,1.5 4.531.6 4.552 1.8 4.8242.5 5.513.2 6.182试作直线回归。data a3;input x y w;cards;1.5 4.5 31.6 4.55 21.8 4.82 42.5 5.5 13.2 6.18 2proc reg;model y=x;freq w;run;程序中freq表示这个点反复的次数

14、。也可以用weight替代,表示权系数变量。但freq会自动取整,而weight接受小数部分。5、以下数据是1957年美国旧轿车价钱的调查资料,x表示轿车运用年数,y表示相应的平均价钱,求y关于x的回归方程。提示:先绘制散点图X12345678910Y2651 1943 1494 1087 765538484290226204先绘制散点图,data a5;input x y;cards;1 2651 2 1943 3 1494 4 1087 5 765 6 538 7 484 8 290 9 226 10 204;proc plot;plot y*x;run;得到x和y之间的散点图如下:从上图

15、可以看出,y和x之间呈现出指数关系,于是我们可以采用指数回归模型令,那么化成了线性回归问题。Dataa52;Inputxy;X1=x;Y1=log(y);Cards;126512194331494410875765653874848290922610204;procreg;modely1=x1;run;quit;可以看出,模型是显著的。Intercept和X1的系数也都是显著的。得到y1和x1的回归方程为:y1=8.164585-0.29768x1,而且知道回归效果是高度显著的。Y和x之间的回归方程为:Y=exp(y1)=3514.26exp(-0.29768x)例3 现有20名糖尿病人的血糖

16、(y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的丈量数据列于中,试进展多元线性回归分析 病例号i血 糖 y胰岛素X1生长素X2112.2115.209.51214.5416.7011.43312.2711.907.53412.0414.0012.1757.8819.802.33611.1016.2013.52710.4317.0010.07813.3210.3018.89919.595.9013.14109.0518.709.63116.4425.105.10129.4916.404.531310.1622.002.16148.3823.104.26158.4923.2

17、03.42167.7125.007.341711.3816.8012.751810.8211.2010.881912.4913.7011.06209.2124.409.16平均值10.8517.778.94假设上表的资料已建立文本文件c:userli4_1,调用REG过程拟合多元回归方程,程序如下:Libname a c:user;data a.bk4_1;infile c:userli4_1;input id y x1 x2;proc reg data=a.bk4_1 outest=result1;model y=x1 x2/stb;model y=x1 x2/selection=stepw

18、ise stb;run;quit;MODEL语句中加上STB选项将会给出规范偏回归通径系数,进而可以了解自变数的相对重要性 REG过程中MODEL语句可以交互运用,本例我们建立了两个模型,第一个model没有作变量挑选,建立一个含有两个自变量的方程,并输出规范化偏回归系数。第二个model指定逐渐回归法挑选变量。程序运转的主要结果如下:REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05,模型有统计学意义。模型1含有两个自变量,其截距项和X1检验有统计学意义,X2的检验无统计学意义。模型2为逐渐回归法,只纳入

19、了X1。比较两个模型的决议系数,模型1因含有两个自变量,决议系数比模型2要大,但由于模型纳入了不显著的自变量X2,导致它的调整决议系数反而较小,所以我们选择模型2,回归方程:Y=18.796-0.459X1。运用SELECTION=FORWARD或F变量添加法、BACKWARD或B变量减少法、STEPWISE变量增减法,会用到参数slentry与slstay。它们也可以简写为sle与sls。SLE=概率值,入选规范,规定变量入选模型的显著性程度,前进法的默许是0.5,逐渐法是0.15 SLS=概率值,剔除规范,指定变量保管在模型的显著程度,后退法默以为0.10,逐渐法是0.15 假设要改动变量

20、引入和剔除的规范proc reg data=a.bk4_1;model y=x1 x2/selection=stepwise sle=0.2 sls=0.2 stb;run;quit;练习一、槲寄生是一种寄生在大树上部树支上的寄生植物。它喜欢寄生在年轻的大树上。下面给出了在一定条件下完成的实验中采集的数据,试分析大树年龄和每株大树上槲寄生株数的关系提示:先绘制散点图大树年龄X 3 3 3 4 4 4 9 9 9 15 15 15 40 40槲寄生株数Y 28 33 22 10 36 24 15 22 10 6 14 9 1 1序号序号 1 174.374.3 91.0 91.0 5.76 5.

21、761.31.3108108666617.417.451.251.2 9.5 9.515.3915.3912.612.61 1 2 270.470.4157.0157.0 8.04 8.042.22.2126126686817.217.252.552.524.224.210.8410.84 8.4 8.40 0 3 378.778.7 77.0 77.0 7.94 7.942.02.0114114636317.017.062.962.922.822.813.5713.57 9.8 9.80 0 4 478.978.9 67.0 67.0 6.86 6.861.51.5110110555517.

22、017.064.364.325.125.134.5734.5714.014.03 3 5 549.149.1 91.0 91.0 4.92 4.921.51.5 92 92494916.516.539.339.310.710.7 7.41 7.41 5.6 5.62 2 6 657.657.6219.0219.0 5.56 5.562.52.5 91 91484816.816.837.337.337.337.3 9.12 9.12 2.8 2.80 0 7 753.153.1221.0221.0 7.42 7.423.93.9 90 90454516.816.830.030.027.027.0

23、 8.64 8.64 2.8 2.84 4 8 870.170.1123.0123.0 5.38 5.383.13.1123123595917.017.047.847.834.634.681.6481.6411.211.25 5练习二 为了分析某地域自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本,共测了12个因子,各因子数据列于下表。做因变量y1-y5对自变量x1-x7的逐渐回归,取sle=sls=0.2。其中:山地比例(%);:人口密度(人/);:人均收入增长率(元/年);:公路密度(100m/ha);:前汛期降水量(cm/年);:后汛期降水量(cm/年);:月平均最低温度();:森林覆盖率(%);:针叶林比例(%);:造林面积(千亩/年);:年采伐面积(千亩/年);:火灾频数(次/年)。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!