广义线性模型论文

上传人:桂梅 文档编号:170328615 上传时间:2022-11-20 格式:DOCX 页数:25 大小:97.38KB
收藏 版权申诉 举报 下载
广义线性模型论文_第1页
第1页 / 共25页
广义线性模型论文_第2页
第2页 / 共25页
广义线性模型论文_第3页
第3页 / 共25页
资源描述:

《广义线性模型论文》由会员分享,可在线阅读,更多相关《广义线性模型论文(25页珍藏版)》请在装配图网上搜索。

1、广义线性模型结课论文学院:基础科学学院班级:130802班 学生学号:20132891 学生:白冰指导教师:单娜摘要 基于广义线性模型的本科毕业生去向的分析 摘要:线性回归模型中是要求因变量是定量变量,而不是定性变量。但许多实际 问题中,经常出现因变量是定性变量的情况。Logistic回归分析,处理分类因变 量的统计方法.Logistic回归模型是根据单个或多个连续型或离散型自变量来分 析和预测离散型因变量的多元分析方法,是当前常用统计方法。本文对Logistic回归模型的概况,分类,参数估计进行了分析综述,并用SAS 软件进行数据分析从而对模型进行了评价及对回归系数做了统计推断。得到了很 好

2、的预期效果。关键词:累计 Logistic 回归模型;多项 Logit 模型;最大似然估计;拟合优度检 验目录1. 前言52数据来源及介绍63基本概念93.1 累积 logit 模型 93.2多项logit模型104.实证分析 154.1 数据处理154.2累积Logit分析164.2.1SAS 程序 16422结果分析174.3多项logit模型分析194.3.1SAS 程序 194.3.2结果分析 205综述23参考文献 241.前言高校大学毕业生作为人才资源中较高层次的一类,其就业过程是国家高层次 人力资源配置最为重要的一个环节。当前,大学毕业生就业已成为社会普遍关注 的问题。大学生就业

3、难问题的原因非常复杂,而且还隐含着深层次的社会问题。 在当前新形势下,解决高校毕业生就业难问题也需要政府,学校及整个社会的努 力,要解决这些问题也不能是一蹴而就,只能通过全社会的努力,创新观念,完 善制度和改进工作方式,不断深化改革来完成。大学生毕业之后的不同走向,很 大程度决定定其在大学里的学习方向。大学生明确自己的毕业走向,有利于提高 自己大学学习的效率,以及获取各类就业信息的目的性,从而对自己的大学生活 有一个更好的规划。现在大学生普遍面临巨大的就业压力,从而不可避免的导致了大学生毕业走 向的多样化,为了加深对大学生今后走向的一个初步了解,本文选择了一个含有 40个样本的数据集,因变量为

4、本科生毕业去向,分为3类,分别为工作、读研、 出国留学;考察专业课成绩、英语成绩、性别和月生活费这4个自变量对本科生 毕业去向的影响。使用SAS9.3软件对数据进行址理,利用Logistic回旧分析影响 毕业生去向的因素。2数据来源及介给1、所用数据来源于应用回旧分析第三版第十章课后习题。2、如表所示,数据中包括4 0位本科毕业生相关信息的数据,其中:毕业去向Y: “1”=工作,“2” =读研,“3” =出国留学XI:专业课成绩X2 :英语X3:性别X4 :月生活费40位本科毕业生相关信息序号X1X2X3X4Y195651600226362085013825307002460880850357

5、2651750168585010003795950120028929219502963630850110787519001119078050011282831750213806518503148375060021560900650316759018002176383170011885750750219738609502208666115003logistic 回归比较常用的是因变量为二分类的 logistic 回归,这也是比较简单 的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效” “显效”“痊愈”三类,你当然可以把其中两类进行合并,然后仍然按照二分类 logistic

6、回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息。 而多分类则充分利用了完整的信息,可能提供更多的结果。多分类logistic回归也有两种,一种是有序分类,一种是无序分类。有序和 无序的划分不一定完全按照字面意思理解。比如疗效,听起来似乎是有序的,因 为它是按等级划分的,但真正分析时还是需要结合具体的数据结构、使用条件和 研究目的综合考虑。一般来讲,有序分类的logistic回归可以采用比例优势模型(proportional odds model),又称累积logit模型或累积比数模型。无序分类的logistic回归采用多项 logit 模型(polynomial logit m

7、odel )。基于研究目的与资料类型的不同特点,多水平统计模型有着不同的表达形 式。当所研究的资料为多分类离散型数据时,其相应的多水平统计模型被称作多水平多项式模型,其模型中的函数可以选择logit或者log-log。由于多分类反 应变量分为无序分类与有序分类两种,其多水平模型的具体形式也会有所不同。3.1累稅logit模型其定义如下:Y*=a+1=1其中,Y*表示观测现象的在趋势,它并不能被直接测量,匸为误差项;a表示常 数项,:表示系数项。设结果变量Y为J个等级的有序变量,J个等级分别用1, 2,j表示,XT% x2,Xp)为自变量。记等级为畑,2k)的概率为:P(y=j|x),则等级小于

8、等 于 J(J=l,2,. , k)的概率为:P(ywj| x)=P(y=1| x)+P(y=j|x)o等级小于等于j的累积概率o 做 logit变换: logitPj=logitP(yj|x)=ln j=i,2,.,k-i 有序分类结果的Logistic回归定义为:Plogit*二 logitP(yj|x)=-a/舊用笃=卜 2,., k-1等价于P(ywj|x)=3.2多项logit模型对于有J=1, 2,,J类的非次序反应变量,多项Logit模型可以通过以下Logit形式形容:可修编在多项Logit模型中,Logit是由反应变量中的不重复的类别的对比所形成的。 当反应变量有J类别时多项L

9、ogit模型中便有J 1个Logit 在累积Logistic回归模型 中有J 1个累积Logit函数的截距估计,但是只有一套斜率系数的估计对应自变 量。而在多项式Logit模型中,不仅有J 1个截距而且有J 1套斜率系数估计对应 同套自变量。上式中有每个斜率系数都有两个下角标的原因。其中第个下 角标标志不同的Logit,第二个下角标标志不同的自变量。在有J个类别的多项Logit模型中,J-1个Logit可表述为:In=aj-i+k卜一1其中最后一个类别(即第J个类别)被作为参照类,对于有J个类别的反应变量,归 入因变量中第j类的概率可以有下列公式进行估计:expYaj + 於“仔疋 gYP(y

10、=j|x)=1 + 醴! expY aji +力 Y4实证分析4.1数据处理在数据来源介绍部分,专业课成绩、英语成绩、性别、月生活费分别作为自变 量,其中两门课成绩和月生活费为数值型变量,在此为了应用软件分析方便,将 这三个变量变换成定性变量。X1专业课成绩X2英语成绩X3月生活费6080x1=06080x2=0500800 x3=080以上x1=180以上x2=1800 以上 x3=1对处理过后的数据应用SAS软件来进行累计Logit回归分析。4.2累积Logit分析数据集包含5个变量,y, x1-x4。响应变量y包含响应的等级;累it Logit模 型用来研究本科毕业生毕业去向的影响因素。

11、以下用SAS语句调用Logistic fi程 来拟合这个模型。421SAS程序data work.bai; input y x1-x4;cards;100017100102100111211101210003210011310112301001311111proclogisticdata=work.bai1;freq f;class x1-x4;model y=x1-x4;run ;422结果分析樓型收散找恵滿足收龜准则【ECO衲ME-M比刚优比假设的评窃检验卡方目由度Pr 卡方4业 1004模翌拟合统计呈准则盏距和毎監量AIC&5. D&971. (MSSCES 397S1.02S-2 Lf

12、ft OK5-&. Q4Q.检验全局舉假设:BETAFO卡方自由度W卡方Z2.022540. WQ2评井1 7. 507040 0015Vlald14. 7+5 S40 W53检验比例优比的得分卡方统计量的值是7.7685,相对于4个自由度的卡方分 布这是不显著的(P=0.1OO4),因此说明累积logit模型对于拟合这组数据是合适 的。模型仅有截距项时的AIC、SC和-2ln( L )的值均大于模型中同时含有截距和协变量时的模型,根据其值最小原则,选择协变量进入模型是有效的。模型总体检验结果,包括似然比检验、得分检验和Wald检验,该模型有显著性意义(P卡方1ntercept31-5. M6

13、21. 93151S.52S5 AOT11ntercept21-Z. 1P1O0. T7O35 93390.014Gk112. 7 9850 315711JC34(J OOT&k212. O3D&0 S1325 45300 0195i310. 9-3530. K2431.Q 7553x411. 54&50 75B22 TIRE0 0D&3优比怙计值敕应点估计值95% Vlald 畫普眼xl1 &. 4203 319S1.229x27. 6SO1. 3ES42 575x3Q 3920 07S1. 9733-. 4800. 7ES15 418以上为最大似然估计的参数检验结果和几个描述统计量、参数的

14、OR值,以及95%可信区间。结果表面自变量x1 (p0.05)、x2 (p0.05)、x4( p0.05 )的回归系数未通过检验,认为性别及月生活费对本科生毕业去向无显著影响。回归模型系数的解释:优比估计值中,OR( x1) = 16.42,表示在其他条件不变的情况下,专业课成绩高的毕业生选择考研的概率是专业课成绩低的16.42倍,OR(x2)=7.69,表示在其他条件不变的情况下,英语课成绩高的同学选择出国留学的概率是英语课 成绩低的7.69倍。因变量y对自变量x1和x2的累积Logistic回归模型如下:expY2.121 + 2.7985x1 + 2.0399x2Y p2=p(y=2|x

15、 )=T-p3=p(yw3|x)expYB.0062 + 2.7985x1 + 2.0399x2Y=1 - exyY5.0062 - 2.79851 - 2.0399x2Yp2=p(y=2)=p2, p3=p(y=3)=p3-p2, p1=p(y=1)=1-p34. 3 多项logit模型分析在上述分析中若把因变量的三个类别看作是有序的,所建立回归模型,其中 x4(月生活费)未通过检验,这显然与现实实际情况不符,接下来考虑把响应变 量看作是无序多类别变量,建立多项logit模型。应用SAS9.3软件调用logistic过程步来进行建模。431SAS程序data work.bai; input

16、y x1-x4;cards;100017100102100111211101210003210011310112301001311111proclogistic data=work.bai;model y(ref=1)=x1-x4/link=glogit;run;注释:link=glogit拟合无序多分类logistic回归模型;ref=指明参照的类别。432结果分析樓型詹哀数据隼WORK. BAI、阳应水平数3樓型广文Logit优化方法Niawton-R ph E4JH谯取的舰測数as使用的舰測数za响应概况有序 值 频数111221133理蛊的Logit模型使用y=1作为鑫港粪别最大磁議芯

17、讦值分祈養数y自由度怙计值标准 误差Vlald卡方Pr卡方1 ntercept21-2. 7 &551 271S4 83070 0230II nt er cept31-5. 1B25-1 8O6GS-. 165-7O.CO43x1213.跚11 1B2B-10 6145& 0011x1313. 61941 41&. 11990 01S4211瞬關1 34S3-2. UK30 15S-6x2313L 41721 55&Z4.E217O.O23121-0. 10121. 1BS10. 00750.S322x331-1. 18B+1 42640 G91&(f.4055210 73881 12100.

18、 43440 5098x4312.1 5060-3-. 15120. 0755针对无序响应变量,建立的多项Logit模型中是以y=1 (工作)为参照组。从参数估计表中看到,与参加工作的同学相比,读研的同学的专业课成绩更好 (x1的p值=0.0011 ),而英语成绩(x2的p值=0.1566 )和经济状况 (x4的p 值=0.9322 )没有显著差异;出国留学的同学其专业课的成绩(x1的p值=0.4055) 和参加工作的同学没有显著差异,英语成绩(x2的p值=0.0281 )和经济状况(x4 的p值=0.0134)则更好.对y=2 (读研),对y3 (出国留学)n5综述多项Logit模型中丄og

19、it是由反应变量中的不重复的类别对的对比所形成的。 然后,对每一个Logit分别建模。若反应变量有J个类别,多项Logit模型中便有 J-1个Logit,且有J-1套斜率系数估计对应同一套自变量。与之形成对比的是, 在累积Logitistic回归模型中,虽然有J-1个累计Logit函数的截距估计,但只有 套斜率系数的估计对应自变量。本文结合现实情况,应用含有40个样本的有关大学生毕业去向的数据集, 将毕业去向分为工作、考研、出国留学三类。首先把响应变量y的分类看作是有 序分类,运用累计Logit回归建立模型,得到相应的参数估计值以及本科生毕业 去向的影响因素是专业课成绩和英语成绩,性别和月生活

20、费没有较显著的影响。 然后,若把响应变量在不考虑任何有序分类条件下,认为是无序因变量,则与累 积logit模型相对比之下建立多项logit模型,此时,进入模型的解释变量含有3 个,分别是专业课成绩、英语成绩、月生活费,符合实际意义,并给出了大学毕 业生不同选择的模型,用来估计根据专业课成绩、英语成绩、月生活费的情况, 大学生选择不同去向的概率,而且得到读研的同学的专业课成绩更好,而出国留 学的同学其专业课的成绩和参加工作的同学没有显著差异,英语成绩和经济状况 则更好。参考文献1何晓群.应用回归分析第三版:中国人民大学,2000希孺广义线性模型的拟似然法中国科学技术大学,2011高惠璇等.SAS/STAT软件使用手册:中国统计,1997.9承颖.基于累积Logistic模型的城市交通拥堵概率估计研究一一以市为例交通大学硕士论文,2015易建杰.Logistic回归模型分析综述及应用研究.大学硕士学位论文,2011

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!