10章Logit回归要点

上传人:痛*** 文档编号:98375561 上传时间:2022-05-29 格式:DOC 页数:35 大小:1.59MB
收藏 版权申诉 举报 下载
10章Logit回归要点_第1页
第1页 / 共35页
10章Logit回归要点_第2页
第2页 / 共35页
10章Logit回归要点_第3页
第3页 / 共35页
资源描述:

《10章Logit回归要点》由会员分享,可在线阅读,更多相关《10章Logit回归要点(35页珍藏版)》请在装配图网上搜索。

1、2011623通知:考试时间改为,2011629下午2:30, A405教室参考资料1、 陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、 张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版3、 阮敬,SAS统计分析一从入门到精通,人民邮电出版社,2009年4月第1版,39.00元类型分类(因变量)例宀日. 疋量连续/计量利润离散/计数人口定性(名义)二分类性别多分类(无序)职业多分类(有序)学历亠、变量的分类变量的分类宀日连续/计量例如,身高疋量i离散/计数例如,人数=有序例如,学历定性L v二分类例如,性别名义彳、多分类例如,职业注:计量指标与计数

2、指标一般好区别。特殊情形下不好区别,如年龄类型分类(因变量)例方法分布备注宀日. 疋量连续/计量利润普通回归正态可运算离散/计数人口普通或Log回归Poiison 分布可运算定性(名义)二分类性别Logit回归二项分布不可运算多分类无序职业基准一类别Logit回归r多项分布不可运算有序学历累积Logit回归Poiison 分布不可运算因变量y自变量xjlix方法分布定量(连续,离散)定量 琏续,离散),定性普通回归模型:二分类连续,定性(二分类, 多分类)Logit模型二项分布SAS中可非线性多分类多分类(有序)Logit模型Poiison 分布SAS中可非线性多分类(无序)Logit模型多项

3、分布定量,定性定量,定性?】、两分类变量的logistic回归1、logit 变换考虑上市公司中企业类型(ST与非ST )与财务指标的关系。常常需要研究事件A发生的概率p大小与某些因素有关。例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。显然 人群中只有两种状态“动脉硬化”和“非动脉硬化”(简称为“患病”和“不患病”),人群的状态记为y,则“患病”和“不患病”对应着 y的两个取值:y =1,y = 0。用事件表示 即y=1“患病”=“动脉硬化” ,y = 0“不患病”=“非动脉硬化”若患病率记为p,则 显然pfy n_py =1丄1一 p讨论患病率p与年龄X的关系,显然,

4、患病率随着年龄X的增加而增长。例,观察了 123位糖尿病患者,记录了他们的年龄 x以及是否患动脉硬化y。数据格 式见下表,详细数据见附录一2。表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄nyx1032123178符号说明符号解释注1动脉硬化0动脉非硬化编号是否动脉硬化年龄根据这些数据如何分析是否患病 y与年龄X的关系?能否建立y关于x的回归方程?不行。因为y的取值并无实际意义。将数据分组,得到各组的患病率 p (见表2),能否建立p关于x的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。表2糖尿病分组数据分组组号频数ni患病频数n患病频率

5、pi n;ni组中值xi35以下1200.00032.536402710.14337.541 4531230.25042.5465041160.54547.551 5551290.75052.55660615120.80057.561 65724200.83362.56670823220.95767.571 75914141.00072.576以上10331.00077.5合计123900.732假设能建立P关于x的回归模型:P _0 gx -:根据表2数据,得如下(普通)回归结果N=1ORegressian Summary for Dependent Variable: p (S|pread

6、9lheet1)R= .95721507 R2= .91626069 Adjusted F?2= .90679327尸(1 .0)=57.535 p 0时,f(p):; p 1时,f(pn :。这符合要求的特征(1)。 因为要求变化率df (p)在P =0和p=1附近有较大的值,故df (p)应与1 成正比, 记为df(P)1OC dpP(1-P)将上式取成等式,并作分解df (p)111 -4 ”dp P(1-P) P 1-P这是一个简单的微分方程。容易验证,满足此微分方程的函数(微分方程的解)是Pf (p) = InIn p -1 n 1 - p( 1)1 - p这是一个并不复杂的对数函数

7、,符合要求的特征(2)。故f(p) Jn 丄就是要寻找的函数。1 - P(1)式称为logit变换(logit transformation)。或许此名称就是“log it(取对数)之 意。1970年Cox首先研究了 logit变换。显然,函数f (p)在在p=0和p =1附近的变化率很大,而且,当从 0变到1时,f(p)从_:变到:。患病概率p与年龄x不是线性关系,In 与x可以是线性关系,这就克服1 - p了前面提出的两点困难。设pIn0 工必 :1 - p上式称作P关于x的logit回归模型。下式称作p关于x的logit回归方程:pIno : Sx1 - p【注】 验证f(p)=I n是

8、微分方程的解。因为 (I nx) = (I nxj=2,所以1 -pdxxdf(x)dpdpInPJ-IIn p Tn(1 - p)丨-1 1 1 1 11 =p 1 - p p 1 - p P(1 - p)2、例回到上例。求患病概率p关于年龄x的logit回归方程:In =1x,其中 P 二 Py = 11 - P原假设:H。: 口 1=0,患病率与年龄无关 定性分析:根据本例的实际背景,可以有如下判断。回归系数符号备注a1+年龄x是连续定量变量,a1的符号有意义:患病率与年龄成正比在statistica中实现logit回归的步骤如下将表1中的数据复制到statistica中,建立数据文件。

9、文件格式如下操作如下。Statistics Advanced Linear/Nonlinear Model Nonlinear Estimation Quick Logit regrqssiohInput file |若为原始数据选codes andno co u nts在Variables|中选自变量x、因变量y。若为分组数据选codes and counts在|Variabled中选自、因变量和频数Ok I Qk | Summary (本例为原始数据,故选“ nocounts”。得如下结果Model: Loais-lic rearessiioi-i (logiit) N ofOJs:33

10、1 *s:9CiDe-p. var. y LeiBs. MaH likelihood (IMS-rrto 1 )FZI igw: 4A 391 763449 Chi2lf1 =S0 279 o= OOCCiON=123Cunsl. BQI xGstimale-7 5GCO. 153Sl-and-ard Error1.520 .29WO4.973p-lt!V?lo ooo0.000-9S%CL1Oi匚7号 1Q1+95%CL-4.5S7 215SA/alri? Chi-quarn24 7S1 207p-lvalo noa口口口口Odd爭Hid (unrt 匚hjQ 0011 171-95%CLO

11、 OOG1 106+9S%CL.101 240 Odds 畑tin (rera)H34 102-95%CL104 601-b9G%CL19G 1 690 |因此,logit回归方程为In L 二:o jx 二-7.566 0.158x,其中 P =Py =11 - p0)。对于检此结果与定性分析的判断相符。结果表明:年龄x的系数检验显著(不为 验的问题拒绝H 0H。: 口 1 =0,患病率与年龄无关,故,患病率与年龄有关:年龄越大,患病的可能性越大。 logit回归方程可写成如下形式:0 :1X.7.5660.158x_ e 即口 eP 二,即 P 二7566 0.158x1 * e1 * e

12、在同一坐标系中,画出上述logit回归方程的图像和患病频率的散点图。204060 80z,x由上图可知,logit回归方程与实际患病频率拟合得相当好。由logit回归方程Z566 0.158X eInp/(1 - P)丨=-7.566 0.158x,或 P7.566 0.158x1 +e可进行预测了。例如将年龄x=60代入上式,得p =0.871,既对于60岁的糖尿病患者,患 动脉硬化的概率为0.871。下面讨论参数 =0.158的统计意义。3、(二分类)logit回归方程的一般形式如果影响In 的因素有X!,X2,ll1,Xp,则多元logit线性回归方程为1-PIn P 0 : 1X1 :

13、 2X2 川:pXp 1 - P0 -:1X/2X :kXk1 十00 屯1X1 乜X2 十 I 4UXk多元logit线性回归方程还有以下等价形式ep =1p _ 1 . e01 ;2x2 】i tkXk)若将In 丄 看成是因变量,则logit线性回归模型与多元线性回归模型的形式是一致1 - p的,且有很多共性。不同的是:1、logistic回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分 布,而是二项分布,且所有的分析均建立在二项分布的基础上。2、由于上述原因,logit回归系数的估计不能再用最小二乘法, 而要用极大似然估计法 回归模型和回归系数的检验也不是 F检验和t检

14、验,而要用 Wald检验、似然比检验等。4、优势ln : 0.二必=-7.566 0.158x1 - p首先看看一P的统计意乂。P: y =1 = p是患病的概率,P、y = 0$ = 1 - p是不患病的概 1 -P率,则就是患病概率与不患病概率之比,称1 -PP1 - P为优势(oddS,记为OD = odds 1 - P因此,优势OD的统计意义是:“患病概率”相对于“不患病概率”的倍数。当OD 1时,“患病概率”大于“不患病概率”;当OD :1时,“患病概率”小于“不患病概率”; 当OD =1时,“患病概率”等于“不患病概率”。因此,多元logit线性回归模型可写为lnOD:必:2X2

15、川:pXp因P越大,则1-P越小,又In x是单调函数,故p与OD成正比,OD与InOD成正比p 二 OD In ODInOD越大,则OD越大,则Py =1二P“患病”,p越大。 当:i 0时,p与Xi成正比;当: 0时,p与Xi成反比。 回到动脉硬化的例子。模型为pInIn OD = : 0 “ 场x 二-7.5660.158x1 - p0 - 1X _7.566 0.158XOD 二 e ex=60时,ODx a二e566 0.158 60 = 6.78, “患病”概率是“不患病”概率的 6.78倍,或 “患病”概率比“不患病”概率高 5.78倍。(odds-可能的机会,成败的可能性,优势

16、,不均,不平等,几率,差别)6、回归系数的解释与优势比讨论logit回归模型pInIn OD = : 0:x1 - P=OD 心-1x1 - p中,回归系数:1的统计意义。当x =xo时,患病的概率记为P0,优势记为OD0;当x =x0 1 (即x增加1个单位)时,患病的概率记为P1,优势记为OD1 则In二 In OD0 - 0 -片沧1 - P0In 乩=In ODr = : 0:(Xo 1)1 - P1OD1In= In ODr -In OD0ODo=i(Xo 1) -: o gXo=o *1X0*i o 1X0即:1的统计意义是:自变量增加1个单位,优势OD1与ODo之比的自然对数增(

17、减): 1个单位。(.0时为增,冷:o时为减)喘,ODrP1Po为优势比(odds ratio),记作OR然对数增(减):1个单位。显然,ODo 1 - P11 - Po则冷的统计意义是:自变量增加1个单位,优势比的自优势比。唱心以动脉硬化数据为例,模型为In p 则回归系数=0158的意义是:=:0 11 %x = -7.566 0.158x1、年龄X每增加1岁,优势比的自然对数InO R=l n?增加0.158个单位。ODo。若是定性变量则不一定 能这样x = 2表示农民,则“ x增加1个单位”是没有意义的)In1ODo(注意,年龄是定量的连续型变量,故可以这样解释 解释,如X是职业,X=

18、1表示工人,ODr2、等于优势比ODo1的对数:3、注意p(: .:1X),虽然由-1不能直接对p进行解释,但可以判断:若 r,1 * e则P增加,反之则减小。6、小结公式意义模型In P 二InOD o Jx,或 OD Fo :1X1 - POD 二 p.1 _ P事件C y = 1发生的概率是不发生的 OD倍优势p=OD 1-p:-1 o,x , In OR ; :1 o,x , In OROR = OD1/ODx增加1个单位,优势增减 e -1倍1儿力比OD1 ODoe1,优势增加;e ,优势减小系数OD1InX增加1个单位,优势比的自然对数增(减) 1个单位ODo三、多分类有序变量的l

19、ogistic回归设因变量y为有k个等级的有序变量:y =12H|,k。x(x1|,xh)为自变量。记y的等级为i的概率为P(y =i x) =口,i -1,21,k。则等级小于等于i的概率为P(y 叮 x)二 P(y =1 x) P(y =2x)川 P(y =i x)二 Pl P2 川 Pi称P(y列x)为等级小于等于i的累积概率(cumulative probability)。作logit变换:P(y i|x)叽巳心小巴卡鳥卜)有序变量的logistic回归模型定义为hlog it P(y i x) -i吃恥,i =12川,k1i=1等价于P(y S x)二1 +expl-ctj + 迟

20、PixiI y 丿实际上是将k个等级人为地分为两类:,2,川,门和,在这两类定义的logit表示: 属于后k -1个等级的累积概率与前i个等级的累积概率的比数之对数,故该模型称为累积比 数模型 (cumulative odds model。X是解释变量均为0时, j与i无关,故:有序变量的累积比数模型有k -1 h个参数,:-和 j为待估参数(i=1,Hl,k-1, j=1,lil,h ),对于任一 i , logit(P(yi|x)是自变量的线性函数。在某一固定的i下,两类不同概率之比的对数值。由于回归系数% “2 川叭根据有序变量的logistic回归模型,可得每类结果的概率:P(y =i

21、 x) =P(y x) - P(乞 i 一1 x)八 氷 u 空:J1 exp1h-:i4iXim1_ ( h1 exp i 二:ixi-level 9&%CL45%CLWalds Chi-square p-levelOdds raitio (umi! ch) -95% CL+55%CLOdds ratio (range) -AECL+95%CL6290.199 -23.2170.000-5.D2D -4.230 5:B9.CJ39 .DOOO.DIO0.007O Dl JQ.1091.015 0310 -0.1030.32J1.0.1.Q.0.5050.0539.614Q.107227220

22、331119C36119C3FIWO2O023DOGO9S37X4S4 口 E 4 H4.5543.3436 203_0528 5000800 3370 54072 245 I 5501 4口11 7153 7272 7S2S04H因此,logit回归万程为In= -4.629 0.110S 0.505G 0.439C1 - P为了明确p是如何定义的,最好在模型后面注释一下。In = .6290.110S 0.505G0.439C ,其中 Py=1.;=p1 - p检验结果表明:S性别的系数检验不显著(为0),而工龄G和学历C的系数检验均显著(不为0)。对于3个检验的问题Hs: :0,晋升与性

23、别无关,接受HsHg: 0,晋升与工龄无关拒绝HgHoc:=0,晋升与学历无关拒绝Hc故,晋升与性别无关,与工龄和学历有关:工龄越长、学历越高,晋升的概率越大。 实际上,两个logit回归方程都是正确的,只不过 p的意义不同。= 4.629-0.110S -0.505G -0.439C,其中 Ply =0 = pp 值0.310In=-4.629 0.110S 0.505G 0.439Cp值0.310四、附录1、将糖尿病原始数据(表1)整理成分组数据(表2)第1步,在exceI中,用if语句将123个样品(患者)分成10组。由于if语句只能嵌 套7个if语句(分8组),可将数据按年龄排序后,分

24、两次将 123个样品分成10组。两次 分组的if语句如下:第 1 次:IF(c235,1,if(c2v40,2,if(c2v45,3,if(c2v50,4,if(c2v55,5,if(c2v60,6,if(c2v65,7,if(c2v70,8,9)第 2 次: IF(d2X1.=5.t站丸刊區或牌爲埠u厂瘙吉H计宜审JS医皿朋常创涩的抿晒豊aiE曲箱遴现精Hi严範18懣规囲|旦蝕疝:8觇?1.| 監* | | | F:母 Qp . 住Kfi 吒)硼I上站创斤帧计飙I第2步,运用excel中的“数据透视表和数据透视图”功能,将123个样品分成10组。这“ 3步骤之3”中,选“布局”0鳖据透视表和

25、戳据逶机图冋导-3步婆.13 _BE勒击需ET榔3创建克抵遢1除.SF1I22这“ 3步骤之3”中,选“布局”0布舄QJ . | aJS%: I 酗 I上一吿I 舌:凭他応i这“ 3步骤之3”中,选“布局”0将分组变量C拖入“行(R) ”,将变量Y拖入“列(C)”,再将变量Y拖入“数据(D) ”, 双击“求和项:y”出现下图。将“求和”改为“计数”,见下图按“确定”出现下图。数据透视表和数据透视圉向导- 3步骤之3!-勲据适规表显示沱晝广浙楚工作表Qf)P现有二Tt表国) 耳 *.iTi$TEL|单缶“芫减搖钗赳建麴惬适脱.布尿如 |选顼| 取消 J齿酣将光标指向“现有工作表” (1-处),指

26、出计算结果的存放位置(2处)。本例中, 存放在“ Sheet1!$F$1,即存放在“当前工作表的第1表的第f列、第1行”的位置。按“完成”。出现下图。经适当计算、整理得下表。再整理成下面的表2各组频数患病频数恵病频率1200. 0002710, 1 4331230. 25041160. 54551290. 7506151 20, 800724200. S33823220. 957914141. 00010331 一 000总计123900. 732表2糖尿病分组数据分组组号频数ni患病频数n患病频率Pi n(1)ni组中值xi35以下1200.00032.536402710.14337.541

27、 4531230.25042.5465041160.54547.551 5551290.75052.55660615120.80057.561 65724200.83362.56670823220.95767.571 75914141.00072.576以上10331.00077.5合计123900.732注意:.应考虑患病频数.(此为新增加的).。2、将教师晋升分组数据(表4)转换为(软件可识别)分组数据(表5)的SAS程序表4教师晋升分组表性别s晋升y工龄g学历c012300119820718918911415202331注意:1按从左到右的顺序:s, y, g, c读数,顺序不能混;2、

28、s, y,g, c的取值从小到大读取(见程序第 3行)3、 数据行(从第5行开始)中仅放频数:佃8,,31等。s, y, g, c的取值 不要放到数据行中。SAS程序如下:TITLE Logistic回归一教师晋升数据data qc;do s=0,1;do y=0,1; do g=1 to 4; do c=0 to 3;input f ; output;end; end; end; end; cards; 19820718918917923616313719318414791186151834135712510101491315151416161149971421859614018217614

29、118317013717915711710112613371320714202515202331proc print;proc logistic des;model y=s g c /clodds=wald;freq f;run;将上述程序复制到SAS软件的编辑窗口。程序运行后,出现如下输出L储i妣i心回归-教师晋升数据Obssycf1 00101982 00I12Q7anni?ns将上述输出的数据选定,复制到空白的word文档中进行设法进行编辑,并转化为如下的表格格式即可。Obssygcf1001019863114223641143313、数据表1、 糖尿病原始数据 (注:这是未分组数据!)

30、编号动脉硬化分类年龄nyx1032203430354035503660367036813690391004011040121411304114041150411604304343434343454545454747484949494950505252525253535454545455551101111111111011015555565656575757575758585960606161611 611718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646

31、5111110111111111011111111111101616262636363636363636363636364646464656565656666666666666767686868696969696969696970707071717171666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141171115172116173117173118173119173120174121175122177123178表5

32、教师晋升分组数据(软件识别格式!)nsygcfT001019820011207300p2189400131895002017960021236700221638002 :31371900301931000311841100321471200:33911300401861400411511500428316004341170110318011151901127200113122101205220121102301b2 :210240123142501309260131132701(32152801331529014014300141163101(421632014311331010493410r

33、 11973510h2142361013185371020963810121140:391022182401023176411030141:421013118343103217044103313745104017946 104115747104211748104310149111015011112511112652111313531120354112175511221356112320571130758113114591132206011332561114015621141206311422364114331四、数据1、糖尿病详细数据ntypesexagedurabmiisitglncholnsbpalbln编号动脉硬 化分类性别年龄糖尿病 史体重指 数=w/h/h胰岛素敏 感指数甘油三脂胆固醇收缩 压尿白蛋白ntsadbitgcsbal10132121.3-4.920.471.611051.1620134225.2-3.730.241.671303.67301350.622.6-4.311.11.811102.04402350.122-5.130.161.551101.7650136127.6-4.231.581.671003.18601360.122.3-4.960.581.28

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!