《多元线性回归》PPT课件.ppt
《《多元线性回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元线性回归》PPT课件.ppt(73页珍藏版)》请在装配图网上搜索。
第12章多元线性回归 第12章多元线性回归 12 1多元线性回归模型 12 2回归方程的拟合优度 12 3显著性检验 12 4多重共线性 12 5利用回归方程进行估计和预测 删去 12 6变量选择与逐步回归 删去 12 7虚拟自变量的回归 12 1多元线性回归模型 12 1 1多元回归模型与回归方程12 1 2估计的多元回归方程12 1 3参数的最小二乘估计 12 1多元线性回归模型 一个因变量与两个及两个以上自变量的回归问题就是多元回归 12 1 1多元回归模型与回归方程设因变量y k个自变量分别为x1 x2 xk 描述因变量y如何依赖自变量x1 x2 xk和误差项 的方程 称为多元回归模型 multipleregressionmodel 多元回归模型一般形式为 其中 b0 b1 b2 bk是参数 是被称为误差项的随机变量y是x1 x2 xk的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系所解释的变异性 12 1 1多元回归模型与回归方程 1 误差项 是一个期望值为0的随机变量 即E 0 即 2 对于自变量x1 x2 xk的所有值 的方差 2都相同 3 误差项 是一个服从正态分布的随机变量 即 N 0 2 且相互独立 独立性意味着对于自变量x1 x2 xk的一组特定值所对应的 与x1 x2 xk任意一组其他值所对应的 不相关 正态性意味着对于给定的x1 x2 xk的值 因变量y也是一个服从正态分布的随机变量 12 1 1多元回归模型与回归方程 根据回归模型的假定有E y 0 1x1 2x2 kxk 上式称为多元回归方程 multipleregressionequation 它描述了因变量y的期望值与自变量x1 x2 xk之间的关系 12 1 1多元回归模型与回归方程 12 1 2估计的多元回归方程 12 1 3参数的最小二乘估计 2 求解各回归参数的标准方程如下 1 使因变量的观察值与估计值之间的离差平方和达到最小来求得 即 12 1 3参数的最小二乘估计 例12 1 继续沿用第11章中例11 6 一家大型商业银行在多个地区设有分行 其业务主要是进行基础设施建设 国家重点项目建设 固定资产投资等项目的贷款 近年来 该银行的贷款额平稳增长 但不良贷款额也有较大比例的提高 这给银行业务的发展带来较大压力 为弄清楚不良贷款形成的原因 抽取了该银行所属的25家分行2002年的有关业务数据 试建立不良贷款 y 与贷款余额 x1 累计应收贷款 x2 贷款项目个数 x3 和固定资产投资额 x4 的线性回归方程 并解释各回归系数的含义用Excel进行回归 12 1 3参数的最小二乘估计 12 2回归方程的拟合优度 12 2 1多重判定系数12 2 2估计标准误差 12 2多重判定系数 多元回归中因变量离差平方和的分解 SST SSR SSE 多重判定系数 multiplecoefficientofdetermination 是多元回归中的回归平方和占总平方和的比例 它是度量多元回归方程拟合程度的一个统计量 反映了在因变量y的变差中被估计的回归方程所解释的比例 计算公式为 12 2多重判定系数 注 由于自变量个数的增加 将影响到因变量中被估计回归方程中所解释的变差数量 当增加自变量时 会使预测误差变得比较小 从而减少残差平方和SSE 由于回归平方和SSR SST SSE 当SSE变小时 SSR会变大 从而R2也会变大 如果模型中增加一个自变量 即使这个自变量在统计上并不显著 R2也会变大 为避免这种情况 提出调整的多重判定系数 adjustedmultiplecoefficientofdetermination 计算公式为 12 2多重判定系数 调整的多重判定系数的解释与R2类似 不同的是 1 同时考虑了样本量和模型中的自变量的个数的影响 这就使得的值永远小于R2 而且的值不会由于模型中自变量个数的增加而越来越接近1 因此 在多元回归分析中 通常用调整的多重判定系数 2 R2的平方根称为多重相关系数 也称为复相关系数 它度量了因变量同k个自变量的相关程度 12 2 2估计标准误差 多元回归分析中的估计标准误差也是对误差项 的标准差 的一个估计值 它是衡量多元回归方程的拟合优度方面也起着重要作用 计算公式为多元回归中对se的解释 由于se所估计的是预测误差的标准差 其含义是根据自变量x1 x2 xk来预测因变量y时的平均预测误差 12 3显著性检验 12 3 1线性关系检验12 3 2回归系数检验和推断 12 3 1线性关系检验 1 检验因变量与所有自变量之间的关系是否显著 也被称为总体显著性检验 2 检验方法是将回归平方和 SSR 同残差平方和 SSE 加以比较 应用F检验来分析二者之间的差别是否显著 如果是显著的 因变量与自变量之间存在线性关系如果不显著 因变量与自变量之间不存在线性关系 12 3 1线性关系检验 第1步 提出假设H0 1 2 k 0线性关系不显著H1 1 2 k至少有一个不等于0 第2步 计算检验统计量F 第3步 作出统计决策 给定显著性水平 和分子自由度k 分母自由度n k 1找出临界值F 若F F 拒绝H0 若F F 则不拒绝H0 也可利用P值来判断 12 3 1线性关系检验 例12 2 根据例12 1建立的回归方程 对回归方程线性关系的显著性进行检验 a 0 05 解 提出假设H0 1 2 3 4 0H1 1 2 3 4至少有一个不等于0 计算检验统计量F 作出统计决策 给定显著性水平 0 05和分子自由度4 分母自由度25 4 1 20找出临界值F 2 87 则F F 所以拒绝H0 这意味着不良贷款与贷款余额 累计应收贷款 贷款项目个数和固定资产投资额之间的线性关系是显著的 12 3 2回归系数检验和推断 1 在回归方程通过线性关系检验后 就可以对各个回归系数有选择地进行一次或多次检验 但究竟要对哪几个回归系数进行检验 通常需要在建立模型之前作出决定 对回归系数检验的个数进行限制 以避免犯过多的第一类错误 弃真错误 2 对每一个自变量都要单独进行检验3 应用t检验统计量 12 3 2回归系数检验和推断 4 回归系数检验的具体步骤 提出假设H0 bi 0 自变量xi与因变量y没有线性关系 H1 bi 0 自变量xi与因变量y有线性关系 计算检验的统计量t 作出统计决策 给定显著性水平 并进行决策 t t 拒绝H0 t t 不拒绝H0 12 3 2回归系数检验和推断 例12 3 根据例12 1建立的回归方程 对回归方程各系数的显著性进行检验 a 0 05 解 提出假设H0 i 0 i 1 2 3 4 H1 i 0 计算检验统计量 由excel可知 t1 3 84 t2 1 88 t3 0 17 t4 1 88 作出统计决策 给定显著性水平 0 05和自由度25 4 1 20找出临界值t 2 2 1 则只有b1通过了检验 12 3 2回归系数检验和推断 5 回归系数在 1 置信水平下的置信区间为 回归系数的抽样标准差 12 4多重共线性 12 4 1多重共线性及其所产生的问题12 4 2多重共线性的判别12 4 3多重共线性问题的处理 12 4多重共线性 当回归模型中使用两个或两个以上的自变量时 这些自变量之间往往会提供多余的信息 也就是说 这些变量之间彼此相关 例如 在例12 1所建立的回归方程中 使用了4个变量 即贷款余额 累计应收贷款 贷款项目个数和固定资产投资额 虽然对预测不良贷款都有作用 但由于4个自变量之间本身存在相关关系 在预测中所用的信息就是重复的 从直观上看 贷款余额与累计应收贷款之间就有较高的相关关系 这两个变量所提供的信息就是重复的 或许只用一个自变量就可以了 12 4 1多重共线性及其所产生的问题 1 多重共线性 multicollinearity 是指在回归模型中 有两个或两个以上的自变量彼此相关 2 多重共线性带来的问题有 1 变量之间高度相关时 可能会使回归的结果造成混乱 甚至会把分析引入歧途 2 多重共线性可能对参数估计值的正负号产生影响 特别是各回归系数的正负号有可能同我们预期的正负号相反所以 当存在多重共线性时 对回归系数的解释将是危险的 12 4 2多重共线性的判别 1 检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数 并对各相关系数进行显著性检验 如果有一个或多个相关系数是显著的 就表示模型中所用的自变量之间相关 因而存在着多重共线性问题2 如果出现下列情况 暗示存在多重共线性 1 模型中各对自变量之间显著相关 2 当模型的线性关系检验 F检验 显著时 几乎所有回归系数的t检验却不显著 3 回归系数的正负号与预期的相反 12 4 2多重共线性的判别 例12 4 利用例12 1的数据 按上述方法判别所建立的回归方程是否存在多重共线性 贷款余额 应收贷款 贷款项目个数 固定资产投资额之间的相关矩阵 12 4 2多重共线性的判别 计算出相关系数统计量 1 t 25 2 2 07 所有统计量t t 25 2 2 07 所以均拒绝原假设 说明这4个自变量两两之间都有显著的相关关系 12 4 2多重共线性的判别 2 由表Excel输出的结果可知 回归模型的线性关系显著 Significance F 1 03539E 06 0 05 这也暗示了模型中存在多重共线性3 固定资产投资额的回归系数为负号 0 029 与预期的不一致由以上三点可以判断回归模型中存在多重共线性 12 4 3多重共线性问题的处理 多重共线性问题的解决办法 1 将一个或多个相关的自变量从模型中剔除 使保留的自变量尽可能不相关 2 如果要在模型中保留所有的自变量 则应该 避免根据t统计量对单个参数进行检验 对因变量y值的推断 估计或预测 限定在自变量样本值的范围内 12 4 3多重共线性问题的处理 例12 5 利用例12 1所建立的回归方程 对多重共线性问题进行处理 解 首先 考虑将一些相关的自变量从模型中剔除 从前表可以看出 贷款余额与贷款项目个数的相关系数最高 而且从定性角度看 贷款余额与应收贷款之间也有很强的相关关系 因此将贷款项目个数和累积应收贷款这两个自变量剔除 建立不良贷款与贷款余额和固定资产投资额的线性模型 从结果可以看出 线性关系和各回归系数在0 05的显著水平下是显著的 多重共线性问题不存在了 12 4 3多重共线性问题的处理 多重共线性问题带来的主要麻烦是对单个回归系数的解释和检验 在求因变量的置信区间和预测区间时一般不会受其影响 但必须保证用于估计或预测的自变量的值是在样本数据的范围之内 因此 如果仅仅是为了估计或预测 可以将所有自变量都保留在模型中 在建立多元线性回归模型时 不要试图引入更多的自变量 除非有必要 特别是在社会科学的研究中 由于所使用的大多数数据都是非试验性质的 因此 在某些情况下 得到的结果往往并不令人满意 但这不一定是选择的模型不适合 而是数据的质量不好 或者是由于引入的自变量不合适 12 7虚拟自变量的回归 12 7 1在模型中引进虚拟变量12 7 2含有一个虚拟自变量的回归 12 7 1在模型中引进虚拟变量 1 虚拟变量 dummyvariable 是指用数字代码表示的定性自变量2 当模型中使用虚拟自变量时 称为虚拟自变量的回归 3 虚拟变量的取值只能是0 14 回归分析中引入虚拟自变量的方法 1 如果定性自变量只有两个水平时 比如 性别 男 女 12 7 1在模型中引进虚拟变量 2 有两个以上水平的虚拟自变量 比如 贷款企业的类型 家电 医药 其他 一般而言 如果定性自变量有k个水平 需要引入k 1个虚拟变量 5 对于含有一个虚拟自变量的回归 采用下列形式的回归方程 12 7 1在模型中引进虚拟变量 例12 8 为研究考试成绩与性别之间的关系 从某大学商学院随机抽取男女学生各8名 得到他们的市场营销学课程的考试成绩如下表 对性别引入虚拟变量 12 7 2含有一个虚拟自变量的回归 1 模型中只含有一个虚拟变量的回归 建立回归模型为 y 0 1x e回归方程可写 E y 0 1x男 x 0 E y 0 男学生考试成绩的期望值女 x 1 E y 0 1 女学生考试成绩的期望值注意 当指定虚拟变量0 1时 0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值 1总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值 即平均值的差值 0 1 0 1 12 7 2含有一个虚拟自变量的回归 解 散点图 例12 9 沿用例12 8 试建立考试成绩与性别之间的线性回归模型 并解释回归系数的含义 12 7 2含有一个虚拟自变量的回归 例12 10 为研究工资水平与工作年限和性别之间的关系 在某行业中随机抽取10名职工 所得数据如下表 12 7 2含有一个虚拟自变量的回归 2 模型中含有一个数值型自变量和一个虚拟变量回归引进虚拟变量时 回归方程可写 E y 0 1x1 2x2女 x2 0 E y 女性 0 1x1男 x2 1 E y 男性 0 2 1x1 0的含义表示 女性职工的期望月工资收入 0 2 的含义表示 男性职工的期望月工资收入 1含义表示 工作年限每增加1年 男性或女性工资的平均增加值 2含义表示 男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值 0 2 0 2 习题选讲 习题12 01 根据下面的数据用Excel进行回归 并对回归结果进行讨论 计算x1 200 x2 7时y的预测值 习题选讲 习题选讲 习题12 02 根据下面Excel输出的回归结果 说明模型中涉及多少个自变量 多少个观察值 写出回归方程 并根据F se R2及修正的的值对模型进行讨论 习题选讲 习题12 03 根据两个自变量得到的多元回归方程为 习题选讲 习题12 04 一家电器销售公司的管理人员认为 每月的销售额是广告费用的函数 并想通过广告费用对月销售额作出估计 下面是近8个月的销售额与广告费用数据 要求 1 用电视广告费用作自变量 月销售额作因变量 建立估计的回归方程 2 用电视广告费用和报纸广告费用作自变量 月销售额作因变量 建立估计的回归方程 3 上述 1 和 2 所建立的估计方程 电视广告费用的系数是否相同 对其回归系数分别进行解释 4 根据问题 2 所建立的估计方程 在销售收入的总变差中 被估计的回归方程所解释的比例是多少 5 根据问题 2 所建立的估计方程 检验回归系数是否显著 a 0 05 习题选讲 习题选讲 习题12 05 某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据如下 要求 1 试确定早稻收获量对春季降雨量和春季温度的二元线性回归方程 2 解释回归系数的实际意义 3 根据你的判断 模型中是否存在多重共线性 习题选讲 习题12 12 为分析某行业中的薪水有无性别歧视 从该行业中随机抽取15名员工 有关的数据如下 要求 用Excel进行回归 并对结果进行分析 习题选讲 习题12 06 一家房地产评估公司想对某城市的房地产销售价格y与地产的评估价值x1 房产的评估价值x2和使用面积x3建立一个模型 以便对销售价格作出合理预测 为此 收集了20栋住宅的房地产评估数据如下 用Excel进行回归 回答下面的问题 1 写出估计的多元回归方程 2 在销售价格的总变差中 被估计的回归方程所解释的比例是多少 3 检验回归方程的线性关系是否显著 a 0 05 4 检验各回归系数是否显著 a 0 05 习题选讲 习题12 07 根据11 4题中的数据 回答下面的问题 1 a 0 01的水平下 检验二元回归模型线性关系的显著性 2 在a 0 05的水平下 检验回归系数b1的显著性 你认为x1应该从模型中剔除吗 3 在a 0 05的水平下 检验回归系数b2的显著性 你认为x2应该从模型中剔除吗 习题选讲 习题12 08 根据下面的数据回答下面的问题 1 计算y与x1之间的相关系数 有无证据表明二者之间存在线性关系 a 0 05 2 计算y与x2之间的相关系数 有无证据表明二者之间存在线性关系 a 0 05 3 根据上面的结论 你认为E y b0 b1x1 b2x2对预测y是否有用 4 用Excel进行回归 并对模型进行检验 所得的结论与 3 是否相同 5 计算x1与x2之间的相关系数 所得结果意味着什么 习题选讲 习题12 09 下面是随机抽取的15家大型商场销售的同类产品的有关数据 单位 元 要求 1 计算y与x1 y与x2之间的相关系数 是否有证据表明销售价格与购进价格 销售价格与销售费用之间存在线性关系 2 根据上述结果 你认为用购进价格和销售费用来预测销售价格是否有用 3 用Excel进行回归 并检验模型的线性关系是否显著 a 0 05 4 解释判定系数R2 所得结论与问题 2 中是否一致 5 计算x1与x2之间的相关系数 所得结果意味着什么 6 模型中是否存在多重共线性 你对模型有何建议 习题选讲 习题12 10 设因变量为y 一个数值型自变量x1和一个具有两个水平 水平1和水平2 的分类型自变量 要求 1 写出因变量y关于自变量x1和分类自变量的多元回归方程 2 对应于分类自变量水平1的y的期望值是多少 3 对应于分类自变量水平2的y的期望值是多少 习题选讲 习题12 11 一家货物运输公司想研究运输费用与货物类型的关系 并建立运输费用与货物类型的回归模型 以此对运输费用作出预测 该运输公司所运输的货物分为两种类型 易碎品和非易碎品 下面给出了15个路程大致相同 而货物类型不同的运输费用数据 要求 1 写出运输费用与货物类型之间的线性方程 2 对模型中的回归系数进行解释 3 检验模型的线性关系是否显著 a 0 05 12 5利用回归方程进行估计和预测 删去不讲 12 5利用回归方程进行估计和预测 STATISTICA输出的不良贷款的置信区间 例12 6 根据例12 1的数据 取x1 100 x2 10 x3 15 x4 60 建立不良贷款的95 的置信区间和预测区间 12 5利用回归方程进行估计和预测 STATISTICA输出的不良贷款的预测区间 12 5利用回归方程进行估计和预测 STATISTICA输出的不良贷款的置信区间 例12 6 根据例12 1的数据 取x1 100 x2 10 x3 15 x4 60 建立不良贷款的95 的置信区间和预测区间 12 5利用回归方程进行估计和预测 STATISTICA输出的不良贷款的预测区间 12 6变量选择与逐步回归 12 6 1变量选择过程12 6 2向前选择12 6 3向后剔除12 6 4逐步回归 12 6 1变量选择过程 1 在建立回归模型时 对自变量进行筛选2 选择自变量的原则是对统计量进行显著性检验 1 将一个或一个以上的自变量引入到回归模型中时 是否使得残差平方和 SSE 有显著地减少 如果增加一个自变量使SSE的减少是显著的 则说明有必要将这个自变量引入回归模型 否则 就没有必要将这个自变量引入回归模型 2 确定引入自变量是否使SSE有显著减少的方法 就是使用F统计量的值作为一个标准 以此来确定是在模型中增加一个自变量 还是从模型中剔除一个自变量3 变量选择的方法主要有 向前选择 向后剔除 逐步回归 最优子集等 12 6 2向前选择 1 从模型中没有自变量开始2 对k个自变量分别拟合对因变量y的一元线性回归模型 共有k个 然后找出F统计量的值最高的模型及其自变量 P值最小的 并将其首先引入模型3 分别拟合引入模型外的k 1个自变量的线性回归模型 如此反复进行 直至模型外的自变量均无统计显著性为止 12 6 3向后剔除 1 先对因变量拟合包括所有k个自变量的回归模型 然后考察p p k 个去掉一个自变量的模型 这些模型中在每一个都有的k 1个自变量 使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除2 考察p 1个再去掉一个自变量的模型 这些模型中每一个都有k 2个的自变量 使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除3 如此反复进行 一直将自变量从模型中剔除 直至剔除一个自变量不会使SSE显著减小为止 12 6 4逐步回归 1 将向前选择和向后剔除两种方法结合起来筛选自变量2 在增加了一个自变量后 它会对模型中所有的变量进行考察 看看有没有可能剔除某个自变量 如果在增加了一个自变量后 前面增加的某个自变量对模型的贡献变得不显著 这个变量就会被剔除3 按照方法不停地增加变量并考虑剔除以前增加的变量的可能性 直至增加变量已经不能导致SSE显著减少4 在前面步骤中增加的自变量在后面的步骤中有可能被剔除 而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中 例12 7 根据例12 1的数据 用逐步回归方法建立不良贷款y与贷款余额x1 累计应收贷款x2 贷款项目个数x3和固定资产投资额x4的线性回归方程 12 6 4逐步回归 第1步 选择 Analyze 下拉菜单 并选择 Regression linear 选项进入主对话框第2步 在主对话框中将因变量选入 Dependent 将所有自变量选入 Independent s 并在 Method 下选择 Stepwise 第3步 点击 Options 并在 SteppingMethodCriteria 下选中 UseProbabilityofF 并在 Entry 框中输入增加变量所要求的显著性水平 隐含值为0 05 一般不用改变 在 Removal 输入剔除变量所要求的显著性水平 隐含值为0 10 一般不用改变 点击 Continue 回到主对话框 12 6 4逐步回归 第4步 需要预测时 点击 Save 在 PredictedValues 下选中 Unstandardized 输出点预测值 在 Predictioninterval 下选中 Mean 和 Individual 输出置信区间和预测区间 在 ConfidenceInterval 中选择所要求的置信水平 隐含值为95 一般不用改变 需要残差分析时 在 Residuals 下选中所需的残差 点击 Continue 回到主对话框 点击 OK 12 6 4逐步回归 变量的进入和移出标准 12 6 4逐步回归 两个模型的主要统计量 12 6 4逐步回归 两个模型的方差分析表 12 6 4逐步回归 两个模型的参数估计和检验 12 6 4逐步回归- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元线性回归 多元 线性 回归 PPT 课件
装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文