地理加权回归GWR

上传人:痛*** 文档编号:200015404 上传时间:2023-04-13 格式:PPT 页数:40 大小:6.26MB
收藏 版权申诉 举报 下载
地理加权回归GWR_第1页
第1页 / 共40页
地理加权回归GWR_第2页
第2页 / 共40页
地理加权回归GWR_第3页
第3页 / 共40页
资源描述:

《地理加权回归GWR》由会员分享,可在线阅读,更多相关《地理加权回归GWR(40页珍藏版)》请在装配图网上搜索。

1、地理加权回归GWR基本框架普通线性回归模型及估计普通线性回归模型及估计OLS工作的基本原理解释OLS结果GWRGWR提出的背景及意义提出的背景及意义地理加权回归模型及估计地理加权回归模型及估计权函数选择权函数宽带优化诊断工具膀胱癌死亡率实例膀胱癌死亡率实例OLS工作的基本原理在我们国家是否有持续发生年轻人早逝的地方?哪里为犯罪或火灾的高发地点?城市中哪里的交通事故发生率比预期的要高?在实际工作中,我们可能会遇到以下类似的问题911紧急呼叫数据的分析结果,显示了呼叫热点(红色)、呼叫冷点(蓝色)以及负责事故处理的消防和警察分队的位置(绿色十字)可以通过热点分析的方法弄清以上问题对于上面的每一个问

2、题都询问了“where”where”,但是我们自然会想到“why”why”为什么国家会存在持续发生年轻人早逝的地方?是什么导致了这种情况?我们能否对犯罪、911呼叫或火灾频发地区的特征进行建模,以帮助减少这些事件的发生?导致交通事故发生率比预期要高的因素有哪些,有没有相关政策或者措施来减少整个城市或特定事故高发区的交通事故?通过回归分析,我们可以对空间关系进行建模、检查和探究,通过回归分析,我们可以对空间关系进行建模、检查和探究,还可以解释所观测到的空间模式背后的诸多因素。还可以解释所观测到的空间模式背后的诸多因素。例如分析有些地区为什么会持续发生年轻人早逝或者糖尿病的发病率比预期的要高。通过

3、空间关系建模,对这些现象进行预测。通过空间关系建模,对这些现象进行预测。例如,对影响大学生毕业率的因素进行建模,可以对近期的劳动力技能和资源进行预测;因为监测站数量不足而无法进行充分插值的情况下(沿山脊地区和山谷内,雨量计通常会短缺),可以用回归法来预测这些地区的降雨量或者是空气质量。使用回归分析的主要原因1.1.对某一现象建模,测量一个或多个变量的变化对另一变量变对某一现象建模,测量一个或多个变量的变化对另一变量变化的影响程度。化的影响程度。例如,了解某些特定濒危鸟类的主要栖息地特征(降水,食物源、植被、天敌),以协助通过立法来保护该物种。2.2.对某种现象建模以预测其他地点或其他时间的数值

4、,构建一对某种现象建模以预测其他地点或其他时间的数值,构建一个持续准确的预测模型。个持续准确的预测模型。例如,如果已知人口增长情况和典型的天气状况,那么明年的用电量将会是多少?3.3.深入探索某些假设情况。深入探索某些假设情况。假设您正在对住宅区的犯罪活动进行建模,以更好的了解犯罪活动并希望实施可能阻止犯罪活动的策略,开始分析时,就会有很多问题或想要检验的假设情况:1).“破窗理论”表明公共财产的破坏(涂鸦、被毁坏的建筑物等)可招致其他犯罪行为,破坏财产行为与入世盗窃之间是否存在正关系?2).非法使用毒品与盗窃行为之间存在某种关系吗(吸毒成瘾的人又可能通过偷取财物来维持他们吸毒的习惯吗)?OL

5、S回归方程1.遗遗漏漏自自变变量量:如果模型中丢失了关键的自变量,其系数和相应的关联P值将不可信。通过映射并检查OLS残差和GWR系数或对回归残差进行热点分析,找出可能缺失的变量。2.非非线线性性关关系系:OLS和GWR都是线性方法,如果任一自变量与因变量之间的关系存在非线性关系,则获得的模型质量不佳。通过创建散点图矩阵来了解模型中所有自变量之间的关系。3.数数据据异异常常值值:影响大的异常值可以使模型化的回归关系背离最佳拟合,从而使回归系数发生偏差。通过创建散点图来检验数据的极值,如果异常值存在,则进行修正或者移除。如果异常值正确或者有效则不能将其移除,需要对有异常值和没有异常值的情况下分别

6、进行回归,查看这两种情况对结果的影响程度。回归模型中常见的问题4.不不稳稳定定性性:一个输入变量在区域A中具有很强的解释能力,但是在区域B中却不显著。如果因变量与自变量之间的关系在研究区域内不一致,将人为地扩大计算出的标准误差。用Koenker测试关联的概率很小时,区域变化具有统计显著性。(地理加权回归改进)5.多多重重共共线线性性:一个自变量或多个自变量的组合冗余。多重共线性可导致模型不稳定,不可靠。可以通过OLS工具自动检测冗余,每个自变量都被给定一个计算出的VIF值,当这个值很大时,冗余便成了问题,通过创建交互变量或增大采样间隔从模型中移除冲突变量或对其进行修改。6.残残差差的的方方差差

7、不不一一致致:对于较小的因变量值,模型的预测效果较好,但对于较大的因变量值,模型的预测值变得不可靠。7.空间自相关残差空间自相关残差:注意模型偏低预计值(红色)出现空间聚类的方式。残差(模型的偏低预计值和偏高预计值)在统计学上的显著空间聚类表明模型缺失关键的因变量,可以使用空间自相关工具来确定模型残差的空间聚类是否有统计学上的显著性。8.正正态态分分布布偏偏差差:当回归模型残差不服从均值为0的正态分布时,与系数关联的P值将变得不可靠。可以用OLS工具自动检查残差是否服从正态分布。当Jarque-Bera统 计 量 显 著(0.05)时,很可能错误选定了模型或对其建模的关系为非线性。通过残差图和

8、GWR系数图来检查是否缺少关键变量,查看散点矩阵图寻找非线性关系。解释OLS结果(1)评估模型性能。)评估模型性能。R平方的倍数和校正R平方值都可以用来测量模型性能。取值范围从0.0-1.0。由于“校正R平方”值与数据相关,更能准确地测量出模型性能,能够反映模型的复杂性,因此“校正R平方”值始终要比“R平方的倍数”值略小。为模型额外添加一个解释变量可能会增大“R平方的倍数”值,但可能会减小“校正的R平方”值。假设正在创建一个入室盗窃(与每个人口普查区块相关的入室盗窃数量为因变量,y)的回归模型。如果“校正R平方”值为0.84,则表示该模型(使用线性回归建模的解释变量)可解释因变量中大约84%的

9、变化。使用 R 平方值量化模型性能(2)评评估模型中的每一个解估模型中的每一个解释变释变量:系数、概率、量:系数、概率、稳稳健概健概率和方差膨率和方差膨胀胀因子因子(VIF)。系系数数反映它与因变量之间关系的强度,以及它们之间的关系类型。当系数为负时,表明自变量与因变量负相关。当系数为正号时,自变量与因变量为正相关。概概率率或或稳稳健健概概率率(p 值值)P值很小时,系数实际为零的几率也会很小。如果Koenker测试(见下图)具有统计学上的显著性,应使用稳健概率来评估自变量的统计学显著性。对于具有统计学上显著性的概率,其旁边带有一个星号(*)。VIF 测量自变量中的冗余。一般来说,与大于7.5

10、的VIF值关联的自变量应逐一从回归模型中移除。(3)评评估模型是否具有估模型是否具有显显著性。著性。联联合合 F F 统统计计量量(联联合合卡卡方方统统计计量量)用于测量整个模型的统计学显著性。只有在Koenker(BP)统计量(见下图)不具有统计学上的显著性时,“联合F统计量”才可信。如果Koenker(BP)统计量具有显著性,应参考“联合卡方统计量”来确定整个模型的显著性。对于大小为95%的置信度,p值(概率)小于0.05表示模型具有统计学上的显著性。(4)评评估估稳稳定性。定性。Koenker(BP)统统计计量量(Koenker的标准化Breusch-Pagan统计量)是一种测试,用于确

11、定模型的自变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由自变量表示的空间进程在研究区域各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个自变量之间关系的变化不会随自变量值(模型没有异方差性)的变化而变化。该测试的零假设测试模型稳定性。对于大小为95%的置信度,p值(概率)小于0.05表示模型具有统计学上的显著异方差性和/或不稳定性。如果该测试的结果具有统计学上的显著性,需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计学上显著不稳定性的回归模型通常很适合进行地理加权回归分析。(5)评评估模型偏差。估模型偏差。Jarque-Bera统

12、统计计量量用用于于指指示示残残差差是是否否呈呈正正态态分分布布。该测试的零假设为残差呈正态分布。因此,如果为这些残差建立直方图,这些残差的分布将高斯分布相似。当该测试的p值(概率)较小(例如,对于大小为95%的置信度,其值小于0.05)时,回归不会呈正态分布,并指示您的模型有偏差。(6)评评估残差空估残差空间间自相关。自相关。对对回回归归残残差差运运行行空空间间自自相相关关(Morans I)可确保回归残差在空间上随机分布。高残差和/或低残差(模型偏高预计值和偏低预计值)在统计学上的显著聚类表明模型中的某个关键变量缺失了。当错误指定了模型时,OLS结果不可信。GWR提出的背景和意义在空间分析(

13、Spatial analysis)中,变量的观测值(数据)一般都是按照某给定的地理单位为抽样单位得到的,随着地理位置的变化,变量间的关系或者结构会发生变化,这种因地理位置的变化而引起的变量间关系或结构的变化称之为空间非平稳性(spatial nonstationarity)。这种空间非平稳性普遍存在在空间数据中,如果采用通常的线性回归模型或莫伊特定形式的非线性回归函数来分析空间数据,一般很难得到满意的结果,因为全局模型(global model)在分析之前就假定了变量间的关系具有同质性(homogeneity),从而掩盖了变量间关系的局部特性,所得结果也只有研究区域内的某种“平均”,因此需要对

14、传统的分析方法进行改进。改进方法改进方法采用局部回归分析,根据回归区域的不同可以分为分区回归和移动窗口回归。变参数回归模型。全局模型中的参数是地理位置的某种函数,从而参数在空间中的变化趋势就可以被度量出来。但是这两种模型都没有充分考虑数据的空间结构,就有了GWR的提出。在总结前人局部回归分析和变参数研究的基础上,Fortheringham等人(1996)基于局部光滑的思想,提出了地理加权回归(GeographicallyWeightedRegression)模型,将数据的空间位置嵌入到回归参数中,利用局部加权最小二乘方法进行逐点参数估计,其中权是回归点所在的地理空间位置到其他各观测点的地理空间

15、位置之间的距离函数。地理加权回归模型地理加权回归模型是对普通线性回归模型的扩展,将数据的地理位置嵌入到回归参数中,即:这里的 为第i个采样点的坐标(如经纬度),是第i个采样点上的第k个回归参数,是地理位置的函数。简便记为:空间权函数的选择地理加权回归模型的核心是空间权重矩阵,它是通过选取不同的空间权函数来表达对数据久安空间关系的不同认识。空间权函数的正确选取对地理加权回归模型参数的正确估计非常重要,介绍常用的几种空间全函数。1.距离阈值法2.距离反比法3.Gauss函数法4.截尾型函数法在实际应用中我们发现,地理加权回归分析对Gauss函数和bi-square函数的选择并不是很敏感,但是对特定

16、权函数的宽带却很敏感,宽带过大回归参数估计的偏差过大,宽带过小又会导致回归参数估计的方差过大,那么如何选择一个合适的宽带呢?1.交叉验证法(CV)2.AIC准则1.1.空间自相关性(空间自相关性(AutocorrelationAutocorrelation)Morans I和Gearys c2.2.共线性共线性容许度(Tolerance):越接近1,共线性越小。方差膨胀因子(VIF):容许度的倒数,越接近1,共线性越小。条件指标(Condition Index):10以下多重共线性较弱,100以上存在严重的共线性。方差比例(Variance Proportion):同一特征值序号上的两个或者多

17、个系数的方差比例较大,共线性越强。实验数据实验数据研究区域研究区域:美国本土的506个经济发展区膀膀胱胱癌癌死死亡亡率率数数据据:国际癌症研究所Atlas癌症死亡率,1970-1994年,年龄标准化死亡率(每年每10万人)肺肺癌癌死死亡亡率率:1954-1969年,年龄标准化死亡率数局人人口口密密度度:取每年人口密度的自然对数普通线性回归模型分析GWR模型分析现在回归系数根据经济发展区变化而变化,通过交叉验证(VC),GWR核函数的波段宽度的估计为1.27。拟合系数变为0.52,提高了拟合精度。估计的系数展现出一种明显的变化,在一些地区出现了违反直觉的负相关关系,肺癌和人口密度都是,而且人口密

18、度的负相关更加明显。Wheeler等人用散点图估计系数之间的相关性。对回归系数进一步探索他们之间的独立性,方差比例和条件指数作为诊断工具。在506个SEA中,13个SEA的状态指数大于30,85个的条件指数要大于20,500个的条件指数大于10。436个方差比例大于0.5,在这些最大方差比例中,又有431个的条件指数大于10。总体来说,方差变异分解和条件指数在一定程度上说明了局部共线性的存在。另外通过总结,可以分析相关性具体位于哪个位置上。一个条件指数和方差比例的平行坐标图,一个条件指数的直方图。在最大条件指数下的30个SEAs的选择集被高亮显示。在相关系数图中也按照条件指数大于30的用黄色标注,周边靠近海洋的地方大部分被选择。在平行坐标系中很清楚可以看到大部分被选择的点在截距和肺癌死亡率上存在最大的方差变异。通过表1可以看到,方差比例和条件指数。条件指数大于30的时方差比例最大,截距和斜率拥有最大的方差变异,意味着两个回归系数可以由一个组分来解释。在上幅图中,吸烟指数与人口密度的协同方差主要位于中西部和东北部地区,GWR相关系数应该被慎重考虑。作为一种可以选择的GWR,贝叶斯模型应该是合适的。中西部地区的回归系数在图中标示,用GWR和贝叶斯模型做一种比较。一定的相反性很明显,例如比GWR模型系数更加明显。Thank You!汇报结束谢谢大家!请各位批评指正

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!