不得不读:缺失数据处理.ppt

上传人:w****2 文档编号:17752325 上传时间:2020-12-05 格式:PPT 页数:21 大小:2.27MB
收藏 版权申诉 举报 下载
不得不读:缺失数据处理.ppt_第1页
第1页 / 共21页
不得不读:缺失数据处理.ppt_第2页
第2页 / 共21页
不得不读:缺失数据处理.ppt_第3页
第3页 / 共21页
资源描述:

《不得不读:缺失数据处理.ppt》由会员分享,可在线阅读,更多相关《不得不读:缺失数据处理.ppt(21页珍藏版)》请在装配图网上搜索。

1、 缺失数据的插补方法 中国科学院系统科学研究所 杨 军 联系方式: 报告提纲 缺失数据 为什么进行插补 单一插补 多重插补 几何插补 问题与挑战 缺失数据 在许多实际问题的研究中,有一些数据无 法获得或缺失。当缺失比例很小时,可直 接对完全记录进行数据处理,舍弃缺失记 录。 但在实际数据中,往往缺失数据占有 相当的比重,尤其是多元数据。这时前述 的处理将是低效率的,因为这样做丢失了 大量信息,并且会产生偏倚,使不完全观 测数据与完全观测数据间产生系统差异。 什么是插补 给每一个缺失数据一 些替代值,如此得 到“完全数据集”后,再使用完全数据 统计分析方法分析数据并进行统计推断。 80年代以后,

2、人们开始重视数据缺失问 题,着力研究插补方法。迄今为 止,提 出并发展了 30多种的插补方法。在抽样 调查中应用的主要是单一插补和多重插 补。 为什么进行插补 允许应用标准的完全数据分析方法 能融合数据收集者的知识 数据缺失使数据结构复杂化,需要使用更 复杂的统计工具进行分析,而插补可以缓 解这一困难 能够防止删除不完全记录造成的信息丢失 在一些情形下,插补能够减少无回答偏倚 特别注意: 插补的目的并不是预测单个缺失 值,而是预测缺失数据所服从的分布 单一插补 单一插补指对每个缺失值,从其预测分 布中取一个值填充缺失值后,使用标准 的完全数据分析进行处理。单一插补的 方法很多,总的说来可以归为

3、两类:随 机插补和确定性插补。常用的确定性插 补方法有以下几种: 推理插补 均值插补 热平台插补 冷平台插补 最近邻插补 在插补类中按匹配变量找到和受者记录最接近的供者记录替 代缺失记录 比率 /回归插补 根据辅助信息与样本中的有效回答记录建立一个比率或回归 模型 EM算法 每一种确定性的插补方法都对应着一种随 机插补方法。插补定量数据时,用确定性 的方法得到一个插补值,加上从某个适宜 的分布中产生的一个残差作为最后的插补 值,就成为随机插补。随机插补能更好地 保持数据的频数结构,保持比确定性插补 更真实的变异性。 下面绍两种贝叶斯观点的随机插补: 贝叶斯 Bootstap(ABB) 近似贝叶

4、斯 Bootstap(ABB) 单一插补的优点 1、标准的完全数据分析方法 2、对公众应用数据库,程序运行一次 缺点 低估估计量的方差 改进 校正估计量的方差,主要利用 Jackknife、 Bootstrap 等工具,给出方差的相合估计。 多重插补 单一插补往往会低估估计量的方差,为 改善这一弊病, 80年代前后, Rubin提出 了多重插补。后经 Rubin、 Meng X.L. 和 J.L. Schafer等人完善和发展,已经在著名 的统计软件 SAS中采用。多重插补是一 种以模拟为基础的方法,对每个缺失值 产生 m个合理的插补值,这样插补后,得 到 m组完全数据,使用标准的完全数据方

5、法分析每组数据并融合分析结果。 多重插补保持了单一插补的两个基本优点,即应用完全数据分析 方法和融合数据收集者知识的能力。相对于单一插补,多重插补有 三个极其重要的优点:第一,为表现数据分布,随机抽取进行插补, 增加了估计的有效性。第二,当多重插补是在某个模型下的随机抽 样时,按一种直接方式简单融合完全数据推断得出有效推断,即它 反映了在该模型下由缺失值导致的附加变异。第三,在多个模型下 通过随机抽取进行插补,简单地应用完全数据方法,可以对无回答 的不同模型下推断的敏感性进行直接研究。 多重插补缺点: 一、生成多重插补比单一插补需要更多工作 二、贮存多重插补数据集需要更多存储空间 三、分析多重插补数据集比单一插补需要花费 更多精力。 多重插补所面临的主要问题是如何得到缺失 数据的多个插补版本。为正确地进行插补,需 要首先要明确缺失机制,然后讨论插补机制。 问题与挑战 The end ! Thanks you very much !

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!