机器学习中的特征选择

上传人:san****019 文档编号:20842122 上传时间:2021-04-19 格式:PPT 页数:30 大小:643.20KB
收藏 版权申诉 举报 下载
机器学习中的特征选择_第1页
第1页 / 共30页
机器学习中的特征选择_第2页
第2页 / 共30页
机器学习中的特征选择_第3页
第3页 / 共30页
资源描述:

《机器学习中的特征选择》由会员分享,可在线阅读,更多相关《机器学习中的特征选择(30页珍藏版)》请在装配图网上搜索。

1、Feature Selection for Classification李 军 政2017.5.10 2021-4-19 2 单击此处添加文字内容综述单击此处添加文字内容特征选择流程单击此处添加文字内容几种常用的特征选择算法单击此处添加文字内容总结1 234 综 述n What 从 全 部 特 征 中 选 取 一 个 特 征 子 集 , 使 构 造 出 来 的 模 型 更好 。n Why 在 机 器 学 习 的 实 际 应 用 中 , 特 征 数 量 往 往 较 多 , 其 中 可能 存 在 不 相 关 的 特 征 , 特 征 之 间 也 可 能 存 在 相 互 依 赖 , 容 易导 致 如

2、下 的 后 果 : l 分 析 特 征 、 训 练 模 型 耗 时 长l 模 型 复 杂 、 推 广 能 力 差l 引 起 维 度 灾 难2021-4-19 3 维 度 灾 难n 随 着 维 数 的 增 加 , 特 征 空 间 的 体 积 指 数 增 加 , 从 而 导 致 各方 面 的 成 本 指 数 增 加n 样 本 数 量n 存 储 空 间n 计 算 量n 2021-4-19 4如 何 从 中 选 出 有 用 的 特 征 ? ? 2021-4-19 5 单击此处添加文字内容综述单击此处添加文字内容特征选择流程单击此处添加文字内容几种常用的特征选择算法单击此处添加文字内容总结1 234 特

3、 征 选 择 流 程 2021-4-19 6 Generator EvaluationStop Rule ValidationSubset YesNoOriginal Feature Set 两 个 主 要 步 骤n 产 生 过 程q 特 征 子 集 的 产 生 可 以 看 作 是 一 个 搜 索 过 程 , 搜 索 空 间 中的 每 一 个 状 态 都 是 一 个 可 能 特 征 子 集 。q 搜 索 的 算 法 分 为 完 全 搜 索 (Complete), 启 发 式 搜 索(Heuristic), 随 机 搜 索 (Random) 3大 类 。n 评 价 函 数 q 评 价 函 数 是

4、 评 价 一 个 特 征 子 集 好 坏 的 准 则q 特 征 的 评 估 函 数 分 为 五 类 : 相 关 性 , 距 离 , 信 息 增 益 ,一 致 性 和 分 类 错 误 率 。 2021-4-19 7 搜 索 算 法 之 完 全 搜 索n 完 全 搜 索 分 为 穷 举 搜 索 与 非 穷 举 搜 索 两 类q 广 度 优 先 搜 索 (BFS )q 分 支 限 界 搜 索 (BAB) q 定 向 搜 索 (BS)q 最 优 优 先 搜 索 (Best First Search) 2021-4-19 8BS: 首 先 选 择 N个 得 分 最 高 的 特 征 作 为 特 征 子 集

5、 , 将 其 加 入 一 个 限 制最 大 长 度 的 优 先 队 列 , 每 次 从 队 列 中 取 出 得 分 最 高 的 子 集 , 然 后 穷举 向 该 子 集 加 入 1个 特 征 后 产 生 的 所 有 特 征 集 , 将 这 些 特 征 集 加 入 队列 。 搜 索 算 法 之 启 发 式 搜 索n 启 发 式 搜 索q 序 列 前 向 选 择 (SFS)q 序 列 后 向 选 择 (SBS)q 双 向 搜 索 (BDS)q 增 L去 R选 择 算 法 (LRS) n L和 R的 选 择 是 关 键q 序 列 浮 动 选 择 (Sequential Floating Select

6、ion)q 决 策 树 (DTM)2021-4-19 9LRS两 种 形 式 : 算 法 从 空 集 开 始 , 每 轮 先 加 入 L个 特 征 , 然 后 从 中 去 除 R个 特 征, 使 得 评 价 函 数 值 最 优 。 ( L R )在 训 练 样 本 集 上 运 行 C4 .5 或 其 他 决 策 树 生 成 算 法 , 待 决 策 树 充 分 生 长 后, 再 在 树 上 运 行 剪 枝 算 法 。 则 最 终 决 策 树 各 分 支 处 的 特 征 就 是 选 出 来 的特 征 子 集 。 一 般 使 用 信 息 增 益 作 为 评 价 函 数 。 L和 R怎 么 确 定 ?

7、 ? 搜 索 算 法 之 随 机 算 法n 随 机 算 法q 随 机 产 生 序 列 选 择 算 法 (RGSS)n 随 机 产 生 一 个 特 征 子 集 , 然 后 在 该 子 集 上 执 行 SFS与 SBS算 法q 模 拟 退 火 算 法 (SA) n 以 一 定 的 概 率 来 接 受 一 个 比 当 前 解 要 差 的 解 , 因 此 有 可 能 会 跳 出 这 个局 部 的 最 优 解 , 达 到 一 个 全 局 次 最 优 解q 遗 传 算 法 (GA)共 同 缺 点 : 依 赖 于 随 机 因 素 , 有 实 验 结 果 难 以 重 现 2021-4-19 10 评 价 函

8、数u 作 用 是 评 价 产 生 过 程 所 提 供 的 特 征 子 集 的 好 坏u 按 照 其 工 作 原 理 , 评 价 函 数 可 以 分 为 三 种 模 型 :n 过 滤 模 型 ( Filter Model)n 封 装 模 型 ( Wrapper Model )n 混 合 模 型 ( Embedded Model )u 被 称 为 特 征 选 择 的 经 典 三 刀 : n 飞 刀 ( Filter)n 弯 刀 ( Wrapper)n 电 刀 ( Embedded )2021-4-19 11 评 价 函 数 过 滤 模 型 2021-4-19 12 u 根 据 特 征 子 集 内

9、部 的 特 点 来 衡 量 其 好 坏 ,如 欧 氏 距 离 、 相 关 性 、 信 息 熵 等 特 征 子 集 在 学 习 算 法 运 行 之 前 就 被 选 定 学 习 算 法 用 于 测 试 最 终 特 征 子 集 的 性 能u 特 点 : 简 单 、 效 率 高 , 但 精 度 差 评 价 函 数 封 装 模 型u 学 习 算 法 封 装 在 特 征 选 择 的 过程 中 , 用 特 征 子 集 在 学 习 算 法上 得 到 的 挖 掘 性 能 作 为 特 征 子集 优 劣 的 评 估 准 则 。u 与 过 滤 模 型 相 比 , 精 度 高 、 但效 率 低 。 u 根 本 区 别

10、在 于 对 学 习 算 法 的 使用 方 式2021-4-19 13 评 价 函 数 混 合 模 型u 混 合 模 型 把 这 两 种 模 型 进 行 组 合 ,先 用 过 滤 模 式 进 行 初 选 , 再 用 封 装模 型 来 获 得 最 佳 的 特 征 子 集 。 2021-4-19 14 2021-4-19 15 常 用 评 价 函 数n 特 征 的 评 价 函 数 分 为 五 类 :相 关 性 ; 距 离 ; 信 息 增 益 ; 一 致 性 ; 分 类 错 误 率前 四 种 属 于 过 滤 模 型 , 分 类 错 误 率 属 于 封 装 模 型u 从 概 率 论 的 角 度 相 关

11、系 数 : q 值 域 范 围 : -1, +1q 绝 对 值 越 大 , 相 关 性 越 大 YX YXi i i ,cov 常 用 评 价 函 数u 从 数 理 统 计 的 角 度 (假 设 检 验 )n T检 验n 检 验n 与 相 关 系 数 在 理 论 上 非 常 接 近 , 但 更 偏 重 于 有 限 样 本下 的 估 计T检 验 统 计 量 :其 中 , n为 样 本 容 量 , 、 为 样 本 均 值 和 方 差 , 为 总体 方 差 。 2021-4-19 16 2x 常 用 评 价 函 数u 从 信 息 论 角 度n 条 件 熵q 与 “ 相 关 性 ” 负 相 关n 信

12、息 增 益n 相 对 信 息 增 益n 互 信 息 量 (Mutual Information) 2021-4-19 17 ii XYHYHXYIG | YHXYHYHXYRIG ii /| dYdXYPXP YXPYXPiMI iiii ,log, 常 用 评 价 函 数u IR领 域 的 度 量n ( 逆 ) 文 档 词 频 (inverse document frequency) n 词 强 度 (term strength)q 已 知 一 个 词 (特 征 )在 某 文 档 (实 例 )中 出 现 , 该 词 在 同 类 (目 标函 数 值 相 同 )文 档 中 出 现 的 概 率 为

13、 词 强 度2021-4-19 18tt DDidf log 总 文 档 数包 含 词 (特 征 )t的 文 档 数 j yYi yY dtdtPts | 常 用 评 价 函 数u 学 习 相 关 的 度 量n 分 类 准 确 率 准 确 率 、 召 回 率 、 F值 、 AUC等q 用 单 一 维 特 征 进 行 分 类 训 练 , 某 种 分 类 准 确 率 指 标 作 为 特 征的 有 效 性 度 量 q 复 杂 度 较 大q 不 一 定 有 合 适 的 准 确 率 指 标2021-4-19 19 2021-4-19 20 单击此处添加文字内容综述单击此处添加文字内容特征选择流程单击此处

14、添加文字内容几种常用的特征选择算法单击此处添加文字内容总结1 234 过 滤 模 型 Fish Scoren Fisher Score: 计 算 两 个 分 布 的 距 离n 第 i个 特 征 的 权 重 公 式 为 : 其 中 u ij和 pij分 别 是 第 i个 特 征 在 第 j类 中 的 均 值 和 方 差 , nj为 第 j类 中 实例 的 个 数 , ui为 第 i个 特 征 的 均 值 , K为 总 类 别 数 。n 缺 点 : 容 易 产 生 冗 余 特 征 , f1,f2 忽 略 组 合 特 征 , f1 | f22021-4-19 21 过 滤 模 型 Chi-Squar

15、ed testn 卡 方 检 验 利 用 统 计 学 中 的 假 设 检 验 思 想 , 利 用 卡 方 统 计 量来 衡 量 特 征 和 类 别 之 间 的 相 关 程 度 。n 卡 方 值 公 式 :其 中 , N是 文 档 总 数 ,A是 包 含 词 t且 属 于 c类 的 文 档 数 目B是 包 含 词 t且 不 属 于 c类 的 文 档 数 目C是 不 包 含 词 t且 属 于 c类 的 文 档 数 目 D是 不 包 含 词 t且 不 属 于 c类 的 文 档 数 目n sklearn.feature_selection.chi2(X, y)2021-4-19 22 过 滤 模 型

16、Reliefn Relief: 根 据 各 个 特 征 和 类 别 的 关 系 赋 予 特 征 不 同 的 权 重, 权 重 小 于 某 阈 值 的 将 被 移 除 。 2021-4-19 23 n Relief算 法 属 于 特 征 权 重 算 法 , 该 算 法 缺 点 在 于 : 他 们 可以 捕 获 特 征 与 目 标 概 念 间 的 相 关 性 , 却 不 能 发 现 特 征 间 的冗 余 性 。n Relief-F是 Relief的 升 级 版 , 可 用 于 多 分 类n 经 验 证 明 除 了 无 关 特 征 对 学 习 任 务 的 影 响 , 冗 余 特 征 同 样影 响 学

17、 习 算 法 的 速 度 和 准 确 性 , 也 应 尽 可 能 消 除 冗 余 特 征。 2021-4-19 24 封 装 模 型 增 量 法n 封 装 模 型 首 先 需 要 选 用 较 好 学 习 算 法 , 如 RF、 SVM、 LR、 KNN等n 可 以 使 用 前 面 提 到 的 各 种 缩 小 搜 索 空 间 的 尝 试 , 其 中 最 经典 的 是 启 发 式 搜 索 , 概 括 来 说 主 要 分 为 两 大 类 : 增 量 法 (SFS: sequential forward selection) 减 量 法 (SBS)2021-4-19 25 增 量 法 试 验 结 果

18、2021-4-19 26 q 增 /减 量 法 优 缺 点n 复 杂 度 关 于 维 数 为 或q 选 单 个 特 征 采 用 评 价 准 则 排 序 的 方 式 为 一 次q 选 单 个 特 征 采 用 测 试 全 部 特 征 的 方 式 为 二 次n 本 质 上 是 贪 心 算 法q 某 些 组 合 无 法 遍 历q 可 能 陷 入 局 部 极 值 2021-4-19 27 NO 2NO 2021-4-19 28 单击此处添加文字内容综述单击此处添加文字内容特征选择流程单击此处添加文字内容几种常用的特征选择算法单击此处添加文字内容总结1 234 总 结 2021-4-19 数 据 挖 掘

19、中 的 特 征 选 择 29 123 特 征 选 择 是 机 器 学 习 领 域 中 重 要 的 步 骤 , 具 有 重 要 的 学 术 意 义 和 研 究价 值根 据 不 同 的 搜 索 策 略 和 评 价 函 数 , 可 以 组 合 出 多 种 特 征 选 择 方 法 。 主要 分 三 类 : 过 滤 、 封 装 、 混 合 模 型 , 在 实 际 应 用 中 各 有 优 缺 , 我 们 应从 效 率 、 精 准 度 等 角 度 综 合 考 虑 对 比 , 选 用 最 优 的 特 征 选 择 方 法先 利 用 过 滤 模 型 去 除 一 部 分 无 用 或 贡 献 度 不 大 的 特 征 , 再 利 用 封 装 模型 进 行 特 征 选 择 , 是 一 个 不 错 的 步 骤 2021-4-19 30 谢 谢 !

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!