芯片数据预处理方法.pptx

上传人:za****8 文档编号:20780585 上传时间:2021-04-18 格式:PPTX 页数:18 大小:767.20KB
收藏 版权申诉 举报 下载
芯片数据预处理方法.pptx_第1页
第1页 / 共18页
芯片数据预处理方法.pptx_第2页
第2页 / 共18页
芯片数据预处理方法.pptx_第3页
第3页 / 共18页
资源描述:

《芯片数据预处理方法.pptx》由会员分享,可在线阅读,更多相关《芯片数据预处理方法.pptx(18页珍藏版)》请在装配图网上搜索。

1、基因芯片数据预处理 分 类4个 技术 环 节 基 因 芯 片 ( gene chip) , 又 称 DNA微 阵 列 ( microarray) , 是由 大 量 DNA或 寡 核 苷 酸 探 针 密 集 排 列 所 形 成 的 探 针 阵 列 , 其 工 作 的 基本 原 理 是 通 过 碱 基 互 补 配 对 检 测 生 物 信 息 。实 验 要 求 : 单 通 道 一 张 芯 片 检 验 一 种 状 态 ;双 通 道 差 异 表 达 基因 的 筛 选储 存 的 生 物 信 息 : 寡 核苷 酸 芯 片 ( 常 为 单 通道 ) 、 cDNA芯 片 ( 常 为双 通 道 )基 因 芯 片

2、制 备 样 品 制 备 mRNA提 取 等杂 交 反 应信 号 检 测 与 分 析 基因芯片的实验流程(双通道) 单 通 道 /双 通 道 基 因 芯 片 实 例 杂 交 完 成 后 , 要 对 基 因 芯 片 进 行 “ 读 片 ” , 即 应 用 激 光 共 聚 焦 荧 光 扫描 显 微 镜 , 对 基 因 芯 片 表 面 的 每 个 位 点 进 行 检 测 。 基 因 芯 片 数 据 分 析 : 对 从 基 因 芯 片 高 密 度 杂 交 点 阵 图 中 提 取的 杂 交 点 荧 光 信 号 进 行 定 量 分 析 , 通 过 有 效 数 据 筛 选 和 相 关 基 因表 达 谱 聚 类

3、 , 发 现 基 因 的 表 达 谱 和 功 能 之 间 的 联 系 。探 针荧 光 值 基 因表 达 值 计 算 机 “ 读 片 ” 机 理 cDNA芯 片 、 载 有 较 长 片 段 的 寡 核 苷 酸 芯 片 采 用 双 色 荧 光 系 统 : 目 前 常 用 Cy3一 dUTP( 绿 色 ) 标 记 对 照 组 mRNA, Cy5一 dUTP( 红 色 ) 标 记 样 品 组 mRNA 用 不 同 波 长 的 荧 光 扫 描 芯 片 , 将 扫 描 所 得 每 一 点 荧 光 信 号 值 自 动 输 入 计算 机 并 进 行 信 息 处 理 , 给 出 每 个 点 在 不 同 波 长

4、下 的 荧 光 强 度 值 及 其 比 值 , 同时 计 算 机 还 给 出 直 观 的 显 色 图 。 在 样 品 中 呈 高 表 达 的 基 因 其 杂 交 点 呈 红 色 , 相 反 , 在 对 照 组 中 高 表 达 的基 因 其 杂 交 点 呈 绿 色 , 在 两 组 中 表 达 水 平 相 当 的 显 黄 色 ,这 些 信 号 就 代 表 了 样 品 中 基 因 的 转 录 表 达 情 况 。 将 样 品 中 的 DNA/RNA标 上 荧 光 标 记 , 则 可以 定 量 检 验 基 因 的 表 达 水 平 。 数 据 预 处 理 分 析 流 程 : 算 法( 以 cDNA芯 片

5、为 例 )探 针 水 平 数 据 获 得 ( 计 算 机 扫 描 图 像 )数 据 预 处 理 : 背 景 处 理 、 数 据 清 洗 、 提 取 表 达 值 、 标 准 化 、 汇 总获 取 基 因 表 达 数 据 : 判 断 差 异 基 因 表 达聚 类 和 分 析 1 探 针 水 平 数 据 ( probe-level data) 的 获 得 提 取 生 物 样 品 的 mRNA并 反 转 录 成 cDNA, 同 时 用 荧 光 素 或 同 位 素 标 记 。 在 液相 中 与 基 因 芯 片 上 的 探 针 杂 交 , 经 洗 膜 后 用 图 像 扫 描 仪 捕 获 芯 片 上 的 荧

6、 光 或 同 位素 信 号 , 由 此 获 得 的 图 像 就 是 基 因 芯 片 的 原 始 数 据 ( raw data) , 也 叫 探 针 水 平数 据 。 获 取 探 针 水 平 的 数 据 是 芯 片 数 据 处 理 的 第 一 步 , 然 后 需 要 对 其 进 行 预 处 理 (pre-processing) , 以 获 得 基 因 表 达 数 据 ( gene expression data) 。 基 因 表 达 数 据是 芯 片 数 据 处 理 的 基 础 。 基 因 芯 片 探 针 水 平 数 据 处 理 的 R软 件 包 有 affy, affyPLM, affycom

7、p, gcrma等 。 2 预 处 理2.1 背 景 ( background) 处 理 背 景 处 理 即 过 滤 芯 片 杂 交 信 号 中 属 于 非 特 异 性 的 背 景 噪 音 部 分 。 一般 以 图 像 处 理 软 件 对 芯 片 划 格 后 , 每 个 杂 交 点 周 围 区 域 各 像 素 吸 光 度 的平 均 值 作 为 背 景 , 但 此 法 存 在 芯 片 不 同 区 域 背 景 扣 减 不 均 匀 的 缺 点 。 也可 利 用 芯 片 最 低 信 号 强 度 的 点 ( 代 表 非 特 异 性 的 样 本 与 探 针 结 合 值 ) 或综 合 整 个 芯 片 非 杂

8、 交 点 背 景 所 得 的 平 均 吸 光 值 做 为 背 景 。 背 景 处 理 之 后 , 我 们 可 以 将 芯 片 数 据 放 入 一 个 矩 阵 中 : 其 中 , 各 字 母 的 意 义 如 下 :N: 条 件 数 ;G: 基 因 数 目 ( 一 般 情 况 下 , GN) ;行 向 量 mi=(mi1 ,mi2 ,miN)表 示 基 因 i在 N个 条 件 下 的 表 达 水 平 ( 这 里指 绝 对 表 达 水 平 , 亦 即 荧 光 强 度 值 ) ;列 向 量 mj=(m1 j,m2 j,mGj)表 示 在 第 j个 条 件 下 各 基 因 的 表 达 水 平( 即 一

9、张 芯 片 的 数 据 ) ;元 素 mij表 示 第 基 因 i在 第 j个 条 件 下 ( 绝 对 ) 基 因 表 达 数 据 。 m可 以是 R( 红 色 , Cy5 , 代 表 样 品 组 ) 。 也 可 以 是 G( 绿 色 , Cy3 ,代 表 对 照组 ) 。 2 .2 数 据 清 洗 ( data cleaning) 经 过 背 景 校 正 后 的 芯 片 数 据 中 可 能 会 产 生 负 值 , 还 有 一 些 单 个 异 常 大 ( 或 小 ) 的峰 ( 谷 ) 信 号 ( 随 机 噪 声 ) 。 对 于 负 值 和 噪 声 信 号 , 通 常 的 处 理 方 法 就 是

10、 将 其 去 除 ,常 见 数 据 经 验 型 舍 弃 方 法 有 : 标 准 值 或 奇 异 值 舍 弃 法 ; 变 异 系 数 法 ; 前 景 值 200;前 景 值 -平 均 数 /前 景 值 -中 位 数 80%等 等 。 然 而 , 数 据 的 缺 失 对 后 续 的 统 计 分 析 ( 尤其 是 层 式 聚 类 和 主 成 分 分 析 ) 有 致 命 的 影 响 。 Affy公 司 的 芯 片 分 析 系 统 会 直 接 将 负 值修 正 为 一 个 固 定 值 。 对 数 据 的 删 除 , 通 常 是 删 去 所 在 的 列 向 量 或 行 向 量 。 一 个 比 较 常 用

11、的 做 法 是 , 事先 定 义 个 阈 值 M。 若 行 ( 列 ) 向 量 中 的 缺 失 数 据 量 达 到 阈 值 M, 则 删 去 该 向 量 。 若 未达 到 M, 有 两 种 方 法 处 理 , 一 是 以 0或 者 用 基 因 表 达 谱 中 的 平 均 值 或 中 值 代 替 , 另 一个 是 分 析 基 因 表 达 谱 的 模 式 , 从 中 得 到 相 邻 数 据 点 之 间 的 关 系 , 据 此 利 用 相 邻 数 据 点估 算 得 到 缺 失 值 ( 类 似 于 插 值 ) 。 填 补 缺 失 值 ( k临 近 法 ) : 利 用 与 待 补 缺 基 因 距 离 最

12、 近 的 k个 临 近 基 因 的 表 达 值 来 预 测 待 填 补 基 因 的 表 达 值 。 根 据 邻 居 基 因 在 样 本 中 的加 权 平 均 估 计 缺 失 值 。 2 .3 提 取 表 达 值 由 于 芯 片 数 据 的 小 样 本 和 大 变 量 的 特 点 , 导 致 数 据 分 布 呈 偏 态 、 标 准 差 大 。对 数 转 换 能 使 上 调 、 下 调 的 基 因 连 续 分 布 在 0的 周 围 , 更 加 符 合 正 态 分 布 , 同 时对 数 转 换 使 荧 光 信 号 强 度 的 标 准 差 减 少 , 利 于 进 一 步 的 数 据 分 析 。 cDN

13、A芯 片 : 对 双 通 道 数 据 使 用 Cy5( 红 ) 和 Cys3( 绿 ) 两 种 荧 光 标 记 分 别 标 记case和 control样 本 的 cDNA序 列 。 扫 描 仪 采 用 两 种 波 长 对 基 因 芯 片 的 图 像 进 行 扫描 , 根 据 每 个 点 的 光 密 度 值 计 算 相 对 应 的 绝 对 表 达 量 (intensity); 然 后 图 像 分析 软 件 通 过 芯 片 的 背 景 噪 音 以 及 杂 交 点 的 光 密 度 分 析 , 对 每 个 点 的 intensity校准 , 利 用 Cy5/Cy3的 值 获 取 case与 cont

14、rol组 不 同 基 因 的 表 达 值 ratio( ( R/G ratio) ; 一 般 选 择 以 2为 底 的 对 数 转 化 数 据 , 比 如 R/G=1, 则 log 2R/G=0, 即 认为 表 达 量 没 有 发 生 变 化 , 当 R/G=2 或 者 , R/G=0.5, 则 log值 为 1 或 1, 这 是 可以 认 为 表 达 量 都 发 生 两 倍 的 变 化 。 以 下 的 数 据 处 理 都 是 对 log2R/G的 形 式 进 行 分 析 。 2 .4 归 一 化 经 过 背 景 处 理 和 数 据 清 洗 处 理 后 的 修 正 值 反 映 了 基 因 表

15、达 的 水 平 。 然 而 在 芯 片 试 验 中 ,各 个 芯 片 的 绝 对 光 密 度 值 是 不 一 样 的 , 在 比 较 各 个 试 验 结 果 之 前 必 需 将 其 归 一 化( normalization, 也 称 作 标 准 化 ) 。 数 据 的 归 一 化 目 的 是 调 整 由 于 基 因 芯 片 技 术 引 起 的 误 差 , 不 是 调 整 生 物 RNA 样 本 的 差 异 。在 同 一 块 芯 片 上 杂 交 的 、 由 不 同 荧 光 分 子 标 记 的 两 个 样 品 间 的 数 据 , 也 需 归 一 化 。 常 用 的标 准 化 方 法 有 “ 看 家

16、 基 因 法 ” 、 基 于 总 光 密 度 的 方 法 、 回 归 方 法 、 比 率 统 计 法 等 。 比 率 统 计 法 此 方 法 用 于 标 准 化 同 一 块 芯 片 上 杂 交 的 两 种 样 品 , 并 且 建 立 于 以 下 的 假 设 之 上 : 在 近似 的 两 个 样 品 中 , 虽 然 基 因 有 上 调 和 下 调 , 但 一 些 基 本 的 基 因 ( 如 管 家 基 因 ) 的 表 达 量 是近 似 相 同 的 。 由 此 得 出 一 个 近 似 概 率 密 度 公 式 : 比 率 T =R /G( R 和 G分 别 是 芯 片 上 第 K个 点 的 红 光

17、和 绿 光 的 强 度 ) , 经 过 迭 代 算 法 处 理 得 到 一 个 平 均 表 达 比 率 及 其 可 信 限 , 用 于 数 据的 标 准 化 计 算 。 常 用 的 方 法 是 平 均 数 、 中 位 数 标 准 化 (mean or median normalization):将 各 组 实 验 的 数 据 的 log ratio 中 位 数 或 平 均 数 调 整 在 同 一 水 平 。 中 位 数 标准 化 : 将 每 个 芯 片 上 的 数 值 减 去 各 自 芯 片 上 log Ratio值 的 中 位 数 , 使 得所 有 芯 片 的 log Ratio值 中 位

18、数 就 变 成 了 0, 从 而 不 同 芯 片 间 logRaito具 有 可比 性 。 3 差 异 基 因 表 达 分 析 经 过 预 处 理 , 探 针 水 平 数 据 转 变 为 基 因 表 达 数 据 。 为 了 便 于 应 用 一 些 统 计 和数 学 术 语 , 基 因 表 达 数 据 仍 采 用 矩 阵 形 式 。 倍 数 分 析 方 法 : 倍 数 变 换 fold change, 单 纯 的 case与 control组 表 达 值 相 比 较 ,对 没 有 重 复 实 验 样 本 的 芯 片 数 据 , 或 者 双 通 道 数 据 采 用 这 种 方 法 ( 该 方 法

19、是 对 基因 芯 片 的 ratio值 从 大 到 小 排 序 , 即 cy5 /cy3 比 值 , 一 般 0 .5 -2 .0 之 间 内 的 基 因 不 存 在差 异 表 达 , 范 围 之 外 存 在 差 异 表 达 。 缺 点 是 倍 数 选 取 具 有 任 意 性 , 可 能 不 恰 当 ) 参 数 法 分 析 ( t检 验 ) : 当 t超 过 根 据 可 信 度 选 择 的 标 准 时 , 比 较 的 两 样 本 被 认为 存 在 着 差 异 。 但 小 样 本 基 因 芯 片 实 验 会 导 致 不 可 信 的 变 异 估 计 , 此 时 采 用 调 节性 T检 验 。 非

20、参 数 分 析 : 由 于 微 阵 列 数 据 存 在 “ 噪 声 ” 干 扰 而 且 不 满 足 正 态 分 布 假 设 ,用 t检 验 有 风 险 。 非 参 数 检 验 并 不 要 求 数 据 满 足 特 殊 分 布 的 假 设 , 所 以 可 使 用 非参 数 方 法 对 变 量 进 行 筛 选 。 如 经 验 贝 叶 斯 法 、 芯 片 显 著 性 分 析 SAM法 。 常 用 的 利 用 R的 limma包 使 用 t检 验 筛 选 差 异 表 达 基 因 ,利 用 R的 siggenes包 使 用 SAM方 法 筛 选 差 异 表 达 基 因 。 False Discovery

21、Rate (FDR) 在 基 因 芯 片 的 实 验 中 , 每 一 个 基 因 /探 针 , 都 是 一 个 独 立 的 实 验 。 基 因 芯片 : 高 通 量 , 1,000个 基 因 /探 针 。 因 此 , 无 论 怎 么 比 较 , 总 会 有 一 些 基 因会 是 统 计 显 著 性 差 异 表 的 可 能 是 随 机 产 生 的 。 如 何 评 估 表 达 差 异 基 因 预 测 的 有 效 性 ? FDR = p-value * No. of Genes 例 : 1,000个 探 针 的 双 通 道 芯 片 , 以 p-value 0.01为 域 值 , 发 现 7个 上 调

22、 基因 , 5个 下 调 基 因 , 分 析 结 果 是 否 具 有 统 计 学 意 义 ? 计 算 : FDR= 0.01* 1,000=10 (随 机 ) 。 7个 上 调 基 因 , 5个 下 调 基 因 10, 因 此 上 例 计 算 的 结 果 无统 计 学 意 义 。 FDR必 须 远 小 于 发 现 的 差 异 表 达 基 因 数 目 。 另 一 种 常 用 基 因 芯 片 寡 核 苷 酸 表 达 谱 芯 片 的 数 据 预 处 理 : 由 于 探 针 长 度较 短 ( 20-25bp) , 采 用 匹 配 /失 配 探 针 对 方 法 , 即 设 计 一 个 特 异 的 寡 核

23、 苷 酸 ( PM匹 配 ) 、 同 时 设 计 一 个 非 特 异 性 的 寡 核 苷 酸 探 针 ( MM失 配 ) , 该 探 针 仅 仅 在 中间 位 置 有 一 个 碱 基 替 换 。 用 PM与 MM之 间 的 差 值 作 为 信 号 强 度 , 来 解 决 寡 核 苷 酸之 间 非 特 异 性 杂 交 的 噪 声 影 响 。 一 般 设 计 11-20对 探 针 来 检 测 一 个 转 录 本 。 寡 核 苷 酸 芯 片 与 cDNA芯 片 的 数 据 预 处 理 差 别 主 要 集 中 在 转 录 表 达 值 的 获 取 ,即 如 何 将 11-20对 探 针 值 转 化 为

24、单 个 转 录 的 表 达 值 呢 , 常 用 三 种 预 处 理 方 法 , 即MAS、 RAM法 、 MBEI法 。 MAS方 法 将 芯 片 分 为 k( 默 认 值 为 16) 个 网 格 区 域 , 用每 个 区 域 使 用 信 号 强 度 最 低 的 2%探 针 去 计 算 背 景 值 和 噪 声 。 R M A , 该 方 法 使 用 回旋 ( convolution) 模 型 计 算 出 芯 片 的 非 特 异 杂 交 背 景 均 值 , 然 后 以 P M 值 减 去 该 均 值 获 得 校 正 的 P M 值 , 再 以 对 数 相 加 模 型 计 算 转 录 的 表 达 值 。 使 用 软 件 提 取 表 达 值 : R的 affy包 ReadAffy()函 数 可 以 读 取 Affy公 司 出 的 CEL格 式寡 聚 核 苷 酸 芯 片 原 始 数 据 , 并 使 用 exprs函 数 ()查 看 表 达 值 。 了 解 芯 片 预 处 理 的 原 理 和 步 骤 后 , 完 全 可 以 用 一 个 R函 数 完 成 数 据处 理 得 到 表 达 值 , 如 Affy包 提 供 的 处 理 函 数 expresso( )。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!