大规模表达序列标签测定及分析

上传人:san****019 文档编号:21182015 上传时间:2021-04-25 格式:PPT 页数:54 大小:1,010.10KB
收藏 版权申诉 举报 下载
大规模表达序列标签测定及分析_第1页
第1页 / 共54页
大规模表达序列标签测定及分析_第2页
第2页 / 共54页
大规模表达序列标签测定及分析_第3页
第3页 / 共54页
资源描述:

《大规模表达序列标签测定及分析》由会员分享,可在线阅读,更多相关《大规模表达序列标签测定及分析(54页珍藏版)》请在装配图网上搜索。

1、中 山 大 学 生 科 院 主 要 内 容 ESTs的 来 源 上 世 纪 80年 代 , 对 cDNA序 列 进 行 大 规 模 测 序 的 想 法 就 曾 提 出 , 但 对 此一 直 存 在 争 论 , 有 人 认 为 这 种 方 法 能 发 现 成 千 上 万 的 新 基 因 ; 而 反 对 者 则 认为 cDNA序 列 缺 少 重 要 的 基 因 调 控 区 域 的 信 息 。 90年 代 初 Graig Venter 提 出了 EST的 概 念 , 并 测 定 了 609条 人 脑 组 织 的 EST, 宣 布 了 cDNA大 规 模 测 序 的 时代 的 开 始 (Adams e

2、t al., 1991)。 93年 前 ESTs数 据 收 录 于 GenBank, EBI和 DDBJ。 1993年 NCBI(National Center of Biotechnology Information)建 立 了一 个 专 门 的 EST数 据 库 dbEST来 保 存 和 收 集 所 有 的 EST数 据 。02468101214161820总EST条目 (million) 1993 1995 1997 1999 2001时 间 ( 年 )dbEST中 数 据 量 的 增 长 什 么 是 ESTs ?ESTs( Expressed Sequence tags ) 是 从 已

3、 建 好 的 cDNA库 中 随 机 取 出 一 个克 隆 , 从 5末 端 或 3末 端 对 插 入 的 cDNA片 段 进 行 一 轮 单 向 自 动 测 序 , 所获 得 的 约 60-500bp的 一 段 cDNA序 列 。 ESTs与 基 因 识 别 ESTs已 经 被 广 泛 的 应 用 于 基 因 识 别 , 因 为 ESTs的 数 目 比 GenBank中 其 它 的 核 苷 酸 序 列 多 , 研 究 人 员 更 容 易 在 EST库 中 搜 寻 到 新 的 基 因(Boguski et al., 1994). 在 同 一 物 种 中 搜 寻 基 因 家 族 的 新 成 员

4、(paralogs)。 在 不 同 物 种 间 搜 寻 功 能 相 同 的 基 因 (orthologs)。 已 知 基 因 的 不 同 剪 切 模 式 的 搜 寻 。 【 注 : 不 过 很 难 确 定 一 个 新的 序 列 是 由 于 交 替 剪 切 产 生 的 或 是 由 于 cDNA文 库 中 污 染 了 基 因 组DNA序 列 (Wolfsberg et al., 1997)】 ESTs与 基 因 图 谱 的 绘 制 EST可 以 借 助 于 序 列 标 签 位 点 (sequence-tagged sites)用 于 基 因 图 谱 的构 建 . STS本 身 是 从 人 类 基

5、因 组 中 随 机 选 择 出 来 的 长 度 在 200-300bp左 右 的经 PCR检 测 的 基 因 组 中 唯 一 的 一 段 序 列 。 来 自 mRNA的 3非 翻 译 区 的 ESTs更适 合 做 为 STSs, 用 于 基 因 图 谱 的 绘 制 。 其 优 点 主 要 包 括 : 由 于 没 有 内 含 子 的 存 在 , 因 此 在 cDNA及 基 因 组 模 板 中 其 PCR产 物 的大 小 相 同 ; 与 编 码 区 具 有 很 强 的 保 守 性 不 同 , 3UTRs序 列 的 保 守 性 较 差 , 因 此很 容 易 将 单 个 基 因 与 编 码 序 列 关

6、 系 非 常 紧 密 的 相 似 基 因 家 族 成 员 分 开 。 ( James Sikela等 , 1991年 )GeneMap 96 定 位 了 16,000个 基 于 基 因 的 STS(Schuler et al., 1996);GeneMap 98 定 位 了 30,000个 基 于 基 因 的 STS(Deloukas et al., 1998), 而且 基 因 图 谱 随 着 STS的 定 位 正 在 不 断 的 更 新 中 。 ESTs与 基 因 预 测 由 于 EST来 源 于 cDNA, 因 此 每 一 条 EST均 代 表 了 文 库 建 立 时 所 采 样品 特 定

7、 发 育 时 期 和 生 理 状 态 下 的 一 个 基 因 的 部 分 序 列 。 使 用 合 适 的 比 对参 数 , 大 于 90 的 已 经 注 释 的 基 因 都 能 在 EST库 中 检 测 到 (Bailey et al., 1998)。 ESTs可 以 做 为 其 它 基 因 预 测 算 法 的 补 充 , 因 为 它 们 对 预 测 基 因的 交 替 剪 切 和 3 非 翻 译 区 很 有 效 。 ESTs与 SNPs 来 自 不 同 个 体 的 冗 余 的 ESTs可 用 于 发 现 基 因 组 中 转 录 区 域 存 在 的 SNPs。最 近 的 许 多 研 究 都 证

8、明 对 ESTs数 据 的 分 析 可 以 发 现 基 因 相 关 的 SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 应 注 意 区 别 真 正 的 SNPs和 由 于 测 序 错 误 ( ESTs为 单 向 测 序 得 来 , 错 误 率可 达 2 )而 引 起 的 本 身 不 存 在 的 SNPs。 解 决 这 一 问 题 可 以 通 过 : 提 高 ESTs分 析 的 准 确 性 。 对 所 发 现 的 SNPs进 行 实 验 验 证 。 利

9、 用 ESTs大 规 模 分 析 基 因 表 达 水 平 因 为 EST序 列 是 从 某 以 特 定 的 组 织 的 cDNA文 库 中 随 机 测 序 而 得 到 , 所 以 可 以 用 利 用 未 经 标 准 化和 差 减 杂 交 的 cDNA文 库 EST分 析 特 定 组 织 的 基 因 表 达 谱 。 标 准 化 的 cDNA文 库 和 经 过 差 减 杂 交 的cDNA文 库 则 不 能 反 应 基 因 表 达 的 水 平 。 CGAP 为 研 究 癌 症 的 分 子 机 理 , 美 国 国 家 癌 症 研 究 所 NCI的 癌 症 基 因 组 解 析 计 划 (Cancer G

10、enome Anatomy Project , CGAP)构 建 了 很 多 正 常 的 或 是 癌 症 前 期 的 和 癌 症 后 期 的 组 织 的 cDNA文 库 , 并 进 行了 大 规 模 的 EST测 序 , 其 中 大 部 分 的 文 库 未 经 标 准 化 或 差 减 杂 交 处 理 。CGAP网 站 提 供 了 多 种 工 具 用 以 分 析 不 同 文 库 间 基 因 表 达 的 差 异 , 如 : Digital Gene Expression Displayer (DGED) cDNA xProfiler 基 因 表 达 系 列 分 析 (Serial Analysis

11、 of G ene Expression, SAGE) 基 因 表 达 系 列 分 析 是 一 种 用 于 定 量 , 高 通 量 基 因 表 达 分 析 的 实 验 方 法 (Velculescu et al., 1995)。SAGE的 原 理 就 是 分 离 每 个 转 录 本 的 特 定 位 置 的 较 短 的 单 一 的 序 列 标 签 ( 约 9-14个 碱 基 对 ) , 这 些 短的 序 列 被 连 接 、 克 隆 和 测 序 , 特 定 的 序 列 标 签 的 出 现 次 数 就 反 应 了 对 应 的 基 因 的 表 达 丰 度 。 DNA微 阵 列 或 基 因 芯 片 的

12、研 究 高 密 度 寡 核 苷 酸 cDNA 芯 片 或 cDNA微 阵 列 是 一 种 新 的 大 规 模 检 测 基 因 表 达 的 技 术 , 具 有 高 通 量分 析 的 优 点 。 在 许 多 情 况 下 , cDNA芯 片 的 探 针 来 源 于 3EST (Duggan et al., 1999), 所 以 EST序 列的 分 析 有 助 于 芯 片 探 针 的 设 计 。 Serial analysis of gene expression (SAGE) 技 术 流 程反转录酶切连接 测序单条测序对3040条EST测序分析由于采样量大大提高,可对低表达基因进行分析:基因表达量分

13、析、寻找新基因等等 基 因 芯 片 或 微 阵 列 技 术 流 程. Clone反 转 录 ( 可 选 )读 取 光 密 度 聚 类 分 析 ( 非 同 源 功 能 注 释 )标 记 杂 交反 转 录EST分 析 . G ene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表 达 量矩 阵G1,G3,G5 G2,G4 G6,G9 利 用 EST, SAGE分 析 结 果制 作 芯 片 ( 研 究 已 发 现 的基 因 )连 接 ,转 化 Rice genome-wide DNA chip (60,000+预 测 基因 ) 果 蝇 基 因 芯 片 原 位合 成 几

14、种 大 规 模 分 析 基 因 表 达 水 平 的 方 法 的比 较 EST SAGE Microarray GeneChip 发 现 新 基 因 是 是 否 否 有 序 列 是 ( 可 直 接 进 行 可 变 剪 切 的 分 析 ) 否 否 否 主 要 问 题 采 样 量 实 验 过 程 重 复 性 成 本 高 ESTs很 短 , 没 有 给 出 完 整 的 表 达 序 列 ; 低 丰 度 表 达 基 因 不 易 获 得 。 由 于 只 是 一 轮 测 序 结 果 , 出 错 率 达 2%-5%; 有 时 有 载 体 序 列 和 核 外 mRNA来 源 的 cDNA污 染 或 是 基 因 组

15、 DNA的 污 染 ; 有 时 出 现 镶 嵌 克 隆 ; 序 列 的 冗 余 , 导 致 所 需 要 处 理 的 数 据 量 很 大 。ESTs数 据 的 不 足 体 内 : 翻 译体 外 研 究 : 反 转 录连 接 ,转 化 一 、 cDNA文 库 构 建 非 标 准 化 的 cDNA文 库 的 构 建 。 经 标 准 化 或 扣 除 杂 交 处 理 的 cDNA文 库 。 OligoT cDNA文 库 。 随 机 引 物 cDNA文 库 。 cDNA文 库 的 构 建 及 其 均 一 化 扣 除 杂 交 处 理For subtraction of cDNA libraries the

16、procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are to be subtracted from the original library) Reference: Bonaldo, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791-806. 扣

17、 除 杂 交 技 术 的 发 展 扣 除 杂 交 技 术 最 早 应 用 是 在 20世 纪 80年 代 初 , 当 时 的 目 的 是 为 了 构 建 非 洲 爪 蟾 的胚 囊 cDNA文 库 和 制 备 差 异 表 达 基 因 的 特 异探 针 。 差 异 表 达 的 基 因 通 过 检 测 样 本 cDNA(tester)和 过 量 的 对照 样 本 mRNA (driver)的 相 互 杂 交 而 得 到 。 在 检 测 样 本 cDNA (tester)和 对 照 样 本 mRNA (driver)同 时 表 达 的 基 因 会 形 成 mRNA/cDNA 杂 交 分 子 , 而 检

18、 测 样 本 特 异 表 达 的 基 因则 保 持 单 链 状 态 。 单 链 分 子 和 双 链 分 子 通 过 羟 磷 灰 石 层 析 而 分 离 , 分 离 得 到 的 单 链分 子 是 检 测 样 本 特 异 表 达 的 基 因 。 差 异 表 达 的 cDNA可 以 直 接 被 克 隆 或 通 过 cDNA文库 筛 选 而 得 到 。 这 个 方 法 后 来 又 得 到 改 进 , 包 括 用 生 物 素 标 记和 oligo(dT)30-latex标 记 cDNA, 以 增 加 单 双 链 分 子 的 分 离 效 率 。 后 来 , 通 过 PCR选 择性 cDNA扩 增 技 术

19、被 应 用 到 扣 除 杂 交 中 , 以 克 服 以 往 扣 除 杂 交 中 需 要 大 量 起 始 mRNA的 缺 点 , 并 可 以 同 时 提 高 基 因 克 隆 地 效 率 。 扣 除 技 术 的 进 一 步 成 熟 是 在 1996年 , Gurskaya 等 (1996) 和 Diatchenko 等 (1996) 同时 发 表 了 关 于 扣 除 杂 交 的 改 进 方 法 , 其 主 要 的 技 术 方 法 类 似 , 这 个 技 术 叫 抑 制 性 扣除 杂 交 技 术 ( Suppression Subtractive Hybridization, SSH) 。 SSH的

20、 原 理 与 基 本 过 程原 理 : SSH的 基 本 原 理 是 以 抑 制 PCR为 基 础 的 DNA扣 除 杂 交 方 法 。 所 谓 抑 制 PCR, 是利 用 链 内 退 火 优 于 链 间 退 火 , 比 链 间 退 火 更 稳 定 , 从 而 使 非 目 的 系 列 片 段 两 端 反 向 重 复系 列 在 退 火 时 产 生 类 似 于 “ 锅 柄 ” 的 结 构 , 无 法 与 引 物 配 对 , 选 择 性 地 抑 制 了 非 目 的 基因 片 段 的 扩 增 。 同 时 , 该 方 法 运 用 了 杂 交 二 级 动 力 学 原 理 , 即 丰 度 高 的 单 链 c

21、DNA在 退火 时 产 生 同 源 杂 交 的 速 度 要 快 于 丰 度 低 的 单 链 cDNA, 从 而 使 原 来 在 丰 度 上 有 差 别 的 单链 cDNA相 对 含 量 达 到 基 本 一 致 。基 本 过 程 : 分 别 抽 提 代 测 样 本 (tester) 和 对 照 样 本 ( driver)的 mRNA, 反 转 录 成cDNA, 用 RsaI或 HaeIII酶 切 , 以 产 生 大 小 适 当 的 平 头 末 端 cDNA片 段 , 将 tester cDNA分成 均 等 的 两 份 , 各 自 接 上 两 种 接 头 , 与 过 量 的 driver cDNA

22、变 性 后 退 火 杂 交 , 第 一 次 杂交 后 有 4种 产 物 : a是 单 链 tester cDNA, b是 自 身 退 火 的 tester cDNA双 链 , c是 tester 和diver的 异 源 双 链 , d是 driver cDNA。 第 一 次 杂 交 的 目 的 是 实 现 tester单 链 cDNA均 一 化(normalization),即 使 原 来 有 丰 度 差 别 的 单 链 cDNA的 相 对 含 量 达 到 基 本 一 致 , 由 于 tester cDNA中 与 driver cDNA序 列 相 似 的 片 段 大 都 和 driver形 成

23、 异 源 双 链 分 子 c, 使 tester cDNA中 的 差 异 表 达 基 因 的 目 标 cDNA得 到 大 量 富 集 , 第 一 次 杂 交 后 , 合 并 两 份 杂 交 产 物 , 再加 上 新 的 变 性 driver单 链 , 再 次 退 火 杂 交 , 此 时 , 只 有 第 一 次 杂 交 后 经 均 等 化 和 扣 除 的单 链 tester cDNA和 driver cDNA一 起 形 成 各 种 双 链 分 子 , 这 次 杂 交 进 一 步 富 集 了 差 异 表达 基 因 的 cDNA, 产 生 了 一 种 新 的 双 链 分 子 e, 它 的 两 个 5

24、端 有 两 个 不 同 的 接 头 , 正 由 于这 两 上 不 同 的 接 头 , 使 其 在 以 后 的 PCR中 被 有 效 地 扩 增 。 二 、 序 列 测 定 及 数 据 分 析 测 序 方 向 的 选 择根 据 不 同 的 实 验 目 的 选 择 不 同 的 测 序 方 向 : 5 端 5 上 游 非 翻 译 区 校 短 且 含 有 较 多 的 调 控 信 息 。 一 般 在 寻 找 新基 因 或 研 究 基 因 差 异 表 达 时 用 5 端 EST较 好 , 大 部 分 EST计 划 都是 选 用 5 端 进 行 测 序 的 , 而 且 从 5 端 测 序 有 利 于 将 E

25、ST拼 接 成较 长 的 基 因 序 列 。 3 端 3 端 mRNA有 一 20 200bp的 plyA结 构 , 同 时 靠 近 plyA又 有 特 异性 的 非 编 码 区 , 所 以 从 3 端 测 得 EST含 有 编 码 的 信 息 较 少 但 研究 也 表 明 , 10 的 mRNA3 端 有 重 复 序 列 , 这 可 以 作 为 SSR标 记 ;非 编 码 区 有 品 种 的 特 异 性 , 可 以 作 为 STS标 记 两 端 测 序 获 得 更 全 面 的 信 息 。 1. 去 除 低 质 量 的 序 列 ( Phred)2. 应 用 BLAST、 RepeatMaske

26、r或 Crossmatch遮 蔽 数 据 组 中 不 属 于 表 达 的 基因 的 赝 象 序 列 (artifactual sequences)。 载 体 序 列 重 复 序 列 污 染 序 列 (如 核 糖 体 RNA、 细 菌 或 其 它 物 种 的 基 因 组 DNA等 )3. 去 除 其 中 的 镶 嵌 克 隆 。4. 最 后 去 除 长 度 小 于 100bp的 序 列 。序 列 前 处 理 (pre-processing) 镶 嵌 克 隆 的 识 别 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the se

27、quence. Blastn/Blastx search. ESTs的 聚 类 和 拼 接 聚 类 的 目 的 就 是 将 来 自 同 一 个 基 因 或 同 一 个 转 录 本 的 具 有 重 叠 部 分 (overlapping)的 ESTs整 合 至 单 一 的 簇 (cluster)中 。聚 类 作 用 :v 产 生 较 长 的 一 致 性 序 列 (consensus sequence) , 用 于 注 释 。v 降 低 数 据 的 冗 余 , 纠 正 错 误 数 据 。v 可 以 用 于 检 测 选 择 性 剪 切 。ESTs聚 类 的 数 据 库 主 要 有 三 个 :v Uni

28、Gene ( )v TIGR Gene Indices ( )v STACK 不 严 格 的 和 严 格 的 聚 类 (loose and stringent clustering) loose clustering 产 生 的 一 致 性 序 列 比 较 长 表 达 基 因 ESTs数 据 的 覆 盖 率 高 含 有 同 一 基 因 不 同 的 转 录 形 式 , 如 各 种 选 择 性 剪 接 体 每 一 类 中 可 能 包 含 旁 系 同 源 基 因 (paralogous expressed gene)的 转 录 本 序 列 的 保 真 度 低 stringent clustering

29、 产 生 的 一 致 性 序 列 比 较 短 表 达 基 因 ESTs数 据 的 覆 盖 率 低 因 此 所 含 有 的 同 一 基 因 的 不 同 转 录 形 式 少 序 列 保 真 度 高 有 参 照 的 和 无 参 照 的 聚 类 (Supervised and unsupervised clustering) Supervised clustering 根 据 已 知 的 参 考 序 列 (如 全 长 mRNA、 已 拼 接 好 的 一 致 性 序 列 ) 聚 类 。 Unsupervised clustering 没 有 根 据 参 考 序 列 进 行 分 类 。 聚 类 的 算 法

30、 基 于 BLAST和 FASTA的 脚 本 (BLASTN and FASTAbased scripts) BLASTN和 FASTA算 法 的 本 身 目 的 在 于 寻 找 序 列 间 的 局 部 相 似 性 或 同 源 性 , 这 与 聚 类 的目 的 不 同 , 即 通 过 两 个 序 列 是 否 具 有 一 致 性 的 重 叠 或 连 续 的 比 对 来 判 断 二 者 是 否 能 归 成 一 类 。结 合 BLAST和 FASTA查 找 的 结 果 , 采 用 解 释 性 语 言 (如 Perl)编 写 的 脚 本 , 具 备 了 3方 面 的 功 能 ,即 运 行 查 找 过

31、程 、 解 析 (Parsing)查 找 的 结 果 和 按 照 用 户 定 义 的 标 准 判 断 两 个 序 列 是 否 为 一 类 。 基 于 字 的 聚 类 (Wordbased clustering) 基 于 字 的 聚 类 省 略 了 所 有 的 比 对 过 程 , 其 核 心 在 于 识 别 并 计 算 序 列 间 有 多 少 长 度 为 n的 字(word)能 够 匹 配 , 而 且 并 未 采 用 有 关 克 隆 的 来 源 及 注 释 信 息 , 代 表 性 的 算 法 是 d2_cluster。 该 算法 为 一 种 凝 聚 性 (agglomerative)的 聚 类

32、算 法 (即 每 一 类 从 单 一 的 序 列 开 始 , 通 过 一 系 列 的 合 并 形成 最 后 的 类 ), 它 可 以 被 描 述 为 最 小 联 接 聚 类 (minimal linkage clustering)。 即 , 假 设 两 条 序 列 A和 B, 如 果 二 者 存 在 一 定 水 平 的 相 似 , 那 么 将 A、 B归 于 一 类 ; 即 便 二 者 并 没 有 任 何 相 似 性 , 若存 在 序 列 C, 而 且 C同 时 与 A、 B都 有 足 够 的 相 似 性 , 那 么 也 将 A、 B归 于 一 类 。 类 和 类 之 间 的 联 接 标 准

33、是 识 别 两 个 序 列 在 一 定 大 小 窗 口 中 相 同 的 碱 基 数 。 常 用 的 拼 接 软 件 Phrap (http:/www.genome.washington.edu/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu H uang , ) d2_cluster (http:/www.sanbi.ac.za/) Cluster的 连 接利 用 cDNA克 隆 的 信 息 和 5,3端 Reads的 信 息 , 不 同 的 Cluster可以 连 接 在 一 起 。 UniGene Unigene 结 合 有 指 导 的 和 无 指 导

34、 的 方 法 , 而 且 在 聚 类 过 程 中 使 用 了 不 同 水平 的 严 格 度 , 聚 类 的 算 法 为 megablast,数 据 库 不 产 生 一 致 性 序 列 。 TIGR Gene Index用 的 是 有 严 格 的 和 有 指 导 的 聚 类 方 法 ,聚 类 的 算 法 为类 似 于 BLAST和 FASTA的 FLAST, 该 法 得 到 的 一 致 性 序 列 较 短 , 交 替 剪 切得 到 的 不 同 的 基 因 属 于 不 同 的 索 引 。 STACK STACK 用 不 严 格 的 和 无 指 导 的 聚 类 方 法 , 聚 类 的 算 法 为 d

35、2_cluster,产 生较 长 的 一 致 性 序 列 , 同 一 索 引 中 含 有 不 同 的 剪 切 方 法 得 到 的 基 因 。 Clean Short and Tight TIGR-THCUniGeneSTACK Long and Loose 基 因 注 释 及 功 能 分 类注 释 : 序 列 联 配 Blastn, Blastx 蛋 白 质 功 能 域 搜 索 (二 结 构 比 对 ) Pfam Interpro 基 因 功 能 分 类 手 工 分 类 大 部 分 以 Adams 95年 的 文 章 中 的 采 用 分 类 体 系 为 标 准 。【 Adams. MD, et

36、 al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 计 算 机 批 量 处 理 利 用 标 准 基 因 词 汇 体 系 Gene Ontology, 进 行 近 似 的 分 类 。 ( G O 的 组 织 结 构 : 定 向 无 环 图 ( directed acyclic graphs DAGs) 各 大 数 据 库 中 基

37、因 或 基 因 产 物 与 G O 术 语 的 对 照 后 续 分 析 比 较 基 因 组 学 分 析 基 因 表 达 谱 分 析 新 基 因 研 究 基 因 可 变 剪 切 分 析 实 验 验 证 MicroArray GeneChip RTPCR Northen bloting 实例介绍家 猪 脑 组 织 EST分 析 文 库 信 息Library name cbe ece fce ecc fcc ebs fbsTissue Cerebellum Cortex cerebrum Brain stemDevelop-mental phase adult Foetus 50d Foetus 1

38、00d Foetus 50d Early born 107d Foetus 50d Newborn 115d 文 库 与 序 列 质 量 检 验聚 类 和 重 叠 群 分 析ORF的 寻 找功 能 分 类 和 注 释表 达 谱 分 析交 替 剪 接 分 析 分 析 过 程 序 列 长 度 和 质 量 处 理v序 列 长 度 : 无 统 一 标 准 , 一 般 认 为 100bp以 上 的 EST即 可 代 表 足 够 表 达 基 因 信 息v序 列 质 量 处 理污 染 序 列 去 除 , 包 括 载 体 序 列 、 细 菌 基 因 组 序 列(Crossmatch)重 复 序 列 的 屏 蔽

39、 ( RepeatMasker)低 质 量 区 去 除 ( Q20)扔 掉 100bp以 下 的 序 列 序 列 长 度 和 质 量 分 布 0 100 200 300 400 500 600 700 800 9000 50 100 150 200 250 300 350 400 450 Sequence Length Distribution Sequence Length(step=4) Seq uenc e Nu mbe r 15 20 25 30 35 40 45 500 500 1000 1500 2000 2500 3000 3500 4000 Sequence Quality D

40、istribution Average Quality(step=1) Seq uenc e Nu mbe r v聚 类 和 重 叠 群 ( Contig)分 析High-quality ESTs 46011, Avg. full length: 388.5 , Avg. quality: 35.9 per base拼 接 软 件 高 质 量 序 列 contigs singletsPhrap 46011 5740 10763Cap3 46011 5176 13459 0 20 40 60 80 1000 0.5 1 1.5 2 2.5 3 3.5 Contig Size Lo g1 0 #

41、of Co nti g N um be r Contig Size Distribution Based on phrap assembly Contig 大 小 分 布 BLAST search result (based on phrap assembly, e=1e-10) 对 GenBank蛋 白 质 和 核 酸 库 BLAST结 果 33% 41% 26% hits vs nr hits vs nt &no hits vs nr no hits vs nt&nr 对 人 EST库 BLAST结 果 76% 24% hits no hits BLAST Search against h

42、uman genome sequence(e=1e-5) 0 200 400 600 800 1000 1200 1400 Hs _1 Hs _2 Hs _3 Hs _4 Hs _5 Hs _6 Hs _7 Hs _8 Hs _9 Hs _1 0 Hs _1 1 Hs _1 2 Hs _1 3 Hs _1 4 Hs _1 5 Hs _1 6 Hs _1 7 Hs _1 8 Hs _1 9 Hs _2 0 Hs _2 1 Hs _2 2 Hs _X Hs _Y 对 人 类 染 色 体 blast结 果 功 能 分 类 和 注 释按 照 Gene Ontology( 基 因 分 类 标 准 词 汇

43、 体 系 ) 的三 个 标 准 分 子 功 能 、 生 物 学 过 程 和 细 胞 组 分 对序 列 注 释 classification by molecular function 0 1 2 3 4 5log10 of ESTs number transporter activity translation regulator activitytranscription regulator activity structural molecule activity signal transducer activityprotein tagging activity obsolete mot

44、or activity enzyme regulator activitydefense/immunity protein activity chaperone activity cell adhesion molecule activitycatalytic activity binding apoptosis regulator activityantioxidant activity classification by biological process 0 1 2 3 4 5 log10 of ESTs number viral life cycle physiological pr

45、ocesses obsolete development cellular process biological_process unknown behavior 表 达 量 比 较 实 例Apoptosis inhibitor protein( TCTP abundance comparison) 0 10 20 30 40 50 # of ESTs cbe ece fce ecc fcc ebs fbs library name ESTs number of TCTP 0 0.2 0.4 0.6 0.8 1 percentage cbe ece fce ecc fcc ebs fbs library name ESTs percentage of TCTP

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!