动植物基因组denovo常见问题

上传人:m**** 文档编号:198184700 上传时间:2023-04-07 格式:DOCX 页数:14 大小:221.36KB
收藏 版权申诉 举报 下载
动植物基因组denovo常见问题_第1页
第1页 / 共14页
动植物基因组denovo常见问题_第2页
第2页 / 共14页
动植物基因组denovo常见问题_第3页
第3页 / 共14页
资源描述:

《动植物基因组denovo常见问题》由会员分享,可在线阅读,更多相关《动植物基因组denovo常见问题(14页珍藏版)》请在装配图网上搜索。

1、动植物基因组de novo常见问题基础知识1、什么是基因组de novo测序?答:对某一物种进行高通量测序,利用高性能计算平台和生物信息学方法 在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序 列图谱。2、普通基因组的定义?答:单倍体,纯合二倍体或者杂合度0.5%,且重复序列含量50% , GC 含量为35%到65%之间的二倍体。3、复杂基因组的定义?答:杂合率0.5%,重复序列含量50% ,GC含量处于异常的围(GC 含量V 35%或者GC含量65% =的二倍体,多倍体。诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组(0.5% V杂合率V 0.8%=、高杂合基因组(杂合率

2、0.8%)以及高重 复基因组(重复序列比例50%)。4、怎么查询基因组的大小?答:查询植物基因组大小的:data.kew.org/cvalues/CvalServlet?querytype=2查询动物基因组大小的:genomesize./search.php。5、基因组的项目周期?6、基因组承诺的组装指标?10答:简单基因组:contig N5020K , scaffold N50500K复杂基因组:contig N5020K , scaffold N50300K。样品要求1、动植物基因组测序对取样有什么要求?答:植物:需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本量500 gg1mg,越

3、多越好。选择纯合或杂合度尽可能小的样品(杂合度v 0.5% )。动物:应选取肌肉、血液等含脂肪较少的部位取样,尽量选择同 一个体取样,以减少个体差异性对后续拼接的影响。基因组样本量 500 gg1mg越多越好。样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。2、全基因组测序对 DNA 样本有什么要求?答:(1)样品需求量(单次):小片段文库,A3四;2Kb5Kb大片段文库,20四;10Kb20Kb大片段文库,60四;完成全基 因组测序样 品 DNA 量需求约为 500 gg1mg ;(2)样品浓度:对于小片段文库,50ng/此 对于2Kb5

4、Kb大片段文库, 150ng/对于10Kb20Kb大片段文库,150ng/出;(3)样品纯度:0D260/280=1.82.0;无蛋白质、RNA污染或肉眼可见杂质污染;(4)样品质量:基因组完整。如需建立 5Kb 的插入片段文库,则电泳结果,基因组DNA主带23Kb ;脉冲场电泳结果,基因组DNA主 带 40Kb 。文库构建1 、 基因组测序的文库构建及测序策略? 答:简单基因组: 180bp、 500bp、 2K、 5K、 10K; PE100 测序; 测序深 度一般为 100-150X ;复杂基因组:180bp、300bp、500bp、2K、5K、10K、20K;PE100 测序;测序深度

5、一般为 200-300X。2、 DNA Fragment 文库的定义、用途及实验流程?答:(1)定义:将基因组或大片段DNA随机打断成v 800bp的小片段(主要 为 200bp、 300bp、 500bp 等),加上特定接头做成 DNA 文库后直接对 DNA片段进行单末端(Single-End )或者双末端(Paired-End )测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。(2) 用途:DNA Fragment文库制备的整个过程只需2天,单末 端测序长度可达100bp,双末端为200bp。该技术测序通量高,可在全基因 组水平上最大限度的、完整的获取基因组及多态性信息。广泛地应用

6、于基因组的 de novo 测序、基因组重测序、 BAC 测序和 长片段 PCR 产物测序等。(3) 实验流程:基因组DNA随机打断1DNA 片段的末端修复4将加入到DNA片段的3 实端在 DNA 片段的末端加上特定接头4PCR扩增连上接头的DNA片段I文崖检测DNA在cRt的成筱扩增1上机测序J| 生物信息分析3、DNA mate-pair文库的定义、用途及实验流程?答:(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb );然后经末 端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成 400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段 捕获

7、。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不 需要克隆到细菌中,直接在Illumina测序仪上进行测序。通过大片段文库构 建,从而获得基因组中较大跨 度(2-20kb )片段两端的序列。(2) 用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和 基因组结构变异发掘具有非常重要的作用。(3) 实验流程:基因组DNA精机打断特定大小片段X末端貌夏1生物点标记荻得来自片段两湍3缶0网p的DKA片段修济、加搔头LFCK扩瘫上接头的DNA片段i文庠觑DNA在岛上的成簇扩堵i上机刻 J?1生物信舄分析信息分析1、什

8、么是 Read、Contig、Scaffold ?答:Read :测序读到的碱基序列片段,测序的最小单位;Contig :由 reads通过对overlap区域拼接组装成的没有gap的序列段;Scaffold :通过 pair ends 信息确定出的 contig 排列,中间有 gap。2、 什么是 N50 , N70 , N90 ?答:把组装出的contigs或scaffolds从大到小排列,当其累计长度 刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变

9、为70%或90%3、普通基因组的解决方案?答:诺禾采用白主升级的SOAPdenovoll进行普通基因组组装。组装流程(图1)包括:(1) 构建不同长度的插入片段文库(2)构建 de Brujin 图;化简de Brujin图;(4) 构建 contigs ;(5) 构建 scaffolds ;(6) 补 gaps ;诺禾致源的技术升级包括:(1) 开发了新的序列纠错模块,降低测序错误对组装的影响;(2) 在contigs组装步骤,开发了 Step K连接模块,以混合 拼接算法连接contigs,从而提升原始的contigs长度;(3)在 scaffolds 组装步骤,开发了 ctg dista

10、nce evaluation模块,更精确地评估contigs间的距离;同时开发了 scafconstruction模块,以新的连接单位来组装scaffold ,从而提升scaffolds的连接准确率及长度图1基因组de novo测序及拼接组装流程经过以上几步,最终简单基因组的组装结果至少应达到contigN5020K , scaffold N50300K。4、复杂基因组(二倍体杂合)的解决方案?答:针对复杂基因组中二倍体杂 合基因组,诺禾致源开发了 NOVOheter软件,成功实现了二倍体杂合基因 组组装。与SOAPdenovo相比,NOVOheter软件组装二倍体杂合基因组 的技 术创新主要

11、体现在以下几个方面:(1) 通过高深度测序(200-300X )将基因组上的杂合和纯合区域 分开;(2) 利用 reads 信息和 PE 关系连接杂合位点,延长原始 contigs : 在杂合 部分间距离较短的情况下,利用 reads 信息将杂合位点连接起 来,若杂合部 分间距离较长时,利用 Pair-End 关系连接杂合位点(所 以需要加入更多类型 的小片段文库,以连接不同距离的杂合位点), 从而提高了 contigs 的长度 为后续组装打下基础(图 3);图 3 基于 NOVOheter 软件构建 contigsa:利用深度信息区分杂合部分(覆盖度为n)和纯合部分(覆盖度为 2n);b :

12、若杂合部分的距离较短(如 60bp ),则可利用 reads 信息将杂 合位点连接起来;c: 若杂合部分的距离较长(如 400bp ),则利用 Pair-End 关系, 将杂合位 点连接起来;d :得到杂合 contigs 。注:图中不同颜色的点表示杂合位点。分区域构建scaffolds同样利用contigs深度信息区分纯合contigs和杂 合 contigs ;利用 Pair-End 关系将纯合 contigs ,杂合 contigs 分别组装成 scaffolds ;最后将相邻的纯合 contigs 和杂合 contigs 进行连接,构建更长的 scaffolds。5、如何评价组装结果?

13、 答:常染色体区的覆盖度:评价基因组常染色体区的覆盖度,可以用BAC或者是Fosmid序列来评估;把已公布或者客户提供的BAC或fosmid克隆序列作为Refrence,将拼接完成的基因组序列map回 已知的 BAC或者fosmid序列上,检查拼接的序列对已知序列的覆 盖度到什么水平。基因区的覆盖度:评价基因区的覆盖度,可以用 EST 序列或者 是转 录组序列来评估;把已公布或者客户提供的EST 或转录组序列作为query序列map到拼接完成的基因组序列上,检查拼接序列对已知序 列的覆盖度是达到什么水平。6、影响基因组组装的因素? 答:基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。7、基因组项目的标准生物信息分析的容? 答:基因组项目的标准生物信息分析的容如下:(1) 数据处理;(2) 基因组组装:基因组评估:基因组大小、GC含量、复杂序列、杂合度评;组装:数据纠错;Contig、Scaffold组装;Gap填充;组装 质量分析、评估和结果统计;(3) 基因组注释:重复序列注释;基因预测;基因组功能注释;非 编码 RNA 注释;(4) 比较基因组学分析:基因家族鉴定;基因组共线性分析;全基因组复制分析(动物: WGAC ;植物: WGD); 正选择基因的鉴定及功能分析;基因家族的扩增收缩分析; 系统发育分析;物种分化时间估。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!