基于hadoop的序列比对和进化树构建方法

上传人:y****n 文档编号:223259080 上传时间:2023-07-17 格式:PPT 页数:16 大小:978KB
收藏 版权申诉 举报 下载
基于hadoop的序列比对和进化树构建方法_第1页
第1页 / 共16页
基于hadoop的序列比对和进化树构建方法_第2页
第2页 / 共16页
基于hadoop的序列比对和进化树构建方法_第3页
第3页 / 共16页
资源描述:

《基于hadoop的序列比对和进化树构建方法》由会员分享,可在线阅读,更多相关《基于hadoop的序列比对和进化树构建方法(16页珍藏版)》请在装配图网上搜索。

1、基于基于hadoop的序列比对和进化树构建方法的序列比对和进化树构建方法(1)整体框架介绍(2)序列比对设计方案(3)进化树构建设计方案(4)目前进展及进一步工作1、整体框架介绍输入:fasta格式的DNA序列文件输出:DNA序列比对文件、DNA序列进化树文件流程:(1)对输入文件进行格式处理 (2)多序列比对 (3)对比对结果做聚类预处理 (4)进化树构建1、整体框架介绍 TS00019ACCGyTGCTGACAACGACGCCAGTGCASGACGTS00020ACCGTGCGACACACGACGACGTTTGCGATGTS00021ATC TS00019ACCGTGCTGACAACGAC

2、GCCAGTGCAGACGTS00020ACCGTGCGACACACGACGACGTTTGCGATG Key value TS00019:ACCGTGCTGACAACGAC GCCAGTTS00020:ACCGTGCGACACACGACGACGTTT序列比对:输入:TS00019:ACCGTGCTGACAACGAC GCCAGTTS00020:ACCGTGCGACACACGACGACGTTT输出:TS00019ACCGTGCTGACA-ACGACGCCAGT-TS00020ACCGTGC-GACACACGACGAC-GTTT进化树构建输入:TS00019ACCGTGCTGACA-ACGACGC

3、CAGT-TS00020ACCGTGC-GACACACGACGAC-GTTT输出:(TS00019,TS00020),TS00058),(TS00033,TS18)2、序列比对设计方案汇总中心序列:new_s1 ACCGT-GCTGACA-ACGACGCCAGT-new_s1 ACCGT-GCTGACA-ACG-ACGCCAGTnew_s3 ACCGTGCTGACA-ACG-ACGCCAG-T-new_s4 ACCGT-GCTGACAACG-ACGCCAGT-final_s ACCGT-GCTGACA-ACG-ACGCCAG-T-2、序列比对设计方案Map1函数的输入输出格式2、序列比对设计方

4、案Map2函数的输入输出格式3、进化树构建设计方案比对后的序列计算其距离矩阵输入数据:TS0001ACCGTGCTGACA-ACGACGCCAGT-TS0002ACCGTGC-GACACACGACGAC-GTTTTS0003ACCGTGC-GACCCACGTCGAC-GCTTTS0004ACCGTGC-GATGACGGTCGACG-CTTTS0005ACCGTG-GACGCCGTGACGACG-CTT3、进化树构建设计方案(1)Neighbour-joining 进化树构建方法 n 次循环迭代,时间复杂度 O(n3)(2)进化树本质上是一个聚类过程 (3)预处理的聚类算法要求 时间复杂度低、粒

5、度大、子集合规模合理3、进化树构建设计方案进化树算法数据输入格式setID seq_name seq1 TS0019 ACGTGCTG-ACGTG-ACGTA1 TS0020 ACGTGCGTA-AGTCG-ATGAC2 TS0021 ACGTGGC-ACGTGCGATGAC2 TS0022 ACGT-CAGCTACGTGC-ACGT3 TS0023 ACGTG-GTGACGTGACGT-AG3、进化树构建设计方案MapReduce 的输入输出格式3、进化树构建设计方案reduce 函数的输入输出 输入 -NJ 算法 -输出 key value key value Name1 Seq1 seq

6、_r1 (s1,s2),s4)Name2 Seq2 Name3 Seq3 seq_r2 (s7,s8),(s9,s10)Name_n Seq_n3、进化树构建设计方案聚类算法探索 聚类要求 (1)时间复杂度低,避免聚类影响整体效率 (2)聚类粒度大,精度低,防止破坏进化树结构 (3)子集合簇相对均衡,控制算法效率 3、进化树构建设计方案目前采用的聚类方法.一趟聚类算法:输入:比对后的DNA序列集合输出:聚类后的子集合过程:步骤1:初始化时,聚类集合为空,从数据集中读取一个新的对象;步骤2:以这个对象构造一个新的簇;步骤3:若已到数据集末尾,则转步骤6),否则读入新的对象,计算它与 每个已有簇之

7、间的距离,并选择与它距离最小的簇;步骤4:若最小距离超过给定的阈值r,转步骤2);步骤5:否则将该对象并入该簇并更新该簇,转步骤3);步骤6:输出聚类后的子集合;4、目前进展及进一步工作程序有1600行代码,21个类,56个函数 所有核心代码都已经做了详细的注释4、目前进展及进一步工作对聚类算法的设想(1)一趟聚类+Apriori 算法(2)图遍历算法(3)最小割集算法(4)谱聚类算法4、目前进展及进一步工作一趟聚类+Apriori 算法执行k次一趟聚类算法 1,2,4 ,3,5,8 ,6,7 1,2,3,4,5,6,7,8 1,2,4 ,3,5 ,6,7,8 1,2,4 ,3,5 ,6,7,8

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!