系统发育树的详细构建方法

上传人:zou****hua 文档编号:173530577 上传时间:2022-12-11 格式:DOCX 页数:10 大小:26.44KB
收藏 版权申诉 举报 下载
系统发育树的详细构建方法_第1页
第1页 / 共10页
系统发育树的详细构建方法_第2页
第2页 / 共10页
系统发育树的详细构建方法_第3页
第3页 / 共10页
资源描述:

《系统发育树的详细构建方法》由会员分享,可在线阅读,更多相关《系统发育树的详细构建方法(10页珍藏版)》请在装配图网上搜索。

1、构建系统发育树需要注意的几个问题1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘 故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、 科或者目。5 枝长可以用来表示类间的真实进化距离。6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多 不正确的树中挑选正确的树。7 没有一种方法能够保证

2、一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检 测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好 的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。分子进化研究的基本方法对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示 进化动力的实质。表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型 性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息, 因而可用于研究进化的途径。这两种关系可用于系统进化(ph

3、ylogenetictree)或树状图 (dendrogram)来表示。表型分枝S(phenogram)和进化分枝图(cladogram)两个术语已用于表 示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群 间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使 “系统进化树” 词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相 同或含义略有差异的名称。系统进化树分有根(rooted)和无根(unrooted )树。有根树反映了树上物种或基因的时间 顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问 。用于构

4、建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提 供了基因、个体、群体或物种的信息;二是E离数据(dis tance data)或相似性数据 (similari ty data),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可 由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵 (dis tance mat rix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依 据一定的遗传模型,并能够表示出两个分类单位间的变化量 系统进化树的构建质量依 赖于距离估算的准确性。1) 打开 clus tal X,载入上述序列,“load

5、 sequences”“ou tpu tforma top ti ons” :“CLASTAL FORMAT”; CLASTAL SEQUENCES NUMBERS:ON;ALIGNMENT PARAMETERS:“RESET NEW GAPS BEFOR ALIGNMENT” “MULTIPLE ALIGNMENT PARAMETERS”设置相关参数2) “DO COMPLETE ALIGNMENT”fFILESAVE AS,掐头去尾。3) 打开 MEGA 4,FILECONVERT TO MEGA FORMATESAVEFILEOPEN DATACONTAINING PROTAIN SEQ

6、UENCES NO PHYLOGENYBOOTSTRAP TEST OF PHYLOGENYN J 设置相关参数。最后看到系统发育树二 这里要介绍的是 Bioedit-Mega 建树法,简单实用,极易上手。1 将所测得的序列在 NCBI 上进行比对,这个就不多讲了。2 选取序列保存为 text 格式。3运行Bioedit,使用其中的CLUSTAL W进行比对。4运用MEGA 4建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进 行 N-J 建树。此法简单实用,树形美观。构建系统进化树的详细步骤1. 建树前的准备工作11相似序列的获得一一BLASTBLAST 是目前常用的数据库搜

7、索程序,它是 Basic Local Alignment Search Tool 的缩写, 意为“基本局部相似性比对搜索工具”(Altschul et al.,199062;199763)。国际著名生物信息中 心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标 序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和 日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序

8、列。把序列以FASTA格式(即第一行为说明 行,以“”符号开始,后面是序列的名称、说明等,其中“”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以 NCBI 为例。登录 NCBI 主页-点击 BLAST-点击 Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN 结果如何分析(参数意义):gi|2817183

9、2|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60Sbjct: 1 gacgaacgctggcggcgtgcttaacacatg

10、caagtcgagcggtaaggcccttc-ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于le-10, 就比对很好了,多数情况下为 0;Identities :提交

11、的序列和参比序列的相似性,如上所指为1 497 个核苷酸中二者有1382 个相 同;Gaps: 一般翻译成空位,指的是对不上的碱基数目;Strand:链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus 则二者皆为正向。1.2 序列格式: FASTA 格式由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的 FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大 于号“”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便 程序处理。多条核酸和蛋白质序列格式

12、即将该格式连续列出即可,如下所示:E.coli1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acacatgcaa61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac AY631071 Jiangella gansuensis YIM 0021 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggccc tttcgggggt61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg c

13、cttcagctc tgggataagc其中的为Clustal X默认的序列输入格式,必不可少。其后可以是种属名称,也可以是 序列在Genbank中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长, 一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时Clustal X程序只默认 前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式 编辑成为一个文本文件(例:C:tempjc.txt),即可导入Clustal X等程序进行比对建树。2. 构建系统树的相关软件和操作步骤构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化

14、树评估。鉴于以 上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree构建的相关软件 和操作步骤。2.1用Clustal X构建N-J系统树的过程(1) 打开Clustal X程序,载入源文件.File-Load sequences- C:tempjc.txt.(2) 序列比对Alignment - Output format options - 7 Clustal format ; CLUSTALW sequence numbers: ON Alignment - Do complete alignment(Output Guide Tree file, C:tempjc

15、.dnd; Output Alignment file, C:tempjc.aln; )Align f waiting等待时间与序列长度、数量以及计算机配置有关。(3) 掐头去尾File-Save Sequence as.Format: O CLUSTALGDE output case: LowerCLUSTALW sequence numbers: ONSave from residue: 39 to 1504 (以前后最短序列为准)Save sequence as: C:tempjc-a.alnOK将开始和末尾处长短不同的序列剪切整齐。这里,因为测序引物不尽相同,所以比对后序列 参差不齐。

16、一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。剪 切后的文件存为ALN格式。(4) File-Load sequences-Replace existing sequences?-Yes- C:tempjc-a.aln 重新载入剪切后的序列。(5) Trees-Output Format OptionsOutput Files : 7 CLUSTAL format tree 7 Phylip format tree 7 Phylip distance matrix Bootstrap labels on: NODECLOSETrees-Exclude positions

17、 with gapsTrees-Bootstrap N-J Tree :Random number generator seed(1-1000) : 111Number of bootstrap trails(1-1000): 1000SAVE CLUSTAL TREE AS: C:tempjc-a.njbSAVE PHYLIP TREE AS: C:tempjc-a.njbphbOK f waiting.等待时间与序列长度、数量以及计算机配置有关。在此过程中,生成进化树文件*.njbphb, 可以用 TreeView 打开查看。(6) Trees-Draw N-J TreesSAVE CLU

18、STAL TREE AS: C:tempjc-a.njSAVE PHYLIP TREE AS: C:tempjc-a.njphSAVE DISTANCE MATRIX AS: C:tempjc-a.njphdstOK此过程中生成的报告文件*.nj比较有用,里面列出了比对序列两两之间的相似度,以及转换 和颠换分别各占多少。(7) TreeViewFile-Open-C:tempjc-a.njbphbTree- phylogram(unrooted, slanted cladogram, Rectangular cladogram 多种树型)Tree- Show internal edge lab

19、els (Bootstrap value)(显示数值)Tree- Define outgroup. f ingroup outgroup f OK(定义夕卜群)Tree- Root with outgroup 通常需要对进化树进行编辑,这时首先要 Edit-Copy 至 PowerPoint 上,然后 Copy 至 Word 上,再进行图片编辑。如果直接Copy至Word则显示乱码,而进化树不能正确显示。2.2 Mega 建树虽然Clustal X可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega因为操 作简单,结果美观,很多研究者选择用它来建树。(1) 首先用 Clustal

20、X 进行序列比对,剪切后生成 C:tempjc-a.aln 文件;(同上) 打开BioEdit程序,将目标文件格式转化为FASTA格式,File-Open- C:tempjc-a.aln,File-Save As- C:temp jc-b.fas ;(3) 打开 Mega 程序,转化为 mega 格式并激活目标文件,File-Convert To MEGA Format- C:temp jc-b.fas f C:temp jc-b.meg, 关闭 Text Editor 窗口 -(Do you want to save your changes before closing?-Yes); Cl

21、ick me to activate a data file- C:tempjc-b.meg-OK- (Protein-coding nucleotide sequence data?-No) ;Phylogeny-Neighbor-Joining(NJ)Distance Options-Models-Nucleotide: Kimura 2-parameter;7d: Transitions+Transversions;Include Sites- Pairwise DeletionTest of Phylogeny- Bootstrap; Replications 1000; Random

22、 Seed 64238OK;开始计算一得到结果;(4) Image-Copy to Clipboard-粘贴至 Word 文档进行编辑。此外,Subtree中提供了多个命令可以对生成的进化树进行编辑,Mega窗口左侧提供了很多 快捷键方便使用;View中则给出了多个树型的模式。下面只介绍几种最常用的: Subtree-Swap :任意相邻两个分支互换位置;-Flip:所选分支翻转180度;-Compress/Expand :合并/展开多个分支;-Root :定义外群;View-Topology :只显示树的拓扑结构;-Tree/Branch Style :多种树型转换;-Options:关于树

23、的诸多方面的改动。2.3 TREECON打开 Clustal X, File-Load sequences-jc-a.aln, File-Save Sequence as.(Format-PHYLIP; Save from residue-1 to 末尾; Save sequence as : C:tempjc.phy);打开 TREECON 程序,(1) Distance estimation点击 Distance estimation-Start distance estimation, 打开上面保存的 jc.phy 文件,Sequence Type-Nuleic Acid Sequenc

24、e, Sequence format-PHYLIP interleaved, Select ALL, OK; Distance Estimation-Jukes&Cantor(or Kimura), Alignment positions-All, Bootstrap analysis-Yes, Insertions&Deletions-Not taken into account, OK;Bootstrap samples-1000, OK;运算,等待Finished-OK。(2) Infer tree topology点击 Infer tree topology-Start inferri

25、ng tree topology,Method-Neighbor-joining, Bootstrap analysis-Yes, OK.;运算,等待Finished-OK。(3) Root unrooted trees点击 Root unrooted trees-Start rooting unrooted trees, Outgroup opition-single sequence(forced),Bootstrap analysis-Yes, OK;Select Root-X89947, OK;运算,等待.Finished-OK。(4) Draw phylogenetic tree点击

26、 Draw phylogenetic tree, File-Open-(new) tree, Show-Bootstrap values/ Distance scale。 File-Copy,粘贴至Word文档,编辑。TREECON的操作过程看起来似乎较MEGA烦琐,且运算速度明显不及MEGA,如果参数 选择一样,用它构建出来的系统树几乎和MEGA构建的完全一样,只在细节上,比如 Bootstrap值二者在某些分支稍有不同。在参数选择方面,TREECON和MEGA也有些不同, 但总体上相差不大。2.4 PHYLIPPHYLIP是多个软件的压缩包,下载后双击则自动解压。当你解压后就会发现PHYL

27、IP的功 能极其强大,主要包括五个方面的功能软件:i, DNA和蛋白质序列数据的分析软件。ii, 序列数据转变成距离数据后,对距离数据分析的软件。iii,对基因频率和连续的元素分析 的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对 序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软件。vi,绘制和修 改进化树的软件。在此,主要对DNA序列分析和构建系统树的功能软件进行说明。(1)生成PHY格式文件首先用Clustal X等软件打开剪切后的序列文件C:tempjc-a.aln另存为C:tempjc.phy(使用 File-Save Sequen

28、ces As 命令,Format 项选“PHY)。用 BioEdit 或记事本打开(2)打开 Phylip 软件包里的 SEQBOOT seqboot.exe: cant find input file infilePlease enter a new file name C:tempjc.phy按路径输入刚才生成的*.PHY文件,显示如下:Bootstrapping algorithm, version 3.6a3Settings for this run:D Sequence, Morph, Rest., Gene Freqs? Molecular sequencesJ Bootstrap

29、, Jackknife, Permute, Rewrite? BootstrapB Block size for block-bootstrapping? 1 R How many replicates? 100W Read weights of characters? NoC Read categories of sites? NoF Write out data sets or just weights? Data setsI Input sequences interleaved? Yes0 Terminal type none1 Print out the data at start

30、of run No2 Print indications of progress of run YesY to accept these of type the letter for one to changeRNumber of replicates?10000Settings for this run:D Sequence, Morph, Rest., Gene Freqs? Molecular sequencesJ Bootstrap, Jackknife, Permute, Rewrite? BootstrapB Block size for block-bootstrapping?

31、1 R How many replicates? 1000W Read weights of characters? NoC Read categories of sites? NoF Write out data sets or just weights? Data setsI Input sequences interleaved? Yes0 Terminal type IBM PC1 Print out the data at start of run No2 Print indications of progress of run YesY to accept these of typ

32、e the letter for one to changeYRandom number seed (must be odd)?5(any odd number)completed replicate number 100completed replicate number 200completed replicate number 300completed replicate number 400completed replicate number 500completed replicate number 600completed replicate number 700completed

33、 replicate number 800completed replicate number 900completed replicate number 1000上面的 D、J、R、I、O、1、2 代表可选择的选项,键入这些字母后敲回车键,程序的条件 就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife 和Permute。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生 成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当 我们设置好条件后,键入 Y

34、按回车。得到一个文件 outfile:C:Program FilesPhylipexe outfile. 重命名 outfileinfile(3) 打开 dnadist.exeNucleic acid sequence Distance Matrix program, version 3.6a3Settings for this run:D Distance ? F84G Gamma distributed rates across sites? NoT Transition/transversion ratio? 2.0C One category of substitution rates

35、? YesW Use weights for sites? NoF Use emperical base frequencies? YesL Form of distance matrix? SquareM Analyze multiple data sets? NoI Input sequences interleaved? Yes0 Terminal type ? 1 Print out the data at start of run No2 Print indications of progress of run YesY to accept these of type the let

36、ter for one to changedD Distance ? Kimura 2-parametermMultiple data sets or multiple weighs? (type D or W)dHow many data sets?10000Settings for this run:D Distance ? Kimura 2-parameterG Gamma distributed rates across sites? NoT Transition/transversion ratio? 2.0C One category of substitution rates?

37、YesW Use weights for sites? NoF Use emperical base frequencies? YesL Form of distance matrix? SquareM Analyze multiple data sets? Yes, 1000 data setsI Input sequences interleaved? Yes0 Terminal type ? IBM PC1 Print out the data at start of run No2 Print indications of progress of run YesY to accept

38、these of type the letter for one to changeY选项 D 有四种距离模式可以选择,分别是 Kimura 2-parameter、Jin/Nei、Maximum-likelihood 和 Jukes-Cantor 。选项 T 一般键入一个 1.5-3.0 之间的数字。选项 M 键入 1000。运行后生成 文件 C:Program FilesPhylipexe outfile。重命名 outfileinfile(4) 打开 neighbor.exeNeighbor-Joining/UPGMA method version 3.6a3Settings for t

39、his run:N Neighbor-Joining or UPGMA tree? Neighbor-JoiningO Outgroup root? No, Use as outgroup species 1L Lower-triangular data metrix? NoR Upper-triangular data metrix? NoS Subreplication? NoJ Randomize input order of species? No, Use input order M Analyze multiple data sets? No0 Terminal type ? 1

40、Print out the data at start of run No2 Print indications of progress of run Yes3 Print out tree Yes4 Write out trees onto tree file? YesY to accept these of type the letter for one to change mHow many data sets?1000 Random number seed (must be odd)?5Settings for this run:N Neighbor-Joining or UPGMA

41、tree? Neighbor-JoiningO Outgroup root? No, Use as outgroup species 1L Lower-triangular data metrix? NoR Upper-triangular data metrix? NoSSubreplication? NoJ Randomize input order of species? Yes M Analyze multiple data sets? Yes, 1000 sets0 Terminal type ? IBM PC1 Print out the data at start of run

42、No2 Print indications of progress of run Yes3 Print out tree Yes4 Write out trees onto tree file? YesY to accept these of type the letter for one to changeY 生成文件 C:Program FilesPhylipexe outtree&outfile。重命名 outtreeintree; outfilefinfile。2.4.5 打开 consense.exeConsensus tree program, version 3.6a3Setti

43、ngs for this run:C Consensus type ? Majority rule (extended) O Outgroop root? No, use as outgroup species 1R Trees to be treated as Rooted? NoT Terminal type ? 1 Print out the sets of the species Yes2 Print indications of progress of run Yes3 Print out tree Yes4 Write out trees onto tree file? YesAr

44、e these settings correct? RTSettings for this run:C Consensus type ? Majority rule (extended)R Trees to be treated as Rooted? YesT Terminal type ? IBM PC1 Print out the sets of the species Yes2 Print indications of progress of run Yes3 Print out tree Yes4 Write out trees onto tree file? YesY 生成文件 C:Program FilesPhylipexe outtree。重命名 outtreef jc.tre2.4.6 打开 TreeView打开 C:Program FilesPhylipexe jc.tre 。以下操作参照前述详细说明即可。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!