5-第五章-系统发生分析

上传人:仙*** 文档编号:165140806 上传时间:2022-10-26 格式:PPT 页数:140 大小:4.13MB
收藏 版权申诉 举报 下载
5-第五章-系统发生分析_第1页
第1页 / 共140页
5-第五章-系统发生分析_第2页
第2页 / 共140页
5-第五章-系统发生分析_第3页
第3页 / 共140页
资源描述:

《5-第五章-系统发生分析》由会员分享,可在线阅读,更多相关《5-第五章-系统发生分析(140页珍藏版)》请在装配图网上搜索。

1、Species PhylogenyOrangutanGorillaChimpanzeeHumanFrom the Tree of the Life Website,University of ArizonaGlobal Phylogeny of Fully Sequenced OrganismsScience.2006;311(5765):1283-7Toward automatic reconstruction of a highly resolved tree of life生物学家:生物学家:We have a dream Tree of Life:重建所有生物的进化历史并以系统树的重建

2、所有生物的进化历史并以系统树的形式加以描述形式加以描述梦想走进现实:梦想走进现实:How?最理想的方法:化石!最理想的方法:化石!零散、不完整零散、不完整比较形态学和比较生理学:确定大致的进化框架比较形态学和比较生理学:确定大致的进化框架 细细节存很多的争议节存很多的争议 (Comparative morphology)由由4种核酸组成种核酸组成 分子水平的进化表现为:分子水平的进化表现为:DNA序列的演序列的演化、氨基酸序列演化、蛋白质结构的演化化、氨基酸序列演化、蛋白质结构的演化 比较不同物种的有关比较不同物种的有关DNA序列序列 建立建立DNA序列的演化模序列的演化模型、氨基酸序列的演化

3、模型(数学模型)型、氨基酸序列的演化模型(数学模型)蛋白质结构的演化模型蛋白质结构的演化模型 (形态、性状的演化模型?)(形态、性状的演化模型?)与形态、性状包含的信息相比,基因组序列包含更多、更与形态、性状包含的信息相比,基因组序列包含更多、更复杂的信息结构复杂的信息结构第三种方案第三种方案 进化学的分子途径进化学的分子途径:源于同一祖先源于同一祖先DNA/氨基酸序列的两条氨基酸序列的两条DNA/氨基酸氨基酸序列,考察二者的差异。序列,考察二者的差异。:进化过程中分子突变的痕迹进化过程中分子突变的痕迹:以累计在:以累计在DNA/氨基酸分子上的历史信息为基础,氨基酸分子上的历史信息为基础,研究

4、分子水平的生物进化过程和机制。研究分子水平的生物进化过程和机制。分子系统学为生物分类问题提供了许多崭新的见解。分子系统学为生物分类问题提供了许多崭新的见解。基因突变基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体固定在生物个体以及物种内以及物种内遗传漂变遗传漂变自然选择自然选择传递给后代传递给后代产生新的形态、性状产生新的形态、性状分子系统学是研究进化机制的一个重要工具。分子系统学是研究进化机制的一个重要工具。生物进化的分子机制生物进化的分子机制性状改变性状改变DNA分子的改变分子的改变核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核

5、苷酸倒位invertion 从物种的一些分子特性出发,构建从物种的一些分子特性出发,构建系统发育树系统发育树,进,进而了解物种之间的生物系统发生的关系而了解物种之间的生物系统发生的关系 tree of life;物种分类物种分类 大分子功能与结构的分析:同一家族的大分子,具大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分有相似的三级结构及生化功能,通过序列同源性分析,构建析,构建系统发育树系统发育树,进行相关分析;功能预测,进行相关分析;功能预测 进化速率分析:例如,进化速率分析:例如,HIV的高突变性;哪些位点的高突变性;哪些位点易发生突变?易发生突变

6、?分子进化研究的目的分子进化研究的目的Tsar Nicholas IIEstablishing the identity of Anna Anderson ManahanAnna AndersonAnastasia?真假公主真假公主 1917年俄国末代王朝被推翻,贵族与侍卫年俄国末代王朝被推翻,贵族与侍卫全部逃走,而沙皇可怜的儿子老少一个都没走脱,并于全部逃走,而沙皇可怜的儿子老少一个都没走脱,并于1918年被全部处决。但民间却流传着沙皇的小女儿死里逃生,远年被全部处决。但民间却流传着沙皇的小女儿死里逃生,远走他乡的故事。为了得到俄国沙皇的一千万遗产,许多人绞走他乡的故事。为了得到俄国沙皇的一

7、千万遗产,许多人绞尽脑汁寻找安娜公主,终无所获。俄国贵族后裔布丁将军终尽脑汁寻找安娜公主,终无所获。俄国贵族后裔布丁将军终于找到一位外貌气质酷似安娜公主的女子,于是训练她皇室于找到一位外貌气质酷似安娜公主的女子,于是训练她皇室的各种礼仪及相关的人和事,安娜公主过关斩将。顺利和皇的各种礼仪及相关的人和事,安娜公主过关斩将。顺利和皇太后相认,就在太后要宣布安娜公主为遗产继承人并与保罗太后相认,就在太后要宣布安娜公主为遗产继承人并与保罗定婚时,安娜公主与布丁悄然消失,结局出人意料定婚时,安娜公主与布丁悄然消失,结局出人意料 Contents 第1节 基本概念 第2节 距离法 第3节 常用分子进化与系

8、统发育分析的软件 第4节 生物进化理论与分子进化的讨论第一节第一节 基本概念基本概念基本概念:基本概念:系统发生(系统发生(phylogeny)是指生物形成或进化的是指生物形成或进化的历史历史 系统发生学系统发生学(phylogenetics)研究物种研究物种(遗传学特遗传学特征征)之间的进化关系之间的进化关系,认为特征相似的物种在遗传学认为特征相似的物种在遗传学上接近上接近.系统发生的结果常以系统发生树表示系统发生的结果常以系统发生树表示;系统发生树(系统发生树(phylogenetic tree)表示形式,描表示形式,描述物种述物种(遗传学特征遗传学特征:形态形态,基因序列基因序列,蛋白质

9、序列等蛋白质序列等等等)之间进化关系之间进化关系 系统发生树系统发生树:物种物种(遗传特征遗传特征)之间的之间的关系关系;进化树进化树:从低等到高等从低等到高等,有始有终有始有终 经典系统发生学经典系统发生学 主要是物理或表型特征主要是物理或表型特征 如生物体的大小、颜色、触角个数如生物体的大小、颜色、触角个数即通过表型比较来推断生物体的基因型即通过表型比较来推断生物体的基因型(genotype),研究物种之间的进化关系研究物种之间的进化关系.有时候亲缘关系远的物种也能进化出相似的表有时候亲缘关系远的物种也能进化出相似的表型型,所谓的所谓的趋同进化趋同进化(convergent evoluti

10、on).所以所以表型为依据的进化分析有时候并不正确表型为依据的进化分析有时候并不正确.如是否有眼睛如是否有眼睛?现代系统发生学现代系统发生学 利用从遗传物质中提取的信息作为物种特利用从遗传物质中提取的信息作为物种特征征 具体地说就是核酸序列或蛋白质分子具体地说就是核酸序列或蛋白质分子 根据现有生物基因或物种多样性根据现有生物基因或物种多样性重建生物的进重建生物的进化史化史是一个非常重要的问题。根据核酸和蛋白是一个非常重要的问题。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生质的序列信息,可以推断物种之间的系统发生关系关系.基本原理基本原理:从一条序列变为另一条序列所需要从一条序列变为另

11、一条序列所需要的变换越多的变换越多,两条序列的相关性就越小两条序列的相关性就越小,从共同从共同祖先分歧的时间越早,进化距离越大;反之,祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越两个序列越相似,它们之间的进化距离可能越小小.所有的生物都可以追溯到共同的祖先所有的生物都可以追溯到共同的祖先,生物的生物的产生和分化就象数一样地生长产生和分化就象数一样地生长,分叉分叉,以树的形以树的形式来表示生物之间的进化关系是非常自然的事式来表示生物之间的进化关系是非常自然的事.系统发生树是一种系统发生树是一种二叉树二叉树(每个节点最多有两每个节点最多有两个子节点个子节点),由

12、一系列的节点由一系列的节点(nodes)和分支和分支(branches)组成组成,每个节点代表一个分类单元每个节点代表一个分类单元(物种或序列物种或序列),节点之间的连线表示物种之间的节点之间的连线表示物种之间的进化关系。枝长进化关系。枝长branch length 通常代表在该分通常代表在该分枝中曾发生过的变化数。枝中曾发生过的变化数。系统树可以是有根的系统树可以是有根的rooted 也可以是无根的也可以是无根的(unrooted).在有根树中存在一个被称为根特殊节点由此导向在有根树中存在一个被称为根特殊节点由此导向任何别的节点都只有唯一图任何别的节点都只有唯一图.每一途径中的方向每一途径中

13、的方向与进化时间相对应与进化时间相对应.而根则是所有正被研究的的而根则是所有正被研究的的共同祖先共同祖先.无根树是一种只将各间的关系具体化而未定义无根树是一种只将各间的关系具体化而未定义进化途径的树图进化途径的树图.系统发生树性质:系统发生树性质:(1 1)如果是一棵有根树,则树根代表在进)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;都有联系的分类单元;(2 2)如果找不到可以作为树根的单元,则)如果找不到可以作为树根的单元,则系统发生树是无根树;系统发生树是无根树;(3 3)从根节点出发到任何一个节点的路

14、径)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。指明进化时间或者进化距离。直系同源直系同源(orthologsorthologs):):同源的基因是同源的基因是由于共同的祖先基因进化而产生的由于共同的祖先基因进化而产生的.旁系同源旁系同源(paralogsparalogs):):同源的基因是由同源的基因是由于基因复制产生的于基因复制产生的.直系同源与旁系同源直系同源与旁系同源必须了解的概念必须了解的概念:paralogsorthologsparalogsorthologs思考思考:用于分子进化的序列必须是用于分子进化的序列必须是直系直系 or or 旁旁系系同源才能真实反映进化过

15、程同源才能真实反映进化过程?Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch lengths进化树,有分支和支长信息进化分支图,进化树进化分支图,进化树Cladograms show branching order-branch lengths are mean

16、ingless进化分支图,只用分支信息,无支长信息。Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaea有根树,无根树,外围群有根树,无根树,外围群有根树有根树外围群外围群abcdacbdadbc考虑考虑4个分类群时,共有个分类群时,共有3种可能的无根树种可能的无根树 考察类群数为考察类群数为 m(m 3)的系统树,其可能的拓扑结构

17、的系统树,其可能的拓扑结构数目为:数目为:有根树有根树无根树无根树m=10:34,459,425种种m=10:2,027,025种种当当 m较大时,选出真实树的拓扑结构十分困难。较大时,选出真实树的拓扑结构十分困难。分支数目:分支数目:有根树有根树无根树无根树内部分支数目:内部分支数目:有根树有根树无根树无根树内部节点数目:内部节点数目:有根树有根树无根树无根树无根树和有根树:潜在的数目无根树和有根树:潜在的数目#Taxa 无根树无根树 有根树有根树3 1 34 3 155 15 1056 105 9457 945 10,39530 3.58X1036 2.04X1038Taxa增多,计算量急

18、剧增加,因此,目前算法都为增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解优化算法,不能保证最优解 :代表一个物种或群体代表一个物种或群体进化历史的系统发育树进化历史的系统发育树 两个物种分歧的时间:两个物种分歧的时间:两个物种发生生殖隔离的两个物种发生生殖隔离的时间时间 :由来自各个物种的一由来自各个物种的一个基因构建的系统发育树个基因构建的系统发育树(不完全等同于物种树),(不完全等同于物种树),表示基因分离的时间。表示基因分离的时间。abcdef基因分裂基因分裂基因分裂基因分裂基因分裂基因分裂物种分裂物种分裂:一个用无限长的序列或每一一个用无限长的序列或每一分支的期望替代

19、数构建的树分支的期望替代数构建的树假设所研究的序列无限假设所研究的序列无限长,从中随机抽样进行长,从中随机抽样进行统计分析。统计分析。所研究的序列是短序列,所研究的序列是短序列,统计得到的替代数目存统计得到的替代数目存在大量随机误差。在大量随机误差。:建立在实际替代数基础上建立在实际替代数基础上的树的树构树方法构树方法1、特征数据特征数据(character data):提供了基因、个体、群体或物种的信息提供了基因、个体、群体或物种的信息2、距离数据距离数据(distance data)或或相似性数据相似性数据(similarity data):涉及的则是成对基因、个体、群体或物种的信息。涉及

20、的则是成对基因、个体、群体或物种的信息。距离矩阵距离矩阵距离数据可以由特征数据计算得到。距离数据可以由特征数据计算得到。反之反之?基于距离的构建方法基于距离的构建方法Fitch-MargoliashFitch-Margoliash法法 邻接法(邻接法(Neighbor Joining Neighbor Joining MethodMethod)非加权组平均法非加权组平均法 最小进化方法最小进化方法 基于离散特征的构建方法基于离散特征的构建方法最大简约法最大简约法 最大似然法最大似然法 进化简约法进化简约法 相容性方法相容性方法 拓扑结构的判别拓扑结构的判别(从大量的拓扑结构中搜寻、判别)(从大

21、量的拓扑结构中搜寻、判别)一个既定拓扑结构的分支长度的估计一个既定拓扑结构的分支长度的估计最优原则最优原则构建进化树的一般原则构建进化树的一般原则1 Fitch-Margoliash1 Fitch-Margoliash方法方法 (FM(FM法法)2 2 邻接法(邻接法(Neighbor Joining MethodNeighbor Joining Method)3 3 非加权分组平均法(非加权分组平均法(Unweighted Pair Group Unweighted Pair Group Method with Arithmetic mean,UPGMAMethod with Arithme

22、tic mean,UPGMA)3 3 最大简约法最大简约法(Maximum Parsimony Method)(Maximum Parsimony Method)4 4 最大似然法最大似然法(Maximum Likelihood Method)(Maximum Likelihood Method)首先要获得所有分类群之间的进化距离。首先要获得所有分类群之间的进化距离。系统发育树的构建是基于进化距离之间的关系。系统发育树的构建是基于进化距离之间的关系。选定分类群共同的特征序列选定分类群共同的特征序列氨基酸序列、核苷酸序列氨基酸序列、核苷酸序列 例:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白例:人、马

23、、牛、袋鼠、蝾螈、鲤鱼的血红蛋白 链的氨基酸序链的氨基酸序 列列(140aa););人、猕猴、黑猩猩的线粒体人、猕猴、黑猩猩的线粒体DNA中细胞色素中细胞色素b基因的核苷酸序列基因的核苷酸序列(1,125bp););比较两两序列之间的差异比较两两序列之间的差异p (序列比对算法)(序列比对算法)根据不同的概率统计模型,由两条序列的差异根据不同的概率统计模型,由两条序列的差异p值构建它们值构建它们的进化距离的进化距离 氨基酸序列:氨基酸序列:PC(Poisson校正)距离、校正)距离、距离距离 核苷酸序列:核苷酸序列:Jukes-Cantor模型、模型、Kimura模型、模型、HKY模型等模型等

24、PC距离距离p距离距离时间时间单位:千万年单位:千万年简单的距离矩阵D和和E最接近!最接近!分成三组:分成三组:D,E,以及以及ABCDE距离距离=d+e (1)D到到ABC间的平均距离间的平均距离=d+m (2)E到到ABC间的平均距离间的平均距离=e+m (3)(2)-(3)+(1)d=4,e=6C最接近最接近DE!分成三组:分成三组:C,DE,以及以及ABc+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)得:得:c=9c+g+(e+d)/2=19(e+d)/2=5,c=9,则则g=5由:由:(

25、a+b)/2+f+g+(d+e)/2=41 得:得:f=20由:由:a+f+c=39 得:得:a=10,则,则b=12最小进化(最小进化(ME)思想:在所有可能的拓扑结构中,选择)思想:在所有可能的拓扑结构中,选择分分支长度和支长度和S最小作为最优树。(全局优化思想)最小作为最优树。(全局优化思想)(Edwards&Cavalli-Sforza,1963)Saitou&Nei(1987):在每一阶段应用最小进化原理,是:在每一阶段应用最小进化原理,是ME方法的简化。方法的简化。S:所有分支长度总和:所有分支长度总和jXiXijLLd其中其中X为连接类群为连接类群i,j的节点,的节点,LiX为类

26、群为类群i到到X的分支长度。的分支长度。:邻居(邻居(neighbors)无根树中,一个节点所连接的两个分类群互为邻居无根树中,一个节点所连接的两个分类群互为邻居 (1,2);(5,6);(1-2,3);(1-2-3,4)其中其中X为连接互为邻居的类群为连接互为邻居的类群i,j的内部节点,的内部节点,LiX为类群为类群i到到X的分支长度。的分支长度。S:所有分支长度总和:所有分支长度总和jXiXijLLd:6个分类群的距离矩阵个分类群的距离矩阵dijdij123456109121520162071015113051064011750860S0=32.4XYS1=29.5YXS2=28.3YXS

27、3=28.0S4=28.0S5=28.0初始系统树的拓扑结构为星状树,其分支长度总和为:初始系统树的拓扑结构为星状树,其分支长度总和为:S0=32.4已知已知m个分类群,以及它们的距离矩阵个分类群,以及它们的距离矩阵dij(m m)XY:Sij表示类群表示类群i和和j为邻居时的分支长度总和。如为邻居时的分支长度总和。如其中:其中:S12=29.5Sij的计算公式:的计算公式:其中:其中:分支长度的计算公式:分支长度的计算公式:确定一个内部节点确定一个内部节点A(连接邻居(连接邻居i,j)后,计算)后,计算A与其它分类与其它分类群群k距离:距离:得到新的距离矩阵(维数减得到新的距离矩阵(维数减1

28、)NJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。给出系统发育树的拓扑结构以及分支的长度。优点:优点:1、可以较快地构建系统树;、可以较快地构建系统树;2、适用于分析较大的数据集;、适用于分析较大的数据集;3、能够较方便地进行自展(、能够较方便地进行自展(Bootstrap)检验。)检验。NJ/邻接法 与FM方法非常类似,保证总的支长最短总支长:a+b+c+d+e=314/4=78.5找到距离最近的两个点 1.任意两个节点选为相邻序列的总支长计算公式:2.计算SAB,SBC,SCD,SDE等所有可能

29、的组合数值3.该例中,SAB最小 把把A、B看成一个新的复合序看成一个新的复合序列,构建一个新的距离表,重复列,构建一个新的距离表,重复以上过程以上过程计算A,B的分支长度AB组合出现组合出现3次,次,DE组合出现组合出现3次,次,CD、AC、BC组合各一组合各一次,则次,则AB和和DE各为两对关系最近的邻居。各为两对关系最近的邻居。(关系最近的邻居关系最近的邻居作为邻居的次数最多作为邻居的次数最多),将邻居看成一个新的复合序列,重复,将邻居看成一个新的复合序列,重复这个过程这个过程3 3 非加权分组平均法非加权分组平均法(Unweighted Pair Group Method with A

30、rithmetic Unweighted Pair Group Method with Arithmetic mean,UPGMAmean,UPGMA)在非加权分组平均法中,在计算新分类到其在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。单元的数目进行加权处理。方法原理:谱系聚类方法原理:谱系聚类首先将首先将t个样本各自视为一类:得到初始的分类个样本各自视为一类:得到初始的分类G(1)(含有(含有t类),计算类),计算t个样本两两之间的距离,它们等价于初始的类间个样本两两之间的距离,它们等价于初始的类间距

31、离,得到初始的距离矩阵距离,得到初始的距离矩阵D(1);将距离最近的两类合并为一新类,得到新的分类将距离最近的两类合并为一新类,得到新的分类G(2)(含有(含有t-1类),并计算新类与其它类的类间距离,得到新的类间距类),并计算新类与其它类的类间距离,得到新的类间距离矩阵离矩阵D(2),再按照最小距离准则并类,得到,再按照最小距离准则并类,得到G(3)(含有(含有t-2类)、类)、D(3),。直到所有样本都并成一类。直到所有样本都并成一类;画出谱系聚类图,决定分类的个数及各类的成员。画出谱系聚类图,决定分类的个数及各类的成员。谱系聚类结果示意图:谱系聚类结果示意图:X(1)X(2)X(3)X(

32、4)X(5)1230GibbonSymphalangusHumanGorillaChimpanzee在基因替代速率恒定假设成立时,在基因替代速率恒定假设成立时,UPGMA方法比较适用;方法比较适用;UPGMA方法适用于具有较小变异系数的距离测度;方法适用于具有较小变异系数的距离测度;UPGMA是一种既构建拓扑结构又计算分支长度的方法;是一种既构建拓扑结构又计算分支长度的方法;UPGMA方法既可以得到有根树,也可以得到无根树。方法既可以得到有根树,也可以得到无根树。d=e=10/2=5UPGMA法c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.

33、5B-41.5(CDE)-(AB)(CDE)(AB)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75选择外类群(Outgroup)选择一个或多个已知与分析序列关系较选择一个或多个已知与分析序列关系较远的序列作为外类群远的序列作为外类群外类群可以辅助定位树根外类群可以辅助定位树根外类群序列必须与剩余序列关系较近,外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。比其他序列之间的差异更显著。bacteria outgroupeukaryoteeukaryoteeukar

34、yoteeukaryotearchaeaarchaeaarchaea外围群外围群可靠性分析可靠性分析自展法自展法 通过系统发生分析推断出来的树的不同部通过系统发生分析推断出来的树的不同部分可能有不同的置信度分可能有不同的置信度,造成统计误差的一个造成统计误差的一个原因是数据采样误差原因是数据采样误差.因此对分析的对象多次采因此对分析的对象多次采样样,比较不同样本得到的估计值比较不同样本得到的估计值.具体做法具体做法:从从原始数据中采集部分数据组新的数据集原始数据中采集部分数据组新的数据集,构建构建系统发生树系统发生树,重复该过程重复该过程,产生千百的重采样数产生千百的重采样数据集据集,并同时生

35、成对应的自展树并同时生成对应的自展树,检验自展树对检验自展树对最终系统发生树各分支的支持率最终系统发生树各分支的支持率.最后计算出来最后计算出来的数值为自展值的数值为自展值(Bootstrap value).进化树的可靠性分析进化树的可靠性分析自展法(Bootstrap Method)将最终系统树与各个自展树进行比较将最终系统树与各个自展树进行比较,其中在各其中在各个自展树中都出现或大量出现的那些部分将具个自展树中都出现或大量出现的那些部分将具有高的置信度有高的置信度.比较耗时比较耗时.(Fitch,1971;Hartigan,1973)考虑考虑m个核苷酸(或氨基酸)序列(个核苷酸(或氨基酸)

36、序列(m 4),假定),假定4种核苷种核苷酸(或酸(或20种氨基酸)可突变为与自身不同的任何一种。种氨基酸)可突变为与自身不同的任何一种。1)对于任一给定的拓扑结构,可以推断每个位点的祖先状)对于任一给定的拓扑结构,可以推断每个位点的祖先状态;态;2)对于该拓扑结构,可以计算出用来解释整个进化过程所)对于该拓扑结构,可以计算出用来解释整个进化过程所需的核苷酸(或氨基酸)的最小替代数目;需的核苷酸(或氨基酸)的最小替代数目;3)对所有可能正确的拓扑结构计算它们的最小替代数目,)对所有可能正确的拓扑结构计算它们的最小替代数目,选择其中最小的作为最优拓扑结构。选择其中最小的作为最优拓扑结构。1)对于

37、任一给定的拓扑结构,计算它的树长(即所有位)对于任一给定的拓扑结构,计算它的树长(即所有位点的最小替代数目之和)点的最小替代数目之和)L;2)选取具有最短树长的拓扑结构为最大简约树。)选取具有最短树长的拓扑结构为最大简约树。在所有分类群中相同核苷酸或氨基酸的位点。在所有分类群中相同核苷酸或氨基酸的位点。不变位点不提供任何信息。不变位点不提供任何信息。计算所有结构树并选取最短树长计算所有结构树并选取最短树长信息位点、趋同进化信息位点、趋同进化:考虑任意两个密码子之间变换的可能路径考虑任意两个密码子之间变换的可能路径:考虑任意两个密码子之间变换的可能路径考虑任意两个密码子之间变换的可能路径分支长度

38、估计分支长度估计通过考虑每个非不变位点的所有进化通径,并计算每个内部通过考虑每个非不变位点的所有进化通径,并计算每个内部分支或外部分支的平均替代数来估计分支或外部分支的平均替代数来估计MPMP树的分支长度。树的分支长度。(具体算法略)(具体算法略)1.信息位点,必须在至少2个taxa中具有相同的序列性状 2.信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点信息位点(Sites are informative)上例 1.Position 5,7,9为信息位点 2.基于position 5的三个MP树:Tree 1长度1,Tree 2&3长度2 3.Tree 1

39、更为简约:总长:4 Tree 2长5;Tree 3长6 4.计算结果:MP tree的最优结果为tree 1 MP法适用的问题法适用的问题 理论基础为奥卡姆剃刀理论基础为奥卡姆剃刀(Ockham)原则:计算所需替代数最原则:计算所需替代数最小的那个拓扑结构,作为最优树小的那个拓扑结构,作为最优树 在分析的序列位点上没有回复突变或平行突变,且被检验在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树很好的进化树 优点:不需要在处理核苷酸或者氨基酸替代的时候引入假优点:不需要在处理核苷酸或

40、者氨基酸替代的时候引入假设设(替代模型替代模型)缺点:分析序列上存在较多的回复突变或平行突变,而被缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果理的或者错误的进化树推导结果(Felsenstein,1981;Kishino,1990)以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的

41、拓扑结构,选为最终系统树。中最大似然率最大的拓扑结构,选为最终系统树。ML法考察的既可以是拓扑结构,也可以是既定拓扑结构的分法考察的既可以是拓扑结构,也可以是既定拓扑结构的分支长度。支长度。ML法采用了标准的统计方法,以建立进化的概率模型。法采用了标准的统计方法,以建立进化的概率模型。计算量非常大。计算量非常大。详细内容请参考详细内容请参考分子进化与系统发育分子进化与系统发育(高等教育出版社)(高等教育出版社)最大似然法(ML)1.最大似然法(maximum likelihood,ML):最早应用于对基因频率数据的分析上 2.选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑

42、结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树 3.在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长 4.缺点:费时,每个步骤都要考虑内部节点的所有可能性 5.改进:启发式算法软件名称软件名称网址网址说明说明PHYLIPhttp:/evolution.gs.washington.edu/phylip.htmlIt includes programs to carry out parsimony,distance matrix methods,maximum likelihood,and other methods on

43、a variety of types of data,including DNA and RNA sequences,protein sequences,restriction sites,0/1 discrete characters data,gene frequencies,continuous characters and distance matrices.PAUPhttp:/paup.csit.fsu.edu/It includes parsimony,distance matrix,invariants,and maximum likelihood methods and man

44、y indices and statistical tests.Tree of Lifehttp:/phylogeny.arizona.edu/tree/program/program.htmlArizona大学开发的软件大学开发的软件MEGAhttp:/美国宾州州立大学美国宾州州立大学Masatoshi Nei开开发发(It carries out parsimony,distance matrix and likelihood methods for molecular data.)软件名称软件名称网址网址说明说明MOLPHYhttp:/www.ism.ac.jp/software/ism

45、lib/softother.e.html#molphy日本国立统计数理研究所开发。日本国立统计数理研究所开发。(Carrying out maximum likelihood inference of phylogenies for either nucleotide sequences or protein sequences.)PAMLhttp:/abacus.gene.ucl.ac.uk/software/paml.html英国伦敦学院英国伦敦学院Z.H.YANG开发。开发。(A package of programs for the ML analysis of nucleotide

46、or protein sequences.)PUZZLEftp:/fx.zi.biologie.uni-muenchen.de/pub/puzzle应用应用Quarter puzzling方法(一种最大简方法(一种最大简约法)构建系统发育树约法)构建系统发育树TreeViewhttp:/taxonomy.zoology.gla.ac.uk/rod/treeview.htmlA program for displaying trees on Apple Macs and Windows PCs.It can draw rooted and unrooted trees,display boots

47、trap values,and supports the native font and graphics file formats of both Macs and PCs.phylogenyhttp:/www.ebi.ac.uk/biocat/phylogeny.htmlEBI的系统发育树分析软件的系统发育树分析软件MEGA软件的使用软件的使用例例1流程流程:1)ClustalX多序列比较多序列比较;2)用用ClustalX程序直接绘制程序直接绘制NJ树树;3)用用Treeview程序打开程序打开.例例2流程流程:1)ClustalX多序列比较多序列比较;2)用用MEGA程序转换格式程序转

48、换格式;3)选择构建方法选择构建方法;4)MEGA查看查看.For sequences:OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEVOsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGA

49、IVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVKOsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVDAtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRST

50、CFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSFAtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPYAtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVD

51、VSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGVStep OK?Step OK?Step OK?生成.phb文件操作.Part II流程流程:1)ClustalX多序列比较多序列比较;2)用用MEGA程序转换格式程序转换格式;3)选择构建方法选择构建方法;4)MEGA查看查看.For example方法(2)仍然进行多序列比对,获得.aln文件方法(2)生成.MEG文件方法(2)方法(2)方法(2)方法(2)方法(2)程序程序流程流程:1)

52、获得FASTA格式文件 2)ClustalX多序列比较多序列比较;3)用用ClustalX程序直接绘制程序直接绘制NJ树树;4)用用Treeview程序打开程序打开.II流程流程:1)获得获得FASTA格式文件格式文件 2)ClustalX多序列比较多序列比较;3)用用MEGA程序转换格式程序转换格式;4)选择构建方法选择构建方法;5)MEGA查看查看.For sequences:OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGA

53、GAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEVOsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVKOsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFK

54、CGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVDAtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSFAtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDW

55、YCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPYAtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGVStep OK?自动生成自动生成.aln.aln文件文件打开MEGA软件仍然进行多序列比对,获得.a

56、ln文件生成生成.MEG.MEG文件文件 注意:一定要保存注意:一定要保存分子进化速率分子进化速率 生物大分子随时间的改变主要表现为核苷酸、蛋白质的一生物大分子随时间的改变主要表现为核苷酸、蛋白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换级结构的改变,即分子序列中核苷酸、氨基酸的替换不同物种同源大分子的分子进化速率大体相同不同物种同源大分子的分子进化速率大体相同 例子:比较不同物种血红蛋白氨基酸序列差异例子:比较不同物种血红蛋白氨基酸序列差异 人、马人、马0.8 10-9/AA.a 人、鲤鱼人、鲤鱼0.6 10-9/AA.a分子进化速率远远比表型进化速率稳定分子进化速率远远比表型进化速

57、率稳定原因?原因?序列的核苷酸或氨基酸替换是否随机过程?序列的核苷酸或氨基酸替换是否随机过程?保守性保守性 功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。能上不重要的大分子或者大分子局部。(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。)著改变得突变发生的频率。)氨基酸氨基酸 例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速

58、率是内区进化速率的是内区进化速率的10倍。倍。核苷酸核苷酸 例:例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。苷酸替代频率较高。生物大分子进化并非完全随机生物大分子进化并非完全随机 存在某种制约因素,存在某种机制存在某种制约因素,存在某种机制?Neutral theory of molecular evolution(Kimura&Ohta,1968,1971)(King&Jukes,1969)提出分子层次上的提出分子层次上的“non-Darwinian evolution”“在生物分子层次上的进化改变不是由

59、自然选择作用于有利突在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是在连续的突变压之下由选择中性或非常接近变而引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的。中性突变是指对当前适应度无中性的突变的随机固定造成的。中性突变是指对当前适应度无影响的突变。影响的突变。”、否认自然选择在分子进化中的作用,认为生物大分子的进化主否认自然选择在分子进化中的作用,认为生物大分子的进化主要因素是要因素是和和。分子层次上的大多数变异是选择中性的分子层次上的大多数变异是选择中性的 蛋白质和核苷酸分子的进化速率高且相对恒定蛋白质和核苷酸分子的进化速率高且相对恒定 突

60、变压在分子进化中的作用得到研究证实突变压在分子进化中的作用得到研究证实按照群体遗传学的数学模型,自然选择的代价太高按照群体遗传学的数学模型,自然选择的代价太高 1、中性论是解释分子层次的进化现象、中性论是解释分子层次的进化现象 自然选择只作用于表型,并不直接作用于分子。自然选择只作用于表型,并不直接作用于分子。衡量尺度的区别:分子的显著性改变并不意味着表型的显衡量尺度的区别:分子的显著性改变并不意味着表型的显著性改变。著性改变。中性论只涉及生物大分子一级结构单元的替换,并不包含中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变(如蛋白质三级结构、功能的改变)和解释分子层

61、次的全部改变(如蛋白质三级结构、功能的改变)2、分子进化的保守性表明选择仍然起作用、分子进化的保守性表明选择仍然起作用 可能之一可能之一负选择的存在:任何发生在重要功能的大分负选择的存在:任何发生在重要功能的大分子或大分子保守区的突变,由于造成适应度的下降而被选择淘子或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用)汰。(随机作用)可能之二可能之二存在某种机制阻止功能重要的大分子或大分存在某种机制阻止功能重要的大分子或大分子保守区的突变产生。(非随机作用)子保守区的突变产生。(非随机作用)3、选择中性突变的复杂调控系统、选择中性突变的复杂调控系统 中性突变的可能原因:复杂的调

62、控机制。基因表达受到内中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。外因素的制约。决定中性突变的调控系统受到自然选择的影响。决定中性突变的调控系统受到自然选择的影响。4、选择在分子的适应进化中起作用、选择在分子的适应进化中起作用 在分子层次上可能存在两种进化形式:在分子层次上可能存在两种进化形式:中性进化(导致分子多样性)中性进化(导致分子多样性)适应进化(通过选择实现,导致分子适应)适应进化(通过选择实现,导致分子适应)能否打倒的能否打倒的Darwinian进化论进化论?分子钟分子钟 根据分子系统学研究与古生物学资料相结合,建立推论生根据分子系统学研究与古生物学资料相结合,

63、建立推论生物进化事件发生的时间表。物进化事件发生的时间表。假定分子进化速率假定分子进化速率r恒定,则分子进化改变量(替代数目或恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例:替代率)与进化时间成正比。以两条序列为例:d=2 r t其中,其中,t是进化时间,是进化时间,d是这两条序列每个位点的替代数目。是这两条序列每个位点的替代数目。分子钟成立的先决条件:分子钟成立的先决条件:分子进化速率恒定分子进化速率恒定。分子钟成立的证据:分子钟成立的证据:1、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对

64、稳定、均匀;质时间内的相对稳定、均匀;2、许多不同物种的多种同源大分子在相当长时间内的平均进化、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。速率近似恒定。1、选择所要比较的生物大分子种类、选择所要比较的生物大分子种类 根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。小合适、分布范围能涵盖各待比较物种的生物大分子。2、选择所要比较的物种,确定各比较组合及其所代表的进化事、选择所要比较的物种,确定各比较组合及其所代表的进化事件件3、获得生物大分子一级结构的资

65、料、获得生物大分子一级结构的资料4、获得有关的代表性进化事件发生的地质时间数据、获得有关的代表性进化事件发生的地质时间数据5、通过比较大分子一级结构,选择合适的数学模型,计算得到、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异进化产生的分子差异d,通过回归分析等统计方法得到大分子的,通过回归分析等统计方法得到大分子的进化速率进化速率r(t)6、由此可以推断未知进化事件的发生时间、由此可以推断未知进化事件的发生时间1、对长期进化而言,不存在以恒定速率替换的生物大分子一级、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加)结构;(基

66、因功能的改变、基因数目的增加)2、不存在通用的分子钟;、不存在通用的分子钟;3、争议:、争议:分子钟的准确性分子钟的准确性 中性理论(分子钟成立的基础)中性理论(分子钟成立的基础)课堂练习:下列哪些位点是信息位点下列哪些位点是信息位点?位点1 2 3 4 5 6序列1 C A G G T A序列2 C A G A C A序列3 C G G C T A序列4 T G G T C G课堂练习:2)下列系统发生树建立的方法中下列系统发生树建立的方法中,基于序列特征基于序列特征分析的是分析的是?基于距离的是基于距离的是?A.neighbor-joining methodB.UPGMAC.Maximum parismonyD.Maximum likelihood课堂练习:3)给定一个距离距阵给定一个距离距阵,请用请用UPGMA法构建系统法构建系统发生树发生树.A B C D EA -8 4 6 8B -8 8 4C -6 8D -8 或者或者:假设序列假设序列A-E如下如下:A:aagcttactgaatgggcA:aagcttactgaatgggcB:aagcatactgaatcggcB:aa

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!