蛋白质功能预测方法概述

上传人:daj****de 文档编号:194095876 上传时间:2023-03-13 格式:DOCX 页数:7 大小:148.30KB
收藏 版权申诉 举报 下载
蛋白质功能预测方法概述_第1页
第1页 / 共7页
蛋白质功能预测方法概述_第2页
第2页 / 共7页
蛋白质功能预测方法概述_第3页
第3页 / 共7页
资源描述:

《蛋白质功能预测方法概述》由会员分享,可在线阅读,更多相关《蛋白质功能预测方法概述(7页珍藏版)》请在装配图网上搜索。

1、蛋白质功能预测方法概述摘要:蛋白质是生物体内最必需也是最通用的大分子,对它们功能的认识对于科学领域和农 业领域的发展有着至关重要的作用。随着后基因组时代的发展,NCBI数据库中迅速涌现出 大量不明结构与功能的蛋白质序列,这些蛋白质序列甚至一跃成了研究的热点。近几十年来 蛋白质功能预测的方法不断被完善。由最初的仅基于蛋白质序列或3D结构信息的方法衍生 出更多的基于序列相似性、基于结构基序、基于相互作用网络等新方法,这些新型方法采用 新的算法、新的研究思路和技术手段,力求得到准确性与普遍性并存,能够被广泛应用的蛋 白质功能预测方法。本文综述了近年来蛋白质功能预测的方法,并将这些研究方法分类归纳,

2、各自阐明了每类方法的优缺点。关键词:蛋白质功能预测方法,结构基序,相互作用网络,ESGAn Overview protein function prediction methodsAbstract: Protein is the most necessary and versatile macromolecules in vivo researches on their functions are very important to the fields of science and the development of the agriculture With the development

3、 of the post genomicera,the NCBI database quickly emerges a large number of protein sequences of unknown structure and functions,which even become hot research Points. In the recent decades, protein function prediction methods have beenmore and more improved and developed This article reviews the pr

4、otein function prediction methods occured in recentyears,All these methods were inducted and classicicated,and their advantages and disadvantages of each methods were illustrates respectively.Keywords: Protein Function Prediction Methods,Structal Motif, Interaction Networks, ESG1引言基因组学和蛋白质组学在过去十年的发展

5、过程中产生了大规模的新的蛋白质序列和试 验数据,科学家为了确定这些新序列的功能借助计算机手段进行了大量的研究口 2。在过 去的二十年里,人们利用计算机技术对蛋白质功能进行预测的文章发表了上千篇之多(http: / /www. ncbi. nlm. nih. gov /pubmed),大部分是基于序列相似性、基于结构域、 基于相互作用网络等方法预测,再利用生物学知识来进行解析。本文综合阐述了迄今为止蛋 白质功能预测的分类,大致可分为四类:(1)基于序列相似性预测方法;(2)基于蛋白质 相互作用网络预测方法;(3)基于结构相似性预测方法;(4)其他预测方法。2蛋白质功能蛋白质功能对于客观环境很敏感

6、:给定的发挥作用的空间环境不同、规定的作用时间不 同都可以使蛋白质所表现出来的功能是有差异性的。为了使功能预测的结果更加准确,Bork 等提出了一种蛋白质功能类型的分类,按蛋白质发挥作用的平台不同将蛋白质功能分为 分子功能,细胞功能和生理功能。很明显,这三个类型不是独立存在的,而是如图那样等 级相关的。现如今在蛋白质功能预测中最常用的题0分类,Gene Ontology分类从细胞组成、分子功能和生物学途径三方面描述蛋白质的性质与功能。分子功能是描述其分子生物学 活性,如催化活性、结合活性,可以具体到腺苷酸环化酶活性或钟形受体结合活性等;生物 学途径是细胞生长和维持、信号转导过程,更狭义可描述为

7、在嘧啶代谢或a 一配糖基的运 输等具体过程。所以蛋白质功能预测的最终想得到结果是:这个新序列在细胞中充当什么 组分,在哪个生物学过程中起作用,起着什么样的作用。图1蛋白质功能预测方法的分类-DgwnnalMuli/ fsctkm顷.WKg ton 始 rm,tCtllUiir runcIlOH mvttfMlkcoatbwtr ngii eucdp/notypK hnetkHl -morpnctogy 5ysie*g, -beMvtor图2蛋白质功能类型分类3蛋白质功能预测的方法蛋白质功能预测方法可粗略分为基于序列相似性预测、基于蛋白质相互作用网络预测、 基于结构相似性预测和其它不依赖于相似性

8、的预测方法。我们将分别列举近年来基于这四类 方法所做的蛋白质功能预测,以及它们各自的优势与弱势。3. 1基于序列相似性预测蛋白质功能基于序列相似性是较早的一种功能预测的方法,它是基于序列相似,功能相似的假说建 立的。最传统的方法是对新序列进行BLAST或PSI BLAST搜索式,通过产生的E值选择 与新序列高度相似的序列(一般序列一致性要在40%以上),由已知序列功能推断出新序 列的功能。但随着研究的不断深入,这种方法被证明是不可靠的6,因为序列同源性不等 于功能一致性。基于序列同源性的模型的建立过于依赖蛋白质之间的相似程度,所以只 能适用于与功能已知蛋白质有很高同源性的新蛋白序列的功能预测。

9、并且随着同源性降低, 建立模型的误差增加。Hawkins 8 9分别通过提取Go terms和对Goterms评分的方法对传 统的PSI BLAST搜索进行拓展,包括从亲缘关系较远的序列进行注释、应用新的数据挖 掘工具、功能相关矩阵、得分密切相关的注释对,开发出可以通过降低分辨率来增加功能注 释的普及型的方法PFP( protein function prediction)。PFP方法综合考虑了GO terms评 分和GO terms与其亲代GO terms之间的功能相关性。从而不需要精准的匹配模式或蛋白质 结构信息,只需要较弱相似序列就可以推断出新序列的功能,结果的精确度和覆盖范围比传统的P

10、SI - BLAST结果高出五倍不止。由AFP - SIG 05 口和CASP7 :11两个高级别的比 赛结果就可以证明PFP方法是很成功的。图3 ESG方法建立的序列相似图谱Chitale 12于09 年建立了ESG( extended similaritygroup)方法,此方法执行迭代 序列数据库搜索并且对新序列进行GO terms注释。注释就是给每条序列制定一个概率,这 个概率是基于蛋白质序列相似图谱(图3)中multiple level neighbors的亲缘相似评 分所得的。图4 中用 funsim( Fundamental Simulationinstruction Metho

11、d )对 PFP、Top PSI BLAST. ESG三种方法进行了对比,从图中可以看出ESG方法所产生结果较好。图3 PSI BLAST搜索得到的序列相似图谱,序列Q经过PSI BLAST搜索返回N条序列,称为ESG first level,对ESG first level 进行PSI BLAST 再返回N条序列称为ESG second level,以此类推得到ESG multiple level,各序列之 间称为multiple evel neighbors。Semantic Similarity(using MF, BP and CC terms) Score ComparisonSem

12、antic Siniilarity(using MF, terns only) Sfore Comparison图4根据funsim打分得到的结果准确度对比基于序列的蛋白质功能预测考虑的是独立的蛋白质序列,未考虑蛋白质之间的相互作用。 而蛋白质是通过与其它蛋白质直接或间接相互作用而执行功能的。所以要从序列预测蛋白质 的功能应该将与其相互作用的蛋白质序列一同考虑在内。3. 2基于相互作用网络预测蛋白质功能基于PPI( protein protein interaction)的预测方法主要用于从多个蛋白质序列 中寻找有相互作用和关联进化的蛋白质或MPPI数据库中提取信息,预测效果依赖于基因组 数目

13、和PPI数据库的准确程度。由Bader等口刃开发的Pathguide ( http: / /www. pathguide. org)提供大部分PPI相关的数据库列表和链接,表1列出了部分PPI数据库。 根据这些数据库中提取的蛋白质相互作用数据,人们可以构建相应的相互作用网络。在相互 作用网络中,一般用节点(node)来表示蛋白质,而连接两个节点的边(edge)表示蛋白质 之间是否存在相互作用关系。目前,利用相互作用网络进行功能注释主要有两种方法,即直接注释方(directannotation schemes) 口4 16和基于模块的方法(module assistedschemes) 口7 。

14、3. 2. 1直接注释方法Vazquez 口4等首先采用基于分割的方法(cut based approaches)将图论法引入蛋 白质功能注释研究中。其基本思路是:对一个未知功能蛋白质赋予某种功能,要使得注释为 相同功能的蛋白质(未注释或者已注释)的连接数目最多Hu 口们综合考虑7PPI信息和序 列的生物化学/物理化学特征,当未注释蛋白质与已知功能的蛋白质几乎没有序列相似 性时,也可以获得相关的PPI信息。并应用此方法对鼠源蛋白质功能进行预测,在训练集合 测试集中一阶成功率分别为69. 1%和70. 2%。构建蛋白质相互作用网络时通常是从注释 蛋白质到非注释蛋白质做一个单向的预测。而真正的生物

15、学过程中蛋白质是有流动性的,它 们之间有动态的相互作用,从而产生了一个外环境稳定但内部千变万化的框架Chi 首 次将蛋白质之间动态相互作用加入到了预测过程中,方法是先给未注释的蛋白质指派一个最 初的功能,然后计算此蛋白质和与其相邻的蛋白质之间的最初相似性。用基于KNN的预测算 法为未注释的蛋白质预测一个新的功能,用这个新预测的功能代替最初的功能,再重新计算 该蛋白质和与其相邻的蛋白质之间的相似性,在进行下一轮的计算。直到未注释的蛋白质和 与其相邻的蛋白质之间的相似性达到一个稳态平衡时结束。正确定义蛋白质之间的相似性迭 代法比非迭代法显示了更好的准确度和召回率,同时可行性和有效性也得到了提高。3

16、. 2. 2基于模块预测方法Rives17等人就提出一个假设,认为同一个模块中的蛋白质成员更加可能拥有最短的 路径距离谱(path distance profiles)。根据这个假设,所有短路径的蛋白质对聚成一类。 这个方法实施比较复杂,很难在整个基因组水平上的网络上进行分析,但在一些子网络中它 已经得到很好的应用,比如对酿酒酵母的核蛋白的相互作用网络分析。Janusz 口8整合 了发育和癌症研究项目的基因表达谱和蛋白质相互作用图谱提供了一个有系统和全局代表 性的组合网络模块。并开发了一种新方法Network GuidedForests,该方法是以间接网络 域相关的决策树来确定网络模块的生物或

17、临床结果,由此产生的网络签名证明在不同样本队 列之间的稳健性和捕捉发展与疾病的因果关系。3. 3基于结构信息预测最早基于结构进行蛋白功能注释的方法是找到一个结构相似的蛋白,将其功能转移给前 一个蛋白,如在蛋白序列中的情况一样。然而这种方法并不能够单独被用来预测蛋白质功能, 因为它的准确性只有20% 50%口9,结果是不足以令人采纳的。所以从3D结构衍生了多 种其他的可能预测蛋白质功能的方法结构基序是存在于几个相关蛋白质结构中的一 个蛋白的三维亚结构,它与功能息息相关。最为大家所熟知的结构基序是在许多DNA结合蛋 白中均能找到的螺旋一转角一螺旋(HTH)基序o LeoC等对人类TRIM家族中TR

18、IM20 (pyrin )和TRIM21两个与疾病相关的蛋白进行了研究,阐明7C末端PRYSPRY区域是 如何影响TRIM的功能。鉴于大部分蛋白质功能研究都是针对特异性蛋白这 一状况,Akira R22j提取了PDB数据库中所有蛋白质聚类得到复合基序(如图6),将复 合基序分组,根据各组的复合基序的功能特征来确定蛋白质的功能。这一方法的不局限性是 蛋白质功能预测的一大突破。Hoffmann开发了一种衡量结合口袋之间相似性的新方法。以原子云代表每一个口袋, 通过比对三维空间中的原子来评估两个口袋之间的相似性,并用convolution kernel比较 所得到的结果信息。这样即使相关蛋白不共享序

19、列和整体结构相似性,口袋比对也是可行的。 并用此方法来识别已知的结合口袋的配体结合的相关性,为今后在这一领域的工作提供了新 的标杆。Hermann 24预测Tm0396的酶功能活性发现潜在的物的高能量结构对接模式可能成 为酶功能预测的有用工具。现今比较成熟的结构预测方法有两种:一种是实验测量,包括用 X射线衍射和核磁共振成像;一种是理论预测,利用计算机根据理论和已知的氨基 酸序列等信息来预测,方法包括同源结构模拟、折叠辨识模拟和基于第一性原理的从头计算。 虽然现在有很多蛋白质功能预测软件(PSIPred、PredictProtein等),CASP会议也一直在 致力于发现和发展蛋白质结构预测的高

20、精尖方法。但是PDB和SCOP等蛋白质结构数据库中 的数据量仍旧远远小于Uniprot、NCBI等序列数据库。3. 4其他预测方法Liao 如建立了一种不依赖于序列和结构相似性来预测蛋白质功能的新方法。选择酵母 中已知的实验测定的1377个蛋白质。首先将它们由短到长重新排列成一个连贯的数据集。 设定一个连贯序列集m(可随机取值),将氨基酸序列集转换为profile编码(每个氨基酸在 1377个总数中出现的频率)数据集。然后采用最邻近聚类算法对序列集进行测试。选择步 长为5,设定m值,得到的结果30% m作为测试集,剩余作为训练集。这个方法是很多与 已知功能序列相似性很小的新蛋白质序列得到预测,

21、同时也增加了从序列预测功能的普及性。 Yang荷从序列的数字特征预测蛋白质功能。首先从序列中提取疏水性、极性与电荷特性三 L26个数字特征,并提出序列功能可能性。然后综合特征向量和功能可能性,应用 一最近邻 居算法(KNN)进行蛋白质的功能预测。该方法综合考虑了局部和全局信息,预测结果比基 于序列相似性的方法更有效。4总结近几十年来,蛋白质功能预测的方法不断被充实完善。本文仅指列出了部分有代表性的 常用的蛋白质功能预测方法,但其中支持各个方法的算法本文就不多做陈述。后基因组时代 的快速发展给我们带来机遇的同时也带来了巨大的挑战,蛋白质序列与结构的悬殊差异使我 们不得不加快透彻分析序列的脚步,发

22、展从序列预测蛋白质结构与功能的普遍性与准确性并 存的方法就变得刻不容缓。而目前所提出的基于序列预测的方法还远远不能满足科学发 展的要求。参考文献(References)1 T. Hawkins , M. Chitale and D. Kihara. New paradigm in protein function prediction for large scaleomics analysis J. Mol. Biosyst, 2008, 4:223 - 2312 A. Al Shahib,R. Breitling, DR. Gilbert. Predicting protein functi

23、on by machine learning on amino acid sequences - a critical evaluation J. BMC Genomics, 2007, 78: 1 - 10.3 P. Bork, T. Dandekar, Y. Diaz Lazcoz, F. Eisenhaber, M.Huynen and YP. Yuan. Predicting Function: From Genes to Genomes and Back J. J. Mol. Biol, 1998, 283: 707 725.4 SF Altschul, TL. Madden, AA

24、. Sch ffer, JH. Zhang, Z. Zhang, W. Miller and DJ. Lipman. Gapped BLAST and PSI BLAST: anew generation of protein database search programsJ. Nucleic Acids Res, 1997, 25: 3389 - 3402.5 B. Rost, J . Liu,R. Nair, KO. Wrzeszczynski and Y. Ofran. Automatic prediction of protein function J. Cellular and M

25、olecularLife Sciences, 2003, 6 0: 2637 2650.6 B. Rost. Enzyme function less conserved than anticipated J. JMol Biol, 2002,318: 595 - 608.7 B. Louie,R. Higdon,E. Kolker. A statistical model of protein sequence similarity and function similarity reveals overly specific function prediction J. PLoS One

26、, 2009,4: e7546.8 T. Hawkins,S. Luban,D. Kihara. Enhanced automated function prediction using distantly related sequences and contextual association by PFPJ. Protein Sci.,2006,15: 1550 - 1556.9 T. Hawkins,M. Chitale,S. Luban,D. Kihara. PFP: automated prediction of gene ontology functional annotation

27、s with confidencescores using protein sequence dataJ. Proteins,2009,7 4: 556 - 582.10 I. Friedberg,M. Jambon,A. Godzik. New avenues in protein function predictionJ. Protein Sci,2006,15: 1527 - 1529.11 G. Lopez, A. Rojas, M. Tress, A. Valencia. Assessment of predictions submitted for the CASP7 functi

28、on prediction categoryJ. Proteins,2007,6 9: 165 - 174.12 M. Chitale,T. Hawkins,C. Park and D. Kihara. ESG: extended similarity group method for automated protein function prediction J. BMC, 2009, 14: 1739 1745.13 GD. Bader, MP. Cary, C. Sander. Pathguide: a pathway resource list J. Nucleic Acids Res, 2006, 34: D504 506.14 Chua HN, Sung WK, Wong L. Exploiting indirect neighbours and topological weight to predict protein function from protein protein interactions J. Bioinformatics, 2006, 22: 1623.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!