UniProt:蛋白质的全信息数据库

上传人:lis****210 文档编号:158504897 上传时间:2022-10-05 格式:DOCX 页数:11 大小:22.32KB
收藏 版权申诉 举报 下载
UniProt:蛋白质的全信息数据库_第1页
第1页 / 共11页
UniProt:蛋白质的全信息数据库_第2页
第2页 / 共11页
UniProt:蛋白质的全信息数据库_第3页
第3页 / 共11页
资源描述:

《UniProt:蛋白质的全信息数据库》由会员分享,可在线阅读,更多相关《UniProt:蛋白质的全信息数据库(11页珍藏版)》请在装配图网上搜索。

1、Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119 2004 Oxford University PressUniProt:蛋白质的全信息数据库摘要为了给科学界提供一个专门,集中,权威的蛋白质序列和功能的信息资 源,瑞士一Prot, TrEMBL和PIR蛋白质数据库已经合作组成了蛋白质的全信 息数据库 (UniProt)。 我们的目的是用广泛的对照和询问接口来提供一个全 面的,分类完全的,丰富并且准确的蛋白质序列信息。中心数据库将有两个部 分:符合熟悉的瑞士 一Pro t(完全手工操作入口)和TrEMBL(使用丰富的自

2、动化 的分类,注释和广泛的对照)。为方便序列查寻,UniProt也提供几个无冗余的 序列数据库。UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白 质的全信息数据库的代表性的子集。全面的UniProt档案(UniParc)每天从很 多公共来源数据库更新。数据库那些UniProt接口可在线访问(http:/www.uniprot.org)或者以几 个形式下载(ftp: /ftp.uniprot.org/pub)。我们鼓励科学界人士向UniProt 提供数据。介绍近来,瑞士-Pro t + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息 覆盖面和注释优势共存。2

3、002年,在生物信息科学(SIB)的瑞士研究所和欧洲 生物信息科学研究所的瑞士-Prot + TrEMBL组(EBI)和蛋白质信息资源(PIR) 组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。 新联合 的组织的主要任务是通过建立一个综合,详细分类,丰富并且准确注释蛋白质 序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口knowledgebase来支持生物学的研究。UniProt将在组织成员多年合作的坚 实基础上建立起来。UniProt 数据库包括3 个数据库层:1、UniProt档案(UniParc),通过储存全部可公开得到的蛋白质序列数据 供一个稳定,综合,无冗余

4、的序列收集。2、UniProt蛋白质的全信息数据库,提供蛋白质序列信息给中心数据库以 准确、一致和丰富的序列和功能注释。3、UniProtNREF,数据库(UniRef)提供基于UniProt蛋白质的全信息数据 库的无冗余的数据收集,来获得不同序列信息的全面覆盖。UNIPROT 档案(UNIPARC)UniProt档案(UniParc)是公开可利用的最全面的无冗余的蛋白质序列数 据源。它包含很多不同公开来源的蛋白质序列,包括瑞士-Prot,TrEMBL, PIR-PSD, EMBL, Ensembl, IPI(http:/www.ebi.ac.uk/IPI), PDB, RefSeq, Fly

5、Base,WormBase,以及欧洲,美国和日本专利局。当一个蛋白质序列可能 存在于多个数据库和不止一次在指定的数据库里时,UniParc将这个序列仅储 存一次和并仅分配给一个独特的UniParc标识符。此外,UniParc提供对比到 来源数据库(登录号),序列的版本和状态(活跃或者淘汰的)。一个UniParc序 列版本以及基础的序列改变也被提供,所以增加的序列使在全部来源数据库上 观察序列成为可能。例如UniParc报告可能被在http:/srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-noSession+-e+UNIPARC:UPI0000133132(SRSvie

6、w)anhttp:/www.pir.uniprot. org/cgi-bin/upEntry?i d=UPI0000133132 (PIR view)中找到。UNIPROT蛋白质的全信息数据库(UNIPROT)UniPr ot蛋白质的全信息数据库是组织合作的结晶。为了提供给蛋白质序 列的中心数据库带注释和功能信息,我们已经合并瑞士-Prot, TrEMBL和 PIR-PSD 形成了UniProt knowledgebase。全部从瑞士-Prot + TrEMBL丢失的 适合PIR-PSD的序列都被合并进了UniProt。在瑞士-Prot + TrEMBL和 PIR-PSD之间的双向的对比引用的

7、建立使跟踪PIR-PSD变得容易。转移到参考 的UniProt和用实验补充证实从瑞士-Prot向+ TrEMBL转移存在于PIR但却丢 失的数据的工作正在进行中。UniPro t蛋白质的全信息数据库由两个部分组成:一部分是来源于文字信 息摘要和工作人员完全手工注释的计算机评估分析记录,另一部分是由计算机 分析的记录并等待充分的手工注释。为了连续性和名字识别,两个部分被称为 瑞士-Prot 和TrEMBL。例如UniProt报告可能在http:/www.expasy.org/cgi-bin/niceprot.pl?P57727 (NiceProt view),http:/www.pir.unip

8、rot. org/cgi-bin/upEntry?id二P57727 (iProClass view) or http:/srs.ebi.ac.uk/cgi-bin/wgetz?-e+swall-acc:P57727 (SRS view) 中找到 。在下面段落里我们将解释UniPro t蛋白质的全信息数据库的主要特点。1、优质的注释我们将已经对瑞士一Prot + TrEMBL和PIR-PSD取得的细节放入高水平的 接口UniPro t库中。除每个UniPro t入口的捕获核心数据命令(主要包括 氨基酸序列,蛋白质名字或者描述,分类的数据和引证信息) 以外,我们努力 把尽可能多的注释信息附到蛋白

9、质上。这可以用两种方式获得:手工和自动。2、基于工作人员的文字和序列分析的手工注释 那些具有新功能和新结构的序列或生化数据被分配给高的手工注释优先 权。在UniPro t里,注释包括以下项目的说明:蛋白质的功能; 酶的具体信息(催化活性,辅助因子,代谢途径,调节机制); 生物学相关的领域和场所;翻译后修饰(PTM);质谱测定法确定分子量;蛋白质的亚细胞位置; 蛋白质的组织特异表达; 蛋白质的组织特异性表示; 二级结构;四级结构;相互作用;组成的接合;成熟的蛋白质产物;多态性;与其它蛋白质的相似性; 蛋白质在生物工程中用途; 蛋白质的缺乏或者变形造成的相关的疾病; 蛋白质的药用价值;序列冲突,等

10、等这个注释可在“注解”,“特征” 和“关键字”的链接中找到。注解根 据题目分类和数据的具体类别可从数据库容易检索。为获得最新的和最大广泛的蛋白质的信息, 我们不仅从公开报道的新序 列里搜寻数据, 而且从定期修正的蛋白质的家族或者蛋白质组的综述文章中 获取信息。 此外,我们已经预约了许多专家寄给我们评论和蛋白质组的具体 更新进展。为了提供如上所述的高水平注释,所有的UniProt工作者要读大量的与蛋 白质有关的科学文献。 这使他们能够选出与蛋白质有关的信息,并加在注释 里, 如蛋白质的功能,它涉及的代谢和它在细胞里的位置。3、自动的分类和注释 由于序列数据库的迅速发展,对新蛋白质的功能预言性的描

11、述和注释成为 一种需要。 为了处理这样大量的数据,必须发展一种迅速有效的蛋白质序列 描述和注释的方法。一项可行措施是自动的大规模功能的描述和注释,它和有 限的人工工作结合起来。InterPro分类。我们使用InterPro(识别全部蛋白质的结构域和序列并 且据此在UniPro t中将它们分类进不同的蛋白质家族和和超家族中。Int erPro 是一种蛋白质家族的联合资源,结构域和位点的综合的资源数据库: Pfam , PROSITE , PRINTS, ProDom, SMART, PIRSF, Superfamily和 TIGRFAMs。综合 的InterPro分类是基于自动化规则,使用高度构

12、造改进我们注释的数量和质 量的前提。UniPro t的TrEMBL部分的自动注释功能。对于自动注释来说,一个将在 UniProt的瑞士-Prot的蛋白质信息转存到非注释的TrEMBL入口新的规范化 化的注释系统已经被开发了。使用这个系统,瑞士-Prot被用作产生注释标准 的来源,然后被储存并且在RuleBase里管理。Int erPro用于分配TrEMBL的信 息成组。瑞士-Pro t中的蛋白质功能特性的注释选出后被分配到unanno tat ed TrEMBL入口就形成了这种组。这个系统已经用来在25%的TrEMBL入口里被改 进注释。 新数据自动注释的采集作为这个系统的补充也开始发展起来,

13、这将 在明年扩大自动注释的覆盖面,并且将使UniProt的TrEMBL更接近于瑞士-Prot 的注释标准。并且被合并RuleBase,注释进入的方式是PIR按分类和基于程序进行的, 这将提供规范化和丰富的关于蛋白质名字和关键词和具体位置特征的UniPro t 注释。为完整curated PIRS家族,新的特征标准正在被系统的定义为至少包 含一种功能/活性/ 捆绑位点信息的被实验已证实的已知的三维结构。基于整 个蛋白质的进化关系的PIRS F分类也已经被用于查找出并且修正许多的只基于 本地结构域的相似性和后来的基于传递性的繁殖引起的基因注释错误。4、微生物的Proteomes(HAMAP)优质自

14、动化的手工注释瑞士-Prot中原核生物基因自动化和手工的注释的结合促进了HAMAP工程 的发展。 HAMAP 工程,高品质微生物蛋白质组的自动化和手动的注释目的 是结合手动和自动注释方法来提高在保存数据库注释的质量时cura tion的处 理速度。自动注释只适用于手工确定orthologous家族的入口和当给入口没有可识别的相象似性对象时申请(ORFans)。ORFans的注释。各种各样的预测工具已被用于和已知的蛋白质家族没有 任何相似性的蛋白质的预测。可能的穿膜结构,信号序列,螺旋,ATP/GTP的 结合位点, LPXTG 主题和确定的一些被定义重复一致的和从属性的标准自动 注释,并且没有任

15、何另外更进一步的手工证明。描述详细的成员的注释的(附属)家族。属于描述详细的蛋白质(附属)的蛋 白质家族可能自动地附注使用由相似性分配到原型手工附注的词条的规则系 统来描述注释的程度和本质。这样的一个系统规则也包括仔细编辑(附属)家族 的调整,这被用来传递来自一个模型入口的注释的特征和用来鉴定家族的新成 员的形状特征的信息。限于生物化学的途径的特定种类的标准和规则被用来发 展一个能够在整个蛋白质组的水平辨认出不同点的系统。5、命名的标准化和词语的用法一致的命名对通讯和文献检索是不可缺少的。UniPro t通过他的isoforms 使给定的蛋白质和与其有关的生物命名标准化。对各种各样的其他Uni

16、Prot工 程来说我们使用一些在UniProt资料里被列举出来固定的词汇,例如组织,质 粒和关键词。统一的UniProt关键字目录基于通过增加选择PIR关键词而增加的 瑞士-Prot关键词,PIR关键词代表现存在于瑞士-Prot关键词的可能的新概念 或者新亲子节点。如果可以得到,我们会利用仍然提供公用同义词的国际委员 会所确定的官方命名。与其他数据库和组织的合作和定期的数据交流使得我们 的命名的实现非常的及时和专业。6、与其他数据库的融合UniProt 也同时提供其他数据库的数据的引用对照,如提供脱氧核糖核酸 序列信息的DDBJ / EMBL / GenBank核苷酸顺序数据库,2D和3D蛋白

17、质结构数 据库,各种各样的蛋白质结构域和家族描述数据库, PTM 数据库,专门物种的 数据库,相异的数据库和疾病数据库,UniProt都提供这些数据库的入口。因 此, UniProt 几乎成为了超过50相互参照的数据库归档的生化信息中心的中 心。在一份UniPr ot的清单资料中(http:/www.uniprot. org/support/docs/dbxref.shtml)包含了对每个数据 库的简短的介绍和服务器地址。 这种通用性几乎已经通过专门数据库交叉引 用(DR)实现了。另外,从序列或者特别的致力于PTMs或突变的某些类型的数 据库的站点的连接也可在U niPro t中找到。根据特征

18、窗口里的独特稳定的特征 标识符(FTId)可以找到特殊位置的注释项目。目前这些被系统归属于FT VARIANT序列入口的特异性行列、其它拼接事件(VARSPLIC)以及给定的 glycosylation站点(CARBOHYD),但是将最后被分配到FT VARIANT的全部类型。7、最小冗余对一个给定的蛋白质序列,许多序列数据库包含有对应不同的文字报告的 独立入口。为了保证数据库的冗余减到最小,在UniProt里我们尽量设法合并 所有的这些数据。由于接合变形, 多形性,引起疾病的突变,实验序列的修改 或者简单的序列的错误在排序报告之间的差别也会在相应UniProt入口中的 特征窗口里被指示。拼接

19、isoforms之间也许有相当大不同,在isoforms之间的序列之间的相似 的可能性可能小于50%。那些可免费得到的VARSPLIC工具使得UniProt的FT中 的全部注释接合变形成为一种休闲,或为完整数据库。一个包含 UniProt 注 释的全部接合变形的FASTA格式化的文件可被下载下来同那个相似性搜寻程 序一起使用。8、证据归因UniProt 联合组织强调对蛋白质注释使用一个证据归因机制, 对于全部 数据,包括数据源,注释的证据类型和方法。这是根本的,因为UniPro t knowledgebase 将包含从基础的核苷酸序列数据库自动入口的数据,从其他数 据库的入口的专用程序的数据,

20、从自动注释系统得到的结果还有最重要的所有 专家手工的修订。 证据标记的使用将使用户容易区别所有这些数据源和鉴定 想要的特别种类的数据,例如用实验证明蛋白质的注释。为了通过来源归因增加实验核实的数据数量用来更进一步改进蛋白质注 释的质量,UniProt已经开发了一个参考目录提交系统和实施文字数据的摘要 的归因。提交页允许实验注释的文字引用的提交和归类,并且为每个UniProt 入口显示许多收集修订数据库的综合目录数据。通过计算机帮助映射现有的蛋 白质目录的信息,一个实验特征手工归因系统正在被执行实施。到目前为止, 为了直接并网入nowledgebase UniProt已有几千个实验特征同有关出版

21、物联系 在一起并与那些对应PMIDs进行了相互对照。参考文献1. Boeckmann,B., Bairoch,A., Apweiler,R., Blatter,M.,Estreicher,A., Gasteiger,E., Martin,M.J., Michoud,K., ODonovan,C., Phan,I. et al. (2003) The Swiss-Prot protein knowledgebase and its supplement TrEMBL in 2003. Nucleic Acids Res., 31,365 - 37O.Abstract/Free Full Text

22、2. Wu,C.H., Yeh,L.-S.L., Huang,H., Arminski,L., Castro-Alvear,J., Chen,Y. , Hu,Z. , Kourtesis,P. , Ledley,R. S. , Suzek,B. E. et al.(2003) The Protein Information Resource. Nucleic Acids Res., 31,345 - 347.Abstract/Free Full Text3.Stoesser,G., Baker,W., van den Broek,A., Garcia-Pastor,M., Kanz,C.,Ku

23、likova,T.,Leinonen,R.,Lin,Q.,Lombard,V.,Lopez,R.etal. (2003) The EMBL Nucleotide Sequence Database: major new development. Nucleic Acids Res, 30, 21 - 26.CrossRef4. Hubbard,T.,Barker,D.,Birney,E.,Cameron,G.,Chen,Y.,Clark,L., Cox,T., Cuff,J., Curwen,V., Down,T.et al. (2002) The Ensembl genome databas

24、e project. Nucleic Acids Res, 30, 38 - 41.Abstract/Free Full Text5. Westbrook, J. , Feng, Z. , Chen, L. , Yang, H. and Berman, H. (2003) The Protein Data Bank and structural genomics. Nucleic Acids Res., 31, 489-491.Abstract/Free Full Text6. Pruitt,K. and Maglott,D. (2001) RefSeq and LocusLink: NCBI

25、 gene-centered resources. Nucleic Acids Res., 29,137 - 14O.Abstract/Free Full Text7. FlyBase Consortium (2003) The FlyBase database of the Drosophila genome projects and community literature. Nucleic Acids Res., 31, 172 - 175.Abstract/Free Full Text8. Harris,T., Lee,R., Schwarz,E., Bradnam,K., Lawso

26、n,D., Chen,W., Blasier,D. , Kenny,E. , Cunningham,F. , Kishore,R. et al.(2003) WormBase: across-speciesdatabaseforcomparativegenomics.NucleicAcidsRes., 31, 133 - 137.Abstract/Free Full Text9. Ashburner,M., Ball,C.A., Blake,J.A., Botstein,D., Butler,H., Cherry,J.M., Davis,A.P., Dolinski,K., Dwight,S.

27、S., Eppig,J. T. et al. ( 2 0 0 0) G e n e On t o l ogy: t oo l for t h e unifi c a t ion of b io l ogy . Nature Genet., 25, 25 - 29.CrossRefMedline10. Mulder, N. , Apweiler, R. , Attwood, T. , Bairoch, A. , Barrell, D. , Bateman,A., Binns,D., Biswas,M., Bradley,P., Bork,P. etal.(2003)The InterPro Da

28、tabase, 2003 brings increased coverage and new features. Nucleic Acids Res, 31, 315 - 318.Abstract/Free Full Text11. Bateman,A., Birney,E., Cerruti,L., Durbin,R., Etwiller,L., Eddy,S.R., Griffiths-Jones,S., Howe,K.L., Marshall,M. and Sonnhammer,E.L.L. (2002) The Pfam protein families database.Nuclei

29、c Acids Res., 30, 276 - 28O.Abstract/Free Full Text12. Hulo,N.,Sigrist,C.J.A.,LeSaux,V.,Langendijk-Genevaux,P., Bordoli,L. , Gattiker,A. , De Castro,E. , Bucher,P. andBairoch,A. (2004) Recent improvements to the PROSITE database.Nucleic Acids Res,.32, D134 - D137.Abstract/Free Full Text13. Attwood,T

30、.K., Bradley,P., Flower,D.R., Gaulton,A., Maudling,N.,Mitchell,A.L.,Moulton,G.,Nordle,A.,Paine,K.,Taylor,P. et al. (2003) PRINTS and its automatic supplement, preprints.NucleicAcids Res., 31, 400 - 4O2.Abstract/Free Full Text14. Servant,F., Bru,C., Carrere,S., Courcelle,E., Couzy,J., Peyruc,D.andKah

31、n,D.(2002)Prodom:Automatedclusteringofhomologous domains. Brief. Bioinform, 3, 246 - 251.Medline15. Letunic,I., Goodstadt,L., Dickens,N.J., Doerks,T., Schultz,J., Mott,R., Ciccarelli,F., Copley,R.R., Ponting,C.P. and Bork,P. (2002) Recent improvements to the SMART domain-based sequence annotation re

32、source. Nucleic Acids Res, 30, 242 - 244.Abstract/Free Full Text16. Wu,C.H., Nikolskaya,A., Huang,H., Yeh,L.-S.,Natale, D. , Vinayaka, C. R. , Hu, Z. , Mazumder, R. , Kumar, S. , Kourtesis, P. et al. (2004) PIRSF: family classification system at the Protein Information Resource. Nucleic Acids Res.,

33、32,D112 -D114.Abstract/Free Full Text17. Gough,J., Karplus,K., Hughey,R. and Chothia,C. (2001) Assignment of homology to genome sequences using a library of Hidden Markov Models that represent all proteins of known structure.J. Mol. Biol., 313, 903 - 919.CrossRefMedline18. Haft,D.H., Loftus,B.J., Ri

34、chardson,D.L., Yang,F., Eisen,J.A.,Paulsen,I.T.andWhite,O.(2001)TIGRFAMs:aproteinfamily resource for the functional identification of proteins.Nucleic Acids Res., 29, 41 - 43.Abstract/Free Full Text19. Fleischmann,W.,Moeller,S.,Gateau,A.andApweiler,R.(1999)A novel method for automatic and reliable f

35、unctional annotation. Bioinforma tics 15, 228 - 233.Abs trac t/Free Full Tex t20. Wu,C.H., Huang,H., Yeh,L.-S. and Barker,W.C. (2003) Protein family classification and functional annotation.Comput. Biol. Chem,. 27, 37 - 47.CrossRefMedline21. Gattiker,A., Michoud,K., Rivoire,C., Auchincloss,A.H., Cou

36、dert,E., Lima,T., Kersey,P., Pagni,M., Sigrist,C.J.A., Lachaize,C. et al. (2003) Automatic annotation of microbial proteomes in Swiss-Prot. Comput. Biol. Chem, 27, 49 - 58.CrossRefMedline22. Kersey,P., Hermjakob,H. and Apweiler,R. (2000) VARSPLIC: alternatively-spliced protein sequences derived from Swiss-Prot and TrEMBL. Bioinforma tics 11, 1048 - 1049.CrossRef23. Li,W., Jaroszewski,L. and Godzik,A. (2002) Tolerating some redundancy significantly speeds up clustering of large proteindat abases. Bioinforma tics 18, 77 - 82.Abst rac t/Free Full Tex t

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!