UniProt类数据库简介

上传人:1666****666 文档编号:38751498 上传时间:2021-11-08 格式:DOC 页数:4 大小:87KB
收藏 版权申诉 举报 下载
UniProt类数据库简介_第1页
第1页 / 共4页
UniProt类数据库简介_第2页
第2页 / 共4页
UniProt类数据库简介_第3页
第3页 / 共4页
资源描述:

《UniProt类数据库简介》由会员分享,可在线阅读,更多相关《UniProt类数据库简介(4页珍藏版)》请在装配图网上搜索。

1、UniProt类数据库简介1 UniProt全球蛋白质资源(Universal Protein Resource,UniProt)是全球有关蛋白质方面信息最伞面的资源库。是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用

2、途。1、UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt,它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。此类信息尚未有手工注释(记为UniProtTrEMBL)。在SwissProt或TrEMBL中没有找到的PIRPSD记录也被存放到UniProtKB中,并且与SwissProt或TrEMBI有

3、一个双向交叉引用。UniProtKB还提供与其他数据广泛的交叉引用, 比如说DDBJEMBLGenBank核酸数据库、蛋白质结构数据库、蛋白质结构域和蛋白质家族数据库、翻译后加工数据库、种属特异性数据库,以及疾病数据库等的交叉引用。事实上,这样一个广泛的文叉引用,使得这样一个数据库成了蛋白质分子生物学信息的情报中心。2、UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序

4、列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJEMBI,GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。UniRef100中的数据首先将同一序列的所有记录进行聚类,相同序列以及子片段被记录为一条UniRef100条目。包含所有合并条目的接收号、蛋白质序列,以及与已知数据库和

5、它们档案记录相关的链接。UniRef90和UniRef50是由UniRefioo数据开发得到的,旨在提供非冗余序列信息,以便于科研组织进行更快的同源搜索。所有同源性大于90或大于50的记录合并到一起。分别形成了UniRef90或UniRe50条目。3、UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列。 只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJEMBLGeni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。 比如说SwissProt、TrEMBL以及PIRP

6、SD:另外,PDB中的有一部分蛋白质序列记录是专利产品。考虑到蛋白质初级资源的种类繁多以及注释信息的注释程度与质量的参差不齐,于是建立了UniParc,它是用来从其他的资源库收集所有可获得的蛋白质序列数据, 如DDBJEMBIGenBank、 UniProtSwissProt、 UniProtTrEMBL、PIRPSD、Ensemble、IPI,以及欧洲专利局、美国专利局、日本专利局等。对资源进行如此的整合。使得UniParc成为一个广泛的、可公开获得的、非冗余蛋白质序列库。UniParc中每条蛋白质序列出现一次,而且也只出现一次,并用唯一的UniParc标识符进行标注。UniParc交叉引用

7、了其他资源数据库的接收号,并以常用的风格提供序列的版本信息。一些统计标识用来显示该记录在原来资源数据库中的状态,用“active”表示该记录在原来的数据库中仍旧存在,而用“obsolete”表示该记录已经不存在了。UniParc的用途就是记录所有蛋白质序列的当前状态以及历史信息。UniParc记录中不含有注释信息。但此类的注释信息可以在UniProtKB中找到。2 SwissProtSWISSPROT数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss institute of Bioinformatics,SIB)和EM共同维护和管理。1994年,SIB创建了蛋白质

8、专家分析系统(ExpenProtein Analysis System,ExPASy)(http:/www.Expasy.ch),除了开发、维护和管理SwISSPROT数据库外,还提供蛋白质序列、结构、功能和蛋白质2DPAGE图谱等蛋白质信息资源,是国际上蛋白质组和蛋白质分子模型研究的主要网站。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,

9、其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB和 EBI共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数

10、据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。ExPAsy专门聘请了由200多位国际知名生物学家组成的网上专家评审团,并将SwissProt数据库中的蛋白质分成200多个类别,每个类别由1位或2位评审专家负责,通过计算机网络进行审核。ExPASy网站上列出了这些评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义,可以直接和相应的评审专家取得联系。   SwissProt采用了和EMBL核算序列数据库相同的格式和双字母标识字。这种双字母的标识字对于数据库的管理

11、维护比较方便,但用户在使用时却不很方便,特别对数据库格式不很熟悉的用户。ExPASy开发了面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表,使用户对序列特性一目了然,如二硫键、跨膜螺旋、二级结构片段、活性位点等。截止1998年6月,SWISS-PROT数据库包含约7万条序列,这些序列涵盖了5千多个不同种属,其中大部分来自于几种主要模式生物,如人、小鼠等。      SWISS-PROT数据库的结构与其它蛋白质序列数据库不同。给出SWISS-PROT数据库中一个序列条目的实例。图中每一行由两个字母起始,用来说明每一行所代表

12、的信息。起其中第一行以ID开始,最后一行以双斜杠/结束。ID行表示该序列的名称是OPSD_SHEEP,共有348个氨基酸残基。SWISS-PROT数据库的ID包含一定信息,如本例中OPSD表示蛋白质名称缩写,而SHEEP表示该蛋白质分子来自于哪个物种,中间用下划线分隔。即这一蛋白序列是来源于绵羊的视紫红质(rhodopsin)。序列条目的标识符ID随着版本的更新有可能改变,因此有必要采用能够唯一识别该序列条目的其它标识符。SWISS-PROT采用AC(accession number)作为表示某个特定序列的代码,具有唯一性和永久性。在文献中引用某个序列时,应以AC为准,而不是以序列名称或ID为

13、准。本例中,代码AC为P02700。采用AC代码的另一个好处是便于计算机处理。如果在AC行出现了几个代码值,那么应以第一个为准,它表示该序列在当前版本中的代码。下面的DT行提供了蛋白质序列提交到数据库的时间,及最近一次修改的时间等信息。描述行(DE)可以有一行或几行,提供了对该蛋白质的简单说明。此例中,说明该蛋白质为视紫红质。下面的几行中提供了有关该蛋白质的基因名(GN)、物种来源(OS)和分类学位置(OC)等信息。接下来是与该蛋白质相关的基本注释信息,包括文献信息、与测序有关的信息、以及对该蛋白质序列分析得到的与结构或突变相关的信息等。这些注释为用户提供了非常有价值的信息。基本注释信息后,是

14、说明行(CC)。在CC行中按主题进行区分,其中,FUNCTION说明该蛋白质的功能,PTM说明翻译后修饰,TISSUE SPECIFICITY说明组织专一性,SUBCELLULAR LOCATION说明亚细胞定位,SIMILARITY说明了与该蛋白质序列具有相似性或相关的某个蛋白质家族,等等。蛋白质序列具有与另一个蛋白质序列数据库PIR的链接、与GPCR专门数据库的链接,以及与蛋白质序列模体数据库PROSITE的链接和与蛋白质结构域数据库ProDom的链接。在DR行之后,是关键字行(KW)和特征表行(FT)。特征表包括对该序列特性的进一步注释,包括跨膜螺旋等超二级结构单元、配体结合位点、翻译后

15、修饰位点等。特征表的每一行有一个关键字(如TRANSMEM)、特征序列的氨基酸残基位置(如37-61),以及注释信息的性质(如POTENTIAL)等。SWISS-PROT数据库中的序列数据与蛋白质前体对应,如果想要获得成熟蛋白质的序列,可以参考特征表所提供的信息,即根据特征表所提供的信号(SIGNAL),转运区(TRANSIT)或前肽(PROPEP)等信息来推断成熟蛋白质或多肽序列。此外,CHAIN和PEPTIDE两个关键字用来表示成熟蛋白质的位置。SWISS-PROT数据库的格式便于通过计算机软件进行查询,即通过对每行起始的标识字建立索引文件,即可方便地找到某一字段。 NRL3D包首已知空间

16、结构的序列,但数据量十分有限;SwissProt的序列经过严格的审核,注释完善,但数据量较小。PIR数据量较大,但包含未经验证的序列,注释也不完善。TrEMBL和GenPePt的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。因此,用户在使用蛋白质序列数据库时,必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。3 TrEMBLPIR和SwissProt是创建最早、使用最为广泛的两个蛋白质序列数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据

17、库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建于1996年,意为“transiation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL,数据库中所有编码序列的翻译。trEMBL数据库分两部分,SPTrEMBL和REMTrEMBL。SP-TrEMBI中的条目最终将归并到SwissProt数据库中。而REMTrEMBI则包括其他剩余序列。包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肤、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。 由于TrEMBL和GenPept均是由核酸序列通过计算

18、机程序翻译生成的,这两个数据库中的序列错误率较大,均有较大的冗余度。4. 举例说明下面给出UniProt一个简单的应用, UniProt分别在EBI、SwissProt和PIR有主页链接在这里以UniProtEBI为例,进入首页,在首页左端有许多工具链接,包括文本搜索、高级搜索等。在这里如果选择高级搜索,则可以看到,不仅可以选择检索数据库(UniProtKBSwissProt和UniProtKBTrEMBL,仅UniProtKBSwissProt。或仅UniProtKBTrEMBL),还可以选择检索关键词的类型,具体种类可以看该网页下拉菜单,比较简单明了。在检索关键词中填入关键词后进行检索便可进入检索结果页面,选择一个检索结果,可得到所选蛋白质的记录信息。 5. 总结综上所述,蛋白质序列数据库种类繁多,各有特色。但在UniProt出现之后,由于该数据库是对各大蛋白质序列数据库的一种集成,并进行了数据库功能以及信息的进一步开发,旨在为用户提供一个既全面又综合,且高度集成的蛋白质序列数据库,相信UniProt将成为研究工作者首选的蛋白质序列数据库。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!