生物信息学数据库

上传人:d****2 文档编号:194945746 上传时间:2023-03-14 格式:DOCX 页数:16 大小:22.16KB
收藏 版权申诉 举报 下载
生物信息学数据库_第1页
第1页 / 共16页
生物信息学数据库_第2页
第2页 / 共16页
生物信息学数据库_第3页
第3页 / 共16页
资源描述:

《生物信息学数据库》由会员分享,可在线阅读,更多相关《生物信息学数据库(16页珍藏版)》请在装配图网上搜索。

1、数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的 各个领域。核酸序列数据库有GenBank, EMBL, DDBJ等,蛋白质序 列数据库有 SWISS-PROT, PIR, OWL, NRL3D, TrEMBL 等,蛋白质片 段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有 SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有 ESTdb, OMIM, GDB, GSDB 等,文献数据库有 Medline, Uncover 等。

2、另外一些公司还开发了商业数据库,如MDL等。生物信息学数据库覆 盖面广,分布分散且格式不统一,因此一些生物计算中心将多个数据 库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System) 包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及 CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进 行多个数据库的多种查询。基因和基因组数据库1. GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相 关的文献著作和生物学注释。它是由美国国立生物技术信息中心 (NCBI)建立和维护的。它的数据直接来源于测序工

3、作者提交的序列; 由测序中心提交的大量EST序列和其它测序数据;以及与其它数据 机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室 (EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三 个数据库的数据同步。Genbank的数据可以从NCBI的FTP服务器上 免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据 查询、序列相似性搜索以及其它分析服务,用户可 以从NCBI的主页上找到这些服务。Genbank库里的数据按来源于约55,000个物种,其中56%是人类的 基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank 数据记录包含了对序

4、列的简要描述,它的科学命名,物种分类名称, 参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生 物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位 点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵 长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序 列数据等16类,其中EST数据等又被各自分成若干个文件。Genbank数据检索NCBI的数据库检索查询系统是Entrezo Entrez是基于Web界面的综 合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地 检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列

5、数据、基因组图谱数据、来自分子模型数据库:MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上 完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引 (Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的 检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据, 保存查询结果,甚至以图形方式观看检索获得的序列。更详细的 Entrez使用说明可以在该主页上获得。(2)向Genbank提交序列数据测序工作者可以把自己工作中获得的

6、新序列提交给NCBI,添加到 Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程 序Sequin来完成。BankIt是一系列表单,包括联络信息、发布要求、 引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序 列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编 号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面 下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量 序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序 列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。大量

7、的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑 和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保 证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可 以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可 以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的 序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行 的 Sequin 程序都可 以在 ftp:/ncbi.nlm.nih.gov/sequin/T找到,Sequin 的使用说明可详见其网页。NCBI 的网址是:http:/www.ncbi.nlm.nih.g

8、ov。Entrez 的网址是:http:/www.ncbi.nlm.nih.gov/entrez/。BankIt 的网址是:http:/www.ncbi.nlm.nih.gov/BankIt。Sequin 的相关网址是:http:/www.ncbi.nlm.nih.gov/Sequin/。2. EMBL核酸序列数据库 EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序 列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个 全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护, 查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向 EMBL核

9、酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完 成。数据库网址是:http:/www.ebi.ac.uk/embl/SRS 的网址是:http:/srs.ebi.ac.uk/WEBIN 的网址是:http:/www.ebi.ac.uk/embl/Submission/webin.html3. DDBJ数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库 提交序列。4. GDB基因组数据库(GDB)为人类基因组计

10、划(HGP )保存和处理基因组图谱 数据。GDB的日标是构建关于人类基因组的百科全书,除了构建基 因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序 列变异和其它对功能和表型的描述。日前GDB中有:人类基因组区 域(包括基因、克隆、amplimers PCR 标记、断点 breakpoints 细胞遗传标记 cytogenetic markers易碎位点 fragile sites、EST 序列、综合区域 syndromic regions contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、 放射性杂交图谱、content contig图谱和综合图谱等);人类基

11、因组内 的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对 象模型来保存数据,提供基于Web的数据对象检索服务,用户可以 搜索各种类型的对象,并以图形方式观看基因组图谱。GDB 的网址是:http:/www.gdb.org。GDB 的国内镜像是:1. PIR 和 PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑 蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID )共 同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经 过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基 因组的蛋白质序列。所有序列数据都经过整理

12、,超过99%的序列已按蛋白质家族分类, 一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多 序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目 之间的索引,这些内部索引帮助用户在包括复合物、酶一底物相互作 用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完 整的数据库,每周可以得到更新部分。PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提 供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜 索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质 家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索 Gene

13、FIND 等。PIR 和 PSD 的网址是:http:/pir.georgetown.edu/。数据库下载地址是:ftp:/nbrfa.georgetown.edu/pir/。2. SWISS-PROTSWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研 究所(EBI)维护。数据库由蛋白质序列条日构成,每个条日包含蛋白 质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的 功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它 序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽 可能减少了冗余序列,并与其它30多个数据建立了交叉引

14、用,其中 包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的 数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交 可以在其Web页面上完成。SWISS-PROT 的网址是:http:/www.ebi.ac.uk/swissprot/。3. PROSITE PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模 式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白 质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知 功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能 密切相

15、关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序 列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、 配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分 子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包 括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主 页上提供各种相关检索服务。PROSITE 的网址是:http:/www.expasy.ch/prositeZo4. PDB蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库, 由美国Brookhaven国家实

16、验室建立。PDB收集的数据来源于X光品 体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。日前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文 件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使 用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维 结构。RCSB 的 PDB 数据库网址是:http:/www.rcsb.org/pdb/。5. SCOP蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的 关系。分类基于若干层次:家族,描述相近的进

17、化关系;超家族,描 述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠 类,所有折叠子被归于全口、全。、a/p. a+p和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列 比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这 个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序 列。SCOP 的网址是:http:/scop.mrc-lmb.cam.ac.uk/scop/。6. COG蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个 完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG

18、库 对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有 用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋 白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于 Web的COGNITOR服务,系统进化模式的查询服务等。COG 库的网址是:http:/www.ncbi.nlm.nih.gov/COG。下载 COG 库和 COGNITOR 程序在:ftp:/ncbi.nlm.nih.gov/pub/COG。功能数据库1. KEGG 京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因 组信息和功能信息的知识库。基因组信息存储在

19、GENES数据库里, 包括完整和部分测序的基因组序列;更高级的功能信息存储在 PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、 信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关 于化学物质、酶分子、酶反应等信息。KEGG提供了 Java的图形工 具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序 列比较、图形比较和通路计算的工具,可以免费获取。KEGG 的网址是:http:/www.genome.ad.jp/kegg/。2. DIP相互作用的蛋白质数据库(DIP )收集了由实验验证的蛋白质一蛋白质 相互作用。数据库包括蛋白质

20、的信息、相互作用的信息和检测相互作 用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超 家族、关键词、实验技术或引用文献来查询DIP数据库。DIP 的网址是:http:/dip.doe-mbi.ucla.edu/。可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白 质)部分来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注 释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构 建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的 完整基因构成。数据库提供了方便的搜索服务。ASDB 的网址是:http:/cbcg.nersc.gov

21、/asdb。4. TRRD转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构 一功能特性信息基础上构建的。每一个TRRD的条日里包含特定基 因各种结构一功能特性:转录因子结合位点、启动子、增强子、静默 子、以及基因表达调控模式等。TRRD包括五个相关的数据表: TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位 点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调 控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述); TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几

22、 个数据表的检索服务。TRRD 的网址是:http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。5. TRANSFACTRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和 与 DNA 结合的 profiles 的数据库。由 SITE、GENE、FACTOR、CLASS、 MATRIX CELLS、METHOD 和 REFERENCE 等数据表构成。此外, 还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了可 能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的 信息;TRANSPAT

23、H库用于描述与转录因子调控相关的信号传递的网 络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理 系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费 下载,也可以通过Web进行检索和查询。TRANSFAC 的网址是:http:/transfac.gbf.de/TRANSFAC/。其它数据库资源1. DBCatDBCat是生物信息数据库的日录数据库,它收集了 500多个生物信息 学数据库的信息,并根据它们的应用领域进行了分类。包括DNA、 RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。 数据库可以免费下载或在网络上检索查询。DBCat 的网址是:htt

24、p:/www.infobiogen.fr/services/dbcat/。下载 DBCat 在:ftp:/ftp.infobiogen.fr/pub/db/dbcat。2. PubMedPubMed是NCBI维护的文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期 刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。PubMed 的网址是:http:/www.ncbi.nlm.nih.gov/。除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉 及了日前生物学研究的各个层面和领域,由于篇幅所限无法一一详 述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据 库,如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物 信息镜像系统,上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库 及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我们 期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信 息学和整个生命科学的发展。清华大学生物信息学研究所网址:北京大学生物信息镜像系统网址:

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!