06第六章 常用生物信息学数据库简介

上传人:无*** 文档编号:207719152 上传时间:2023-05-07 格式:PPT 页数:54 大小:2.18MB
收藏 版权申诉 举报 下载
06第六章 常用生物信息学数据库简介_第1页
第1页 / 共54页
06第六章 常用生物信息学数据库简介_第2页
第2页 / 共54页
06第六章 常用生物信息学数据库简介_第3页
第3页 / 共54页
资源描述:

《06第六章 常用生物信息学数据库简介》由会员分享,可在线阅读,更多相关《06第六章 常用生物信息学数据库简介(54页珍藏版)》请在装配图网上搜索。

1、第六章 常用生物信息学数据库简介Bioinformatics一、引一、引 言言二、生物信息学数据库的简介二、生物信息学数据库的简介主要内容三、生物信息学数据库的检索三、生物信息学数据库的检索生物分子数据生物分子数据 高速增长高速增长一、引 言1.生物信息学数据库产生生物信息学数据库产生生物分子数据高速增长 分子生物学及相关领域研究人员 迅速获得最新实验数据 建立生物分子数据库 2.生物分子数据库分类生物分子数据库分类(1)一级数据库)一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。(2)二级数据库)二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级

2、数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。一级数据库一级数据库基因组数据库基因组数据来自基因组作图核酸或蛋白质序列数据库测序结构数据库X射线衍射和核磁共振 这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。国际上著名的一级核酸数据库有Genbank、EMBL和DDBJ;蛋白质序列数据库有UniPROT和PIR等;蛋白质结构库有PDB等。二级数据库二级数据库 它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊 生 物 学 意 义 和 专 门 用 途 的

3、数 据 库。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。生生物物信信息息学学 工工具具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数据库数据库 蛋白质序列蛋白质序列数据库数据库 蛋白质结构蛋白质结构数据库数据库二二级级数数据据库库基因组作图基因组作图序列测定序列测定结构测定结构测定一级数据库一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库

4、管理系统支撑。二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。(1)数据库的更新速度快,数据量呈指数增长;(2)数据库使用频率增长快;(3)数据库的复杂程度不断增加;(4)数据库网络化;(5)面向应用;(6)先进的软硬件配置。3.生物信息数据库生物信息数据库6个明显的特征个明显的特征二、生物信息学数据库简介国际上权威的核酸序列数据库:国际上权威的核酸序列数据库:(1)GenBank (2)EMBL (3)DDBJ (一)核酸序列数据库p三个数据库都是综合

5、性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。p三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。GenBankDDBJEMBLGenBank数据库数据库简介简介GenBank数据库是由美国生物技术信息中心(National Center for Biotechnology Information,NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。美国马里兰州的贝塞斯达美国马里兰州的贝塞

6、斯达 美国国家生物技术信息中心美国国家生物技术信息中心 NCBI是美国国家医学图书馆(NLM)的一部分。建立于1988年。NCBI保管GenBank的的 基基 因因 测测 序序 数数 据据 和Medline的的生生物物医医学学研研究究论论文文索索引引。所有的这些数据库都可以通过Entrez搜索引擎在线访问。核酸序列数据库检索界面:核酸序列数据库检索界面:特征栏提供辅助检索功能LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998DEFINITION Escherichia coli K-12 MG1655 complete genome.ACC

7、ESSION U00096KEYWORDS .SOURCE Escherichia coli.ORGANISM Escherichia coli Bacteria;Proteobacteria;gamma subdivision;Enterobacteriaceae;Escherichia.REFERENCE 1 (bases 1 to 4639221)AUTHORS Blattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,TITLE The complete genome sequence of Escherichia co

8、li K-12 JOURNAL Science 277(5331),1453-1474(1997)MEDLINE 97426617COMMENT This sequence was determined by the E.coli Genome Project at the University of Wisconsin-Madison(Frederick R.Blattner,director).Supported by NIH grants HG00301 and HG01428(from Human Genome Project and NCHGR).The entire sequenc

9、e was independently determined from E.coli K-12 strain MG1655.Predicted open reading frames were determined using GeneMark software,kindly supplied by 实例:E.coli k-12全基因组序列文件FEATURES Location/Qualifiers source 1.4639221 /organism=Escherichia coli /strain=K-12“/sub_strain=MG1655 /db_xref=taxon:562 pro

10、moter 71.99 /note=factor Sigma70;predicted+1 start at 106 promoter 104.132 /note=factor Sigma70;predicted+1 start at 139 promoter 188.212 /note=factor Sigma32;predicted+1 start at 219 gene 190.255 /note=b0001 /gene=thrL CDS 190.255 /gene=thrL /function=leader;Amino acid biosynthesis:Threonine /note=

11、o21;100 pct identical to LPT_ECOLI SW:P03059 /codon_start=1 /transl_table=11 /product=thr operon leader peptide /db_xref=PID:g1786182 /translation=MKRISTTITTTITITTGNGAG“BASE COUNT 1142136 a 1179433 c 1176775 g 1140877 tORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tga

12、tagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg cagtgcggg 301 cttttttttt cgaccaaagg ta

13、acgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caa

14、caacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c/EMBL是最早的DNA序列数据库,于1982年建立。EMBL的数据来源主要有两条途径:一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ,得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。EMBL数据库简介数据库简

15、介德国海德堡德国海德堡欧洲分子生物学实验室欧洲分子生物学实验室EMBL(European Molecular Biology Laboratory)创建于1974年,是一所非营利性的分子生物学研究机构,由27个欧洲会员国及澳大利亚(准会员国)资助。该实验室在欧洲共有5处分站:位于德国海德堡的主实验室、设在英国Hinxton的欧洲生物信息学研究所(EBI)、以 及 位 于 法 国 格 勒 诺 布 尔(Grenoble)、德国汉堡(Hamburg)、以 及 意 大 利 蒙 特 罗 顿 多(Monterotondo)的分站。EBI维护并发布EMBL核酸序列数据库欧洲的主要核酸序列数据资源。英国辛克斯

16、顿英国辛克斯顿 ID U00096 standard;circular genomic DNA;CON;4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003(Rel.76,Last updated,Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW .OS Escherichia coli K12OC Bacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OC Enterobacteriaceae;Escherich

17、ia;Escherichia coli.RN 1RP 1-4639221RX MEDLINE;97426617.RX PUBMED;9278503.RA Blattner F.R.,Plunkett G.III,Bloch C.A.,Perna N.T.,Burland V.,RT The complete genome sequence of Escherichia coli K-12;RL Science 277(5331):1453-1474(1997).DR GOA;O32528.DR REMTREMBL;AAC74436;AAC74436.DR SPTREMBL;O32530;O32

18、530.DR SWISS-PROT;O32528;YPDI_ECOLI.CC This sequence was determined by the E.coli Genome Project at theCC University of Wisconsin-Madison(Frederick R.Blattner,director).CC Supported by NIH grants HG00301 and HG01428(from the Human GenomeCC Project and NCHGR).The entire sequence was independentlyCC d

19、etermined from E.coli K-12 strain MG1655.Predicted open readingCC frames were determined using GeneMark software,kindly supplied byFH Key Location/QualifiersFT source 1.4639221FT /db_xref=taxon:83333FT /mol_type=genomic DNAFT /organism=Escherichia coli K12FT /strain=K12FT /sub_strain=MG1655FT promot

20、er 71.99FT /note=factor Sigma70;predicted+1 start at 106FT CDS 190.255FT /codon_start=1FT /db_xref=GOA:P03059FT /db_xref=SWISS-PROT:P03059FT /note=o21;100 pct identical to LPT_ECOLI SW:P03059FT /transl_table=11FT /gene=thrLFT /function=leader;Amino acid biosynthesis:ThreonineFT /product=thr operon l

21、eader peptideFT /protein_id=AAC73112.1FT /translation=MKRISTTITTTITITTGNGAG“关于序列的注释信息序列特征表子项序列特征表起始SQ Sequence 4639221 BP;1142136 A;1179433 C;1176775 G;1140877 T;0 other;agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgact

22、tagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 240 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg

23、caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 480 gcgatgattg aaaaaaccat tagcggccag gatgctttac ccaatatcag cgatgccgaa 540 tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcg

24、aacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639140 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639200 acgccttagt aagtattttt c 4639221/GenBank和和EMBL数据库的主要内容和格式:数据库的主要内容和格式:序列名称、长度、日期;序列说明、编号、版本号;物种来源、学名、分类学位置

25、;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列(每行60个碱基)。GenBank和和EMBL数据库的格式比较数据库的格式比较EMBL标识字标识字GenBank标识字标识字含义含义IDLOCUS序列名称序列名称DEDEFINITION序列简单说明序列简单说明ACACCESSION唯一的序列编号唯一的序列编号SVVERSION序列版本号序列版本号KWKEYWORDS与序列相关的关键词与序列相关的关键词OSSOURCE序列来源的物种名序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置DT建立日期建立日期RNREFERENCE相关文献编号或提

26、交注册信息相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者相关文献作者或提交序列作者RTTITLE相关文献题目相关文献题目RLJOURNAL相关文献刊物名或作者单位相关文献刊物名或作者单位RXMEDLINE相关文献相关文献Medline引文代码引文代码RCREMARK相关文献注释相关文献注释RP相关文献其它注释相关文献其它注释CCCOMMENT关于序列的注释信息关于序列的注释信息DR相关数据库交叉引用号相关数据库交叉引用号FHFEATURES序列特征表起始序列特征表起始FT序列特征表子项序列特征表子项SQBASE CONTENT序列长度、碱基数目统计数序列长度、碱基数目统

27、计数空格空格ORIGIN序列序列/序列结束标志、空行序列结束标志、空行头部特性序列序列(二)蛋白质序列数据库 PIRUniProt 目前国际上比较权威的蛋白质序列数据库,2002年由TrEMBL(European Bioinformatics Institute,EBI)和Swiss-Prot(Swiss Institute of Bioinformatics,SIB)合并形成。数据来源于:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。UniProt PIR是是由由美美国国生生物物医医学学基基金金

28、会会NBRF(National Biomedical Research Foundation)于于1984年年建建立立的的。目的:目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过 99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。()PIR(Protein Information Resource)除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;关于原始数据的参考

29、文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表蛋白质功能和蛋白质的一般特征,包括基因表 达、达、翻译后处理、活化等;翻译后处理、活化等;(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。PIR提供三种类型的检索服务:一、基于文本的交互式查询,用户通过关键字进行数据查询。二、标准的序列相似性搜索,包括BLAST、Fasta等。三、结合序列相似性、注释信息和蛋白质家族信息的高级 搜索,包括按注释分类的相似性搜索、结构域搜索等。随着核酸测序技术的随着核酸测序技术的迅速发展,人类已经得迅速发展,人类已经得到一部分生物的全基因到一部分生物的全基因组数据,如人、小鼠、组数据,如人、小鼠、

30、大鼠等。这些数据对于大鼠等。这些数据对于我们认识基因组信息的我们认识基因组信息的奥秘、了解生物体的生奥秘、了解生物体的生长发育的规律是非常重长发育的规律是非常重要的。要的。GDB 人类基因组数据库人类基因组数据库 SGD 酵母基因组数据库酵母基因组数据库 MGD 鼠基因组数据库鼠基因组数据库 FlyBase 果蝇基因组数据库果蝇基因组数据库 WormBase 线虫基因组数据库线虫基因组数据库 。Ensembl 综合基因组数据库综合基因组数据库(三)基因组数据库GDB-人类基因组数据库人类基因组数据库The Genome Database 美国美国Johns Hopkins大学于大学于1990年

31、建立的,年建立的,现由加拿大儿童医院生物信息中心负责管理。现由加拿大儿童医院生物信息中心负责管理。目前目前GDB包含对下述三种对象的描述:包含对下述三种对象的描述:1.人类基因组区域 2.人类基因组图谱 3.人类基因组中的变化 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;包括基因突变和基因多态性,加上等位基因频率数据。Ensembl数据库数据库 Ensembl 是一个综合基因组数据库,它是由EBI和Sanger研究所共同开发的

32、一个系统。Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。Ensembl 数据库还提供疾病、细胞等方面的信息,并且提供数据搜索、数据下载、统计分析等服务。Ensembl 数据库结构图数据库结构图Ensembl提供多种查询方式:u 通过关键字关键字查询;u 用BLAST进行相似序列的搜索;u 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组。(四)蛋白质结构数据库PDB 目前,国际上著名的生物大分子结构数据库是美国布鲁克海文(Brookhaven)实验室的大分子结构数据库

33、PDB(Protein Data Bank)。pPDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖类、蛋白质与核酸复合物的三维结构。pPDB数据库已含有约81957个结构,其中90%是蛋白质的结构。对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。PDB中的每条记录有两种序列信息:p一种是显式序列信息(explicit sequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。p一种是隐式序列信息(implicit sequence)PD

34、B的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。其它的蛋白质结构数据库:蛋白质结构分类数据库SCOP;蛋白质二级结构数据库DSSP;三、生物数据库检索1、利用、利用SRS(序列检索系统)搜索数据库(序列检索系统)搜索数据库2、利用、利用Entrez(信息检索系统)搜索数据库(信息检索系统)搜索数据库(一)利用SRS搜索数据库SRS是Sequence Retrieval System的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。目前,SRS已经发展成商业软件,由英国剑桥的LION Bioscience公司继续

35、开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买使用权。Entrez 是由NCBI主持的一个数据库检索系统,它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。(二)利用Entrez搜索数据库Entrez系统的特点系统的特点.使用十分方便,它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一个数据库。2.把数据库和应用程序结合在一起。如通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。则可查看查询过程的记录,对每次查询结果进行分析,并作进一步处理。列出查询到的数据条目数。可进入限定查询范围页面,可以根据该数据库结构,将输入的关键词的查询范围限制在某个范围内,如编号、代码、提交日期等。操作剪贴板Guys,have a wonderful future.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!