生物信息学的应用

上传人:英*** 文档编号:91146464 上传时间:2022-05-16 格式:PPTX 页数:147 大小:7.74MB
收藏 版权申诉 举报 下载
生物信息学的应用_第1页
第1页 / 共147页
生物信息学的应用_第2页
第2页 / 共147页
生物信息学的应用_第3页
第3页 / 共147页
资源描述:

《生物信息学的应用》由会员分享,可在线阅读,更多相关《生物信息学的应用(147页珍藏版)》请在装配图网上搜索。

1、会计学1生物信息学的应用生物信息学的应用生物分子生物分子数数 据据 计算机计算机计计 算算 + 生物体系和过程中信息生物体系和过程中信息的存贮、传递和表达的存贮、传递和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理药理过程的中各种生物信息药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学 生物生物分子数据分子数据深层次深层次生物学知识生物学知识分子生物信息学分子生物信息学Molecular Bioinformatics挖掘挖掘获取获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用。基因组基因组数据库数据库 蛋白质蛋白质序列

2、序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR基因芯片基因芯片蛋白质折叠蛋白质折叠是否未知蛋白序列与已知功能的蛋白质相似是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体未知序列是否包含保守序列模体查对查对PROSITE数据库库数据库库查对查对BLOCKS和和PRINTS数据库数据库整理所有肯定的结果并核对一致性整理所有肯定的结果并核对一致性预测蛋白质功能预测蛋白质功能蛋白质功能预测流程图蛋白质功能预测流程图(引自引自HPDB蛋白质数据库(蛋白质

3、数据库(http:/ 生物信息学数据库相互关系生物信息学数据库相互关系 n 生物信息学数据库相互关系生物信息学数据库相互关系n常用数据库常用数据库类类 型型名名 称称网网 址址 核核酸酸序序 列列一次数据库一次数据库Genebankhttp:/www.ncbi.nlm.nih.gov/Genbank/EMBLhttp:/www.ebi.ac.uk/embl/DDBJhttp:/www.ddbj.nig.ac.jp/Welcome.html.ja/基因组基因组一次数据库一次数据库GDBhttp:/www.gdb.org/蛋蛋白白质质序序 列列一次数据库一次数据库SWISS-PROThttp:/w

4、ww.expasy.org/sprot/PIRhttp:/pir.georgetown.edu/TrEMBLhttp:/www.ebi.ac.uk/trembl/UniProthttp:/www.ebi.uniprot.org/index.shtml/MIPShttp:/mips.gsf.de/GenPeptftp:/ftp.ncifcrf.gov/pub/genpept/NRL-3Dhttp:/www.psc.edu/general/software/packages/nrl_3d/nrl_3d.html/复合数据库复合数据库NRDBhttp:/www.nrdb.co.uk/OWLhttp:

5、/www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROTTrEMBLhttp:/www.ebi.ac.uk/clustr/ 二次数据库二次数据库PROSITEhttp:/www.expasy.org/prosite/PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKShttp:/blocks.fhcrc.org/Pfamhttp:/pfam.sanger.ac.uk/IDENTIFYhttp:/dna.stanford.edu/identify/COGshttp:/www.ncbi.n

6、lm.nih.gov/COG/ProDomhttp:/www.toulouse.inra.fr/prodom.html/结结 构构一次数据库一次数据库PDBhttp:/www.rcsb.org/pdb/home/home.doMMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/ 二次数据库二次数据库DSSPhttp:/www.sander.embl-heidelberg.de/dssp/HSSPhttp:/www.sander.embl-heidelberg.de/hssp/FSSPhttp:/www.ebi.ac.uk/dali/

7、fssp/PSdbhttp:/www.psc.edu/geigel/PSdb/PSdb.html/ 结构分类结构分类SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/CATHhttp:/www.cathdb.info/latest/index.html/PDBsumhttp:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/ 分类分类二次数据库二次数据库ProtoMaphttp:/protomap.cornell.edu蛋白质组蛋白质组 蛋白质组蛋白质组 氨基酸索引氨基酸索引AAindexhttp:/www.genome.ad.

8、jp/dbget/蛋白质间功能关蛋白质间功能关系系Predictomehttp:/visant.bu.edu/蛋白质组分析蛋白质组分析Proteome Analysishttp:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳二维凝胶电泳GELBANKhttp:/gelbank.anl.gov/SWISS-2DPAGE http:/www.expasy.org/ch2d/酵母蛋白质定位酵母蛋白质定位YPL.dbhttp:/ypl.tugraz.at/模式生物蛋白质模式生物蛋白质组组Bioknowledge Librnaryhttp:/w

9、ww.biobase- 测序工作者提交的序列、测序中心提交的测序工作者提交的序列、测序中心提交的大量大量EST序列、其它测序数据以及与其它数据机序列、其它测序数据以及与其它数据机构协作交换的数据。构协作交换的数据。uGenbank内容内容 所有已知的核酸序列和蛋白质序列,还包所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。、参考文献、序列特征表等辅助信息。uGenbank对数据记录的处理对数据记录的处理 划分为划分为 细菌类、病毒类、灵长类、啮齿类细菌类、病毒类、灵长类、啮齿类, EST数

10、据、基因组测序数据、大规模基因组序数据、基因组测序数据、大规模基因组序列数据等列数据等16类。类。图图6-4 NCBI-Entrz gene检索界面检索界面图图6-5 NCBI-Entrez cross-database检索界面检索界面Entrez Entrez ,The Life Sciences Search Engine BLAST ( Basic Local Alignment search Tool) 是是 DNA DNA 或氨基酸序列比对分析的重要软件或氨基酸序列比对分析的重要软件 TaxBrowser:Taxonomy browser 分类浏览器Structure:该目录下最重要

11、的资源是分子模型数据库 MMDB 及 Cn3D 生物大分子三维模型查看软件 uEMBL和和GenBank数据库识别标志数据库识别标志EMBL识别标志识别标志GenBank识别标志识别标志含义含义IDLOCUS标识字符串及短描述字标识字符串及短描述字XX为阅读清晰而加的空行为阅读清晰而加的空行ACACCESSION唯一的提取号唯一的提取号SVVERSION序列版本号序列版本号DTDATE建立日期建立日期DEDEFINITION简单的描述简单的描述KWKEYWORDS关键字关键字OSSOURCE来源生物体来源生物体OCORGANISM生物体分类谱系生物体分类谱系RNREFERENCE引文编号引文编

12、号RCREMARK引文注释引文注释RP其他注释其他注释RX MEDLINEMEDLINE引文代码引文代码RAAUTHORS引文作者引文作者RTTITLE引文题目引文题目RLJOURNAL引文出处引文出处CCCOMMENT评注评注DR相关数据库交叉引用相关数据库交叉引用号号FHFEATURES特性表头特性表头FT特征表特征表SQEMBL序列开始,后序列开始,后跟长度、字母数跟长度、字母数BASE COUNTGeneBank碱基数碱基数ORIGINGeneBank序列开始序列开始标志,为空行标志,为空行/序列结束标志序列结束标志uGenBank核酸数据库实例核酸数据库实例 以人畜共患的病源菌鼠伤寒

13、沙门氏菌(以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonella typhimurium )H1相抗原基因相抗原基因H-1-i为例,简要说明为例,简要说明GenBank核酸数据库的数据格式。核酸数据库的数据格式。LOCUS STYFLGH1I 1485 bp DNA linear BCT 26-APR-1993DEFINITION Salmonella typhimurium H-1-i gene encoding phase 1 flagellar filament protein (flagellin), complete cds. ACCESSION M11332VERSION M113

14、32.1 GI:153978KEYWORDS flagellin.SOURCE Salmonella typhimurium ORGANISM Salmonella typhimurium Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.REFERENCE 1 (bases 1 to 1485) AUTHORS Joys,T.M. TITLE The covalent structure of the phase-1 flagellar filame

15、nt protein of Salmonella typhimurium and its comparison with other flagellins JOURNAL J. Biol. Chem. 260 (29), 15758-15761 (1985) PUBMED 2999134序列标识序列标识简单描述简单描述序列编号序列编号版本号版本号关键词关键词物种来源物种来源物种分类物种分类引文编号引文编号引文作者引文作者引文标题引文标题引文出处引文出处COMMENT Original source text: S.typhimurium SL877 DNA. Draft entry and c

16、lean copy sequence for 1 kindly provided by T.M.Joyce, 18-FEB-1986. Individual Salmonella serotypes usually alternate between the production of two antigenic forms of flagella, termed phase-1 and phase-2, each specified by separate structural genes. Both ends of the flagellin gene act in the regulat

17、ion of flagellin synthesis.FEATURES Location/Qualifiers source 1.1485 /organism=Salmonella typhimurium /mol_type=genomic DNA /db_xref=taxon:602 CDS 13.1485 /note=phase-1 flagellar filament protein /codon_start=1 /transl_table=11 /protein_id=AAA27072.1 /db_xref=GI:153979评注评注特征表特征表编码区编码区 /translation=

18、MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTA

19、SVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLRORIGIN 98 bp upstream of TaqI site. 1 aaggaaaaga tcatggcaca agtcattaat acaaacagcc tgtcgctgtt gacccagaat 61 aac

20、ctgaaca aatcccagtc cgctctgggc accgctatcg agcgtctgtc ttccggtctg 121 cgtatcaaca gcgcgaaaga cgatgcggca ggtcaggcga ttgctaaccg ttttaccgcg 181 aacatcaaag gtctgactca ggcttcccgt aacgctaacg acggtatctc cattgcgcag 241 accactgaag gcgcgctgaa cgaaatcaac aacaacctgc agcgtgtgcg tgaactggcg 301 gttcagtctg ctaacagcac c

21、aactcccag tctgacctcg actccatcca ggctgaaatc蛋白序列蛋白序列基因序列基因序列361 acccagcgtc tgaacgaaat cgaccgtgta aatggccaga ctcagttcag cggcgtgaaa421 gtcctggcgc aggacaacac cctgaccatc caggttggtg ccaacgacgg tgaaactatc481 gatatcgatc tgaagcagat caactctcag accctgggtc tggatacgct gaatgtgcaa541 caaaaatata aggtcagcga tacggctgc

22、a actgttacag gatatgccga tactacgatt601 gctttagaca atagtacttt taaagcctcg gctactggtc ttggtggtac tgacgagaaa661 attgatggcg atttaaaatt tgatgatacg actggaaaat attacgccaa agttaccgtt721 acggggggaa ctggtaaaga tggctattat gaagtttccg ttgataagac gaacggtgag781 gtgactcttg ctgcggtcac tcccgctaca gtgactactg cgacagcact

23、gagtggaaaa841 atgtacagtg caaatcctga ttctgacata gctaaagccg cattgacagc agcaggtgtt901 accggcacag catctgttgt taagatgtct tatactgata ataacggtaa aactattgat961 ggtggtttag cagttaaggt aggcgatgat tactattctg caactcaaga taaagatggt1021 tccataagta ttgatactac gaaatacact gcagataacg gtacatccaa aactgcacta1081 aacaaact

24、gg gtggcgcaga cggcaaaacc gaagtcgtta ctatcgacgg taaaacctac1141 aatgccagca aagccgctgg tcatgatttc aaagcagaac cagagctggc ggaacaagcc1201 gctaaaacca ccgaaaaccc gctgcagaaa attgatgctg ctttggcaca ggttgacacg1261 ttacgttctg acctgggtgc ggtacagaac cgtttcaact ccgctattac caacctgggc1321 aacaccgtaa acaacctgtc ttctgc

25、ccgt agccgtatcg aagattccga ctacgcgacc1381 gaagtctcca acatgtctcg cgcgcagatt ctgcagcagg ccggtacctc cgttctggcg1441 caggcgaacc aggttccgca aaacgtcctc tctttactgc gttaa/ 记录结束记录结束图图6-6 Swiss-Prot数据库网站主页数据库网站主页表表6-3 SWISS-PORT 数据库的行识别标志及含义数据库的行识别标志及含义中止符号中止符号Termination line/序列标头序列标头Sequence headerSQ特征表特征表Fe

26、ature table dataFT关键词关键词KeywordsKW交叉引用数据库交叉引用数据库Database cross-referenceDR评注或注释评注或注释Comments or notesCC引文出处引文出处Reference locationRL引文标题引文标题Reference tileRT引文作者引文作者Reference authorsRA交叉引用交叉引用Cross-referenceRX相关内容相关内容Reference commentsRC引文位置引文位置Reference positionRP引文序号引文序号Reference numberRN物种分类物种分类Org

27、anism classificationOC来源细胞器来源细胞器OrganelleOG来源物种来源物种Organism speciesOS基因名称基因名称Gene name(s)GN描述描述DescriptionDE登录日期或最后更新日期登录日期或最后更新日期DateDT序列编号序列编号Accession NumberAC标识号标识号IdentificationID含含 义义全全 称称缩写缩写 以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌Salmonella typhimurium H1-i基因编码的鞭毛蛋白基因编码的鞭毛蛋白FLIC_SALTY为例介绍为例介绍SWISS-PORT数数据库的数据格式。据库

28、的数据格式。ID FLIC_SALTY Reviewed; 495 AA.AC P06179; P97160; Q02871; Q56088; DT 01-JAN-1988, integrated into UniProtKB/Swiss-Prot.DT 23-JAN-2007, sequence version 4.DT 24-JUL-2007, entry version 69.DE Flagellin (Phase 1-I flagellin).GN Name=fliC; Synonyms=flaF, hag; OrderedLocusNames=STM1959;OS Salmonell

29、a typhimurium.OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.OX NCBI_TaxID=602;RN 1RP NUCLEOTIDE SEQUENCE GENOMIC DNA.RX MEDLINE=86059460; PubMed=2999134;RA Joys T.M.;RT The covalent structure of the phase-1 flagellar filament protein of Salmonell

30、a typhimurium and its comparison with other flagellins.;RL J. Biol. Chem. 260:15758-15761(1985). 序列标识序列标识 序列序列编号编号登录日期登录日期描述描述基因名称基因名称来源物种来源物种物种分类物种分类物种分类号物种分类号引文序号引文序号引文位置引文位置交叉引用交叉引用引文作者引文作者引文标题引文标题引文出处引文出处 SWISS-PROT 数据库条目实例数据库条目实例RN 9RP NUCLEOTIDE SEQUENCE GENOMIC DNA OF 476-495.RC STRAIN=LT2 /

31、ATCC 23564;CC -!- FUNCTION: Flagellin is the subunit protein which polymerizes to form the filaments of bacterial flagella.CC -!- MISCELLANEOUS: Individual Salmonella serotypes usually alternate between the production of 2 antigenic forms of flagella, termed phase 1 and phase 2, each specified by se

32、parate structural genes, fliC and fljB.CC -!- SIMILARITY: Belongs to the bacterial flagellin family.CC -DR EMBL; M11332; AAA27072.1; -; Genomic_DNA.DR EMBL; D13689; BAA02846.1; -; Genomic_DNA.DR EMBL; AE008787; AAL20871.1; -; Genomic_DNA.DR EMBL; X51740; CAA36029.1; -; Genomic_DNA.DR EMBL; J01801; A

33、AA27074.1; -; Genomic_DNA.DR PIR; A24262; A24262.DR PIR; S16121; S16121.DR PDB; 1IO1; X-ray; A=54-451.DR PDB; 1P95; Model; A=57-451.DR PDB; 1UCU; EM; A=1-495.相关内容相关内容评注功能评注功能 其他特性其他特性 相似性相似性交叉引用数据库交叉引用数据库 EMBL核酸序列核酸序列数据库数据库 PIR蛋白序列蛋白序列数据库数据库 PDB蛋白结构蛋白结构数据库数据库PE 1: Evidence at protein level;KW 3D-str

34、ucture; Complete proteome; Flagellum.FT INIT_MET 1 1 Removed (By similarity).FT CHAIN 2 495 Flagellin.FT /FTId=PRO_0000182578.FT CONFLICT 127 127 S - N (in Ref. 1).FT CONFLICT 133 133 N - S (in Ref. 1).FT HELIX 3 32FT TURN 37 39FT HELIX 44 98关键词关键词特征表特征表不同来源不同来源数据库的数据库的冲突位点冲突位点二级结构二级结构信息信息SQ SEQUENC

35、E 495 AA; 51612 MW; 4BD7849FA3B936BA CRC64; MAQVINTNSL SLLTQNNLNK SQSALGTAIE RLSSGLRINS AKDDAAGQAIANRFTANIKG LTQASRNAND GISIAQTTEG ALNEINNNLQ RVRELAVQSA NSTNSQSDLD SIQAEITQRL NEIDRVSGQT QFNGVKVLAQ DNTLTIQVGA NDGETIDIDL KQINSQTLGLDTLNVQQKYK VSDTAATVTG YADTTIALDN STFKASATGL GGTDQKIDGDLKFDDTTGKYYAKVTVT

36、GGT GKDGYYEVSV DKTNGEVTLA GGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAG VTGTASVVKM SYTDNNGKTI DGGLAVKVGD DYYSATQNKD GSISINTTKYTADDGTSKTA LNKLGGADGK TEVVSIGGKT YAASKAEGHN FKAQPDLAEA AATTTENPLQKIDAALAQVD TLRSDLGAVQ NRFNSAITNL GNTVNNLTSA RSRIEDSDYA TEVSNMSRAQ ILQQAGTSVL AQANQVPQNV LSLLR/ 序列标头序列标头蛋白质序列蛋白质序列记

37、录结束记录结束 2. PIR PIR的子数据库:的子数据库: 蛋白质序列数据库(蛋白质序列数据库(PIR-PSD) 蛋白质分类数据库(蛋白质分类数据库(iProClass) 非冗余的蛋白质参考资料数据库(非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:数据库按照数据性质和注释层次分四个部分: PIR1序列已经验证,注释最为详尽序列已经验证,注释最为详尽; PIR2为尚未确定的冗余序列;为尚未确定的冗余序列; PIR3序列既未检验,也未注释;序列既未检验,也未注释; PIR4序列来自其它渠道,既未验证,也无注释。序列来自其它渠道,既未验证,也无注释。

38、美国国家生物医学研究基金会与国际蛋白质信息中心(美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-InternationalPIR-International)共同维护。)共同维护。PIRPIR是第一个蛋白质分类和功能注释数据库是第一个蛋白质分类和功能注释数据库 PIR作用:作用:n 提供基于文本的交互式检索、序列相提供基于文本的交互式检索、序列相似性似性 搜索以及结合序列相似性、注释信息搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。和蛋白质家族信息的高级检索。nPIR网址:网址:http:/pir.georgetown.edu/ 3.TrEMBL是一个经计算机注释的蛋白质

39、数据库,采用是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。数据库格式。主要包含从主要包含从EMBL/ Genbank/DDBJ三大核三大核酸数据库中根据编码序列翻译的、尚未集成酸数据库中根据编码序列翻译的、尚未集成到到SWISS-PROT数据库中的蛋白质序列。数据库中的蛋白质序列。TrEMBL为为SWISS-PROT数据库及时提供补数据库及时提供补充。充。 TrEMBL网址:网址:http:/www.ebi.ac.uk/trembl/4. UniProt UniProt将将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本三个数据库合并。通过文本检索、序

40、列相似检索以及检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。网站可获得蛋白质序列。如图如图6-7所示所示 图图6-7 UniProt网站主页网站主页UniProt包含包含UniProtKB、UniRef 和和UniParc 3个部个部分:分:(1)UniProtKB数据库数据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉):蛋白质序列、功能、分类、交叉引用等信息存取中心;引用等信息存取中心;(2)UniRef数据库数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白质序列合):为提高检索的速度,将

41、紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将并到同一条记录中。目前,根据序列相似程度可将UniRef数据库分为数据库分为UniRef100、UniRef90和和UniRef50 3个子库个子库(3)UniParc(UniProt Archive):储存大量蛋白):储存大量蛋白质研究的历史信息。质研究的历史信息。 利用利用UniProt 可方便的进行蛋白质序列可方便的进行蛋白质序列的交互检索,的交互检索,Salmonella typhimurium H-1项鞭毛蛋白项鞭毛蛋白P06176的的UniProt检索截图检索截图如下。如下。 UniProt网址:网址:http:/w

42、ww.ebi.uniprot.org/index.shtml图图 6-8 核心数据核心数据图图 6-9 核心数据(续)、引用文献与评注核心数据(续)、引用文献与评注图图 6-10 交互检索与关键词交互检索与关键词图图 6-11 特征表与序列信息特征表与序列信息5. GenPept数据库数据库GenPept数据库特点数据库特点 由由Genebank数据库的核酸序列经翻译后产生数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。,但未经实验证实,也未有详细注释。 GenPept蛋白质数据库实例蛋白质数据库

43、实例 以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌S. typhimurium H-1-i基因基因编码的鞭毛蛋白为例进行编码的鞭毛蛋白为例进行GenPept数据库检索数据库检索 。GenPept蛋白质数据库实例蛋白质数据库实例LOCUS AAA27072 490 aa linear BCT 26-APR-1993DEFINITION phase-1 flagellar filament protein.ACCESSION AAA27072VERSION AAA27072.1 GI:153979DBSOURCE locus STYFLGH1I accession M11332.1KEYWORDS .SOUR

44、CE Salmonella typhimurium ORGANISM Salmonella typhimurium Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.REFERENCE 1 (residues 1 to 490) AUTHORS Joys,T.M. TITLE The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimuriu

45、m and its comparison with other flagellins JOURNAL J. Biol. Chem. 260 (29), 15758-15761 (1985) PUBMED 2999134COMMENT Draft entry and clean copy sequence for 1 kindly provided by T.M.Joyce, 18-FEB-1986. Individual Salmonella serotypes usually alternate between the production of two antigenic forms of

46、 flagella, termed phase-1 and phase-2, each specified by separate structural genes. 序列标识序列标识简单描述简单描述序列编号序列编号版本号版本号关键词关键词物种来源物种来源物种分类物种分类引文编号引文编号引文作者引文作者引文标题引文标题引文出处引文出处评注评注FEATURES Location/Qualifiers source 1.490 /organism=Salmonella typhimurium /db_xref=taxon:602 Protein 1.490 /name=phase-1 flagel

47、lar filament protein Region 1.490 /region_name=PRK08026 /note=flagellin; PRK08026 /db_xref=CDD:76379 Region 29.163 /region_name=Flagellin_N /note=Bacterial flagellin N-terminus. Flagellins polymerise to form bacterial flagella. This family includes flagellins and hook associated protein 3; pfam00669

48、 /db_xref=CDD:64529 Region 191.256 /region_name=Flagellin_D3 /note=Flagellin D3 domain. This domain is found in the central portion bacterial flagellin FliC. The domain contains a structural motif called a beta-folium fold; pfam08884 /db_xref=CDD:72304特征表特征表 Region 397.468 /region_name=Flagellin_C /

49、db_xref=CDD:64558 CDS 1.490 /coded_by=M11332.1:13.1485 /transl_table=11ORIGIN 1 maqvintnsl slltqnnlnk sqsalgtaie rlssglrins akddaagqai anrftanikg 61 ltqasrnand gisiaqtteg alneinnnlq rvrelavqsa nstnsqsdld siqaeitqrl 121 neidrvngqt qfsgvkvlaq dntltiqvga ndgetididl kqinsqtlgl dtlnvqqkyk 181 vsdtaatvtg

50、yadttialdn stfkasatgl ggtdekidgd lkfddttgky yakvtvtggt 241 gkdgyyevsv dktngevtla avtpatvtta talsgkmysa npdsdiakaa ltaagvtgta 301svvkmsytdn ngktidggla vkvgddyysa tqdkdgsisi dttkytadng tsktalnklg 361 gadgktevvt idgktynask aaghdfkaep elaeqaaktt enplqkidaa laqvdtlrsd 421 lgavqnrfns aitnlgntvn nlssarsrie

51、 dsdyatevsn msraqilqqa gtsvlaqanq 481 vpqnvlsllr/ 蛋白质序列蛋白质序列记录结束记录结束 GenPept的网址是:的网址是:ftp:/ftp.ncifcrf.gov/pub/genpept/国际上主要的蛋白质序列数据库的种类和特点国际上主要的蛋白质序列数据库的种类和特点 名称名称维护单位维护单位注释注释冗余度冗余度数据量数据量更新更新PIRNCBI、JIPID、MIPS部分完善部分完善较大较大较大较大较慢较慢SWISSPROTEBI、SIB完善完善小小不大不大较慢较慢NRL-3DNCBI完善完善小小小小较慢较慢TrEMBLEBI、SIB不完善不完

52、善大大大大快快GenPeptNCBI不完善不完善大大大大快快NRDBEBI一般一般小小大大较快较快OWLHGMP一般一般小小大大较慢较慢(引自引自生物信息学生物信息学,赵国屏等,赵国屏等 编著,科学出版社,编著,科学出版社,2002)(二)蛋白质序列二次数据库(二)蛋白质序列二次数据库 1.PROSITEn PROSITE是蛋白质家族保守区域和功能位点数是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,据库,也是第一个蛋白质序列二次数据库,收录蛋白收录蛋白质家族中同源序列多重比对所确定的保守性区域质家族中同源序列多重比对所确定的保守性区域:如:如酶活性位点、配体结合位点、金

53、属离子结合位点、其酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。位点和序列模式。n PROSITE数据库组成数据库组成 包含包含Prosite(数据文件)和(数据文件)和PrositeDoc(说明(说明文件)两个文件数据库。文件)两个文件数据库。PROSITE数据库主页如图数据库主页如图6-12所示。所示。图图6-12 PROSITE数据库主页数据库主页nPROSITE数据库作用数据库作用:可确定一段新蛋白质序列中:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。包含的功能

54、位点以及其归属的蛋白质家族。nPROSITE的网址:的网址:http:/www.expasy.ch/prosite/ 或或 http:/www.expasy.org/prosite/nPROSITE的中国镜像网址是:的中国镜像网址是:http:/cn.expasy.org/prosite/2.PRINTS PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库将多个保守的将多个保守的序列模式作为识别蛋白质家族的特征序列模式作为识别蛋白质家族的特征,与,与PROSITE数据库的单个序列模式相比,数据库的单个序列模式相比,PRINTS具有更好的识具有更好的识别率。别率。PRINTS 网址:网址:ht

55、tp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/3.BLOCKSu 序列模块(序列模块(block):):是通过序列比对得到是通过序列比对得到的若干蛋白质序列中的若干蛋白质序列中具有较高相似性的序列片段具有较高相似性的序列片段。u BLOCKS由通过自动检测由通过自动检测PROSITE数据库数据库和和PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库中蛋白质家族高中蛋白质家族高度保守区域产生的序列模块组成。度保守区域产生的序列模块组成。 u BLOCKS的网址:的网址:http:/blocks.fhcrc.org/图图6-13 PDB数据库主页数据库主页图

56、图6-14 结构数据库增长曲线截图结构数据库增长曲线截图红色图:总结构数红色图:总结构数 蓝色图:新增结构数蓝色图:新增结构数(引自引自http:/www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=molType-protein&seqid=100)n PDB数据库作用数据库作用 提供序列详细信息、原子坐标、三维结构、提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。交叉检索等与结构相关的信息。n PDB数据库实例数据库实例 以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌Salmonella typhimurium H1-i鞭

57、毛蛋白(鞭毛蛋白(P06176)F41片段晶体结构为例,片段晶体结构为例,图示图示PDB数据库格式数据库格式(框(框6-4)和网页格式和网页格式(图(图6-15)。)。n 三维结构的动态展示三维结构的动态展示(如图(如图6-16 所示)。所示)。n PDB 的地址:的地址: http:/www.rcsb.org/pdb/home/home.do框6-4 PDB格式实例HEADER STRUCTURAL PROTEIN 28-DEC-00 1IO1 TITLE CRYSTAL STRUCTURE OF F41 FRAGMENT OF FLAGELLIN COMPND MOL_ID: 1; COM

58、PND 2 MOLECULE: PHASE 1 FLAGELLIN; SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: SALMONELLA TYPHIMURIUM; KEYWDS BETA-FOLIUM, FLAGELLIN EXPDTA X-RAY DIFFRACTION AUTHOR F.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA, AUTHOR 2 M.YAMAMOTO,K.NAMBA REVDAT 2 15-APR-03 1IO1 1 SOURCE DBREF SEQADV

59、REVDAT 1 04-APR-01 1IO1 0 JRNL AUTH F.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ, JRNL AUTH 2 T.KUMASAKA,M.YAMAMOTO,K.NAMBA REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 2.00 ANGSTROMS. 标头标头题目题目化合物名称化合物名称来源来源关键词关键词作者作者发布日期发布日期相关文献相关文献注释注释SEQADV 1IO1 ALA A 426 UNP P06179 GLY 426 CONFLICT SEQRES 1 A 398 PHE

60、THR ALA ASN ILE LYS GLY LEU THR GLN ALA SER ARG SEQRES 2 A 398 ASN ALA ASN ASP GLY ILE SER ILE ALA GLN THR THR GLU FORMUL 2 HOH *354(H2 O) HELIX 1 1 ILE A 57 ALA A 99 1 43 HELIX 2 2 SER A 104 THR A 129 1 26 SHEET 1 A 2 ASN A 141 GLN A 146 0 SHEET 2 A 2 THR A 154 LEU A 159 -1 O ILE A 155 N ILE A 145

61、CRYST1 51.750 36.440 118.350 90.00 91.15 90.00 P 1 21 1 2 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 0.019324 0.000000 0.000388 0.00000 SCALE2 0.000000 0.027442 0.000000 0.00000 SCALE3 0.000000 0.000000 0.00845

62、1 0.00000 ATOM 1 N ASN A 56 -49.795 -3.667 -4.351 1.00 30.60 N ATOM 2 CA ASN A 56 -48.833 -2.701 -3.726 1.00 29.93 C TER 2881 ARG A 450 HETATM 2882 O HOH 501 29.624 -1.335 16.688 1.00 11.99 O HETATM 2883 O HOH 502 -35.019 -3.209 -7.005 1.00 10.33 O END 氨基酸序列氨基酸序列分子式分子式-螺旋螺旋-折叠折叠原子坐标原子坐标配体原子坐标配体原子坐标记

63、录结束记录结束 图6-15 PDB数据库网页格式实例a.主链结构主链结构 b.棒状结构棒状结构 c.光滑带结构光滑带结构 d.空间填充结构空间填充结构图图6-16 Salmonella typhimurium H1-i鞭毛蛋白(鞭毛蛋白(P06176)F41片段片段PDB三维结构图三维结构图(SWISS-PDB Viewer)2. MMDB(Molecular Modeling Database)n 是是Entrez的组成部分。的组成部分。n 只收录通过只收录通过X射线晶体衍射和核磁共振实验测定射线晶体衍射和核磁共振实验测定的生物大分子结构数据。的生物大分子结构数据。n 增加了附加信息如增加了

64、附加信息如:大分子的生物学功能及产生大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系等。机制、分子进化历史、生物大分子之间关系等。n 具有生物大分子三维结构模型展示、结构分析具有生物大分子三维结构模型展示、结构分析和结构比较等功能。和结构比较等功能。n 实例如图实例如图6-17所示。所示。图图6-17 Salmonella typhimurium H1-i鞭毛蛋白(鞭毛蛋白(P06176)F41片段片段MMDB三维结构图(三维结构图(Cn3D 4.1)。)。MMDB 的地址为:的地址为:http:/www.ncbi.nlm.nih.gov/Structure/(四)蛋白质结构二次

65、数据库(四)蛋白质结构二次数据库1.DSSP (Database of Secondary Structure of Protein)n是一个二级结构推导数据库,用于研究蛋白质序列与是一个二级结构推导数据库,用于研究蛋白质序列与蛋白质结构的关系。蛋白质结构的关系。n将蛋白质二级结构分为将蛋白质二级结构分为7种类型,种类型,如表如表6-5所示。针对所示。针对PDB数据库中蛋白质的原子坐标,计算其各个氨基数据库中蛋白质的原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类型等二级结构构酸残基中氢键、二面角、二级结构类型等二级结构构象参数,从而根据三维结构推导出其对应的二级结构。象参数,从而根据

66、三维结构推导出其对应的二级结构。 表6-5 DSSP的7种二级结构类型类型类型HEGIBTS含义含义螺旋螺旋折叠折叠3(10)螺螺旋旋-螺旋螺旋孤立孤立桥桥氢键转氢键转折折弯曲弯曲DSSP 的网址:的网址:http:/www.sander.embl-heidelberg.de/dssp2.HSSP (Homology-Derived Secondary Structure of Protein) n是一个蛋白质同源序列比对数据库,将相似序列是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结构的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。和空间结构信息。nHSSP用于分析蛋白质保守区域、确定序列模式用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。及蛋白的折叠、进化关系、分子设计等研究。nHSSP的网址是:的网址是:http:/www.sander.embl-heidelberg.de/hssp/(五)蛋白质结构分类数据库(五)蛋白质结构分类数据库1.SCOP (Structural Classification

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!