第四章 核苷酸和蛋白质序列为基础的数据库检索

上传人:Tomo****.明天 文档编号:240735168 上传时间:2024-05-03 格式:PPT 页数:54 大小:2.89MB
收藏 版权申诉 举报 下载
第四章 核苷酸和蛋白质序列为基础的数据库检索_第1页
第1页 / 共54页
第四章 核苷酸和蛋白质序列为基础的数据库检索_第2页
第2页 / 共54页
第四章 核苷酸和蛋白质序列为基础的数据库检索_第3页
第3页 / 共54页
资源描述:

《第四章 核苷酸和蛋白质序列为基础的数据库检索》由会员分享,可在线阅读,更多相关《第四章 核苷酸和蛋白质序列为基础的数据库检索(54页珍藏版)》请在装配图网上搜索。

1、第四章第四章核苷酸和蛋白质序列为核苷酸和蛋白质序列为基础的数据库检索基础的数据库检索(I)生物信息学检索数据库的方法检索数据库的方法u用关键词或词组进行数据库检索用关键词或词组进行数据库检索(Text-baseddatabasesearching)u用核苷酸或蛋白质序列进行数据库检索用核苷酸或蛋白质序列进行数据库检索(Sequence-baseddatabasesearching)Gene nameAuthorAccession numberDatabase核苷酸和蛋白质序列为基础的数据库检索核苷酸和蛋白质序列为基础的数据库检索u序列对位排列(序列对位排列(sequencealignment)

2、u将两条或多条序列对位将两条或多条序列对位排列排列,突出相似的结构,突出相似的结构区域区域序列序列1序列序列2FunctionStructureSequence表示序列的字符表示序列的字符两条两条DNA序列对位排列分析序列对位排列分析两条蛋白质序列对位排列分析两条蛋白质序列对位排列分析v基因预测基因预测v分析分析基因基因或蛋白质的或蛋白质的功能功能v分析物种分析物种进化进化v检测突变、插入或缺失检测突变、插入或缺失v序列延长序列延长v序列定位序列定位v基因表达谱分析基因表达谱分析序列比对的用途序列比对的用途序列对位排列分析序列对位排列分析的的种类种类v序列对库对位排列分析序列对库对位排列分析v

3、多序列对位多序列对位排列排列分析分析从数据库中寻找同源序列从数据库中寻找同源序列主要涉及核苷酸数据库和蛋白质数据库主要涉及核苷酸数据库和蛋白质数据库v两序列对位排列分析两序列对位排列分析(一)序列对位(一)序列对位排列排列分析的基本原理分析的基本原理1、记分矩阵(、记分矩阵(scoringmatrix)u记分矩阵中含有两条序列对位排列时具体使用记分矩阵中含有两条序列对位排列时具体使用的分值的分值u长度一定时,分数越高,两条序列匹配越好长度一定时,分数越高,两条序列匹配越好DNA序列对位记分序列对位记分序列序列1A C G T T A 序列序列2A C T T T G记分记分2 2-3 2 2

4、-3 =2u蛋白质序列对位排列分析记分复杂蛋白质序列对位排列分析记分复杂u一致氨基酸的记分不同一致氨基酸的记分不同v稀有氨基酸(稀有氨基酸(C),分值高),分值高v普通氨基酸(普通氨基酸(S),分值低),分值低u相似氨基酸也记分,如相似氨基酸也记分,如R-K蛋白质序列对位记分蛋白质序列对位记分序列序列1V D S C Y序列序列2V N W C Y记分记分4 1-3 9 7 =181、记分矩阵(、记分矩阵(scoringmatrix)u序列的排列方式影响总分值序列的排列方式影响总分值u蛋白质有蛋白质有多种记分矩阵多种记分矩阵vPAM矩阵(如矩阵(如PAM30、PAM70,http:/www.b

5、ioinformatics.nl/tools/pam.html)vBLOSUM矩阵(如矩阵(如BLOSUM62、BLOSUM80)BLOSUM62aminoacidscoringmatrixBLAST默认scoringmatrix1、记分矩阵(、记分矩阵(scoringmatrix)大致关系:BLOSUM80 PAM1BLOSUM62 PAM120BLOSUM45 PAM250u基因进化过程中产生突变基因进化过程中产生突变u序列对位序列对位排列排列分析时允许插入空位分析时允许插入空位u空位罚分涉及两个参数空位罚分涉及两个参数v插入插入v缺失缺失v空位开放(空位开放(gapopening)v空位

6、延伸(空位延伸(gapextension)序列序列1A T G C T G A序列序列2A T G -G A 2 2 2-5-2 2 2=3Indel序列序列1 A T G C T G A序列序列2A T G G A原始序列原始序列 A T G T G A2、空位(间隔)罚分(、空位(间隔)罚分(gappenalty)此例子中:此例子中:gapopening:-3gapextension:-23、对位排列的方法、对位排列的方法u词或词或K串方法(串方法(BLAST,FASTA)u点阵分析(点阵分析(Dot-matrix)u动态规划(动态规划(Dynamicprogramming)BLAST a

7、lgorithm(a)(b)(c)u词或词或K串方法(串方法(BLAST,FASTA)第四章第四章核苷酸和蛋白质序列为核苷酸和蛋白质序列为基础的数据库检索基础的数据库检索(II)生物信息学(二)序列对库对位(二)序列对库对位排列排列分析分析vBLASTvFASTAvOthermethodsu主要检索体系主要检索体系u用待分析序列对数据库进行相似性分析用待分析序列对数据库进行相似性分析u重复许多次重复许多次的两两序列对位排列分析的两两序列对位排列分析u从数据库中找出所有同源序列从数据库中找出所有同源序列1、基本概念、基本概念(1)Sequenceidentity和和sequencesimilar

8、ityIdentity:两条序列在同一位点上的核苷酸或两条序列在同一位点上的核苷酸或氨基酸残基完全相同氨基酸残基完全相同Theextenttowhichnucleotideorproteinsequencesarerelated.Theextentofsimilaritybetweentwosequencescanbebasedonpercentsequenceidentityand/orconservation.InBLASTsimilarityreferstoapositivematrixscoreTheextenttowhichtwo(nucleotideoraminoacid)sequ

9、encesareinvariant.Similarity(positive):两条序列在同一位点上的两条序列在同一位点上的氨基酸残基的化学性质相似氨基酸残基的化学性质相似Homology同源同源Identity相同相同Similarity相似相似Ais80%identicaltoBAis80%similartoBHomologyAis80%homologoustoBIf your sequences are more than 100 amino acids long(or 100 nucleotides long),you can label proteins as“homologous”i

10、f 25 percent of the amino acids are identical,for DNA you will require at least 70 percent identity(2)Globalalignment和和localalignmentQuerySubjectQuerySubjectGlobalalignment:两条完整的序列相比较两条完整的序列相比较QuerySubjectLocalalignment:两条序列中相似程度最高的两条序列中相似程度最高的部分部分相比较相比较(3)Gappedalignment和和ungappedalignmentQuerySubj

11、ectQuerySubjectQuerySubjectGappedalignment:为达到最佳为达到最佳alignment,序列中加入空位序列中加入空位QuerySubjectUngappedalignment:相比较序列的核苷酸或氨基酸序列连续相比较序列的核苷酸或氨基酸序列连续(4)Alignmentscore和和E(expect)value衡量两条相比较序列相似程度的标准衡量两条相比较序列相似程度的标准(bits)Score:分值越大,两个比较序列相似程度越分值越大,两个比较序列相似程度越高高Evalue:期望得到的、完全由机会造成的、相当于或大于目期望得到的、完全由机会造成的、相当于或

12、大于目前分值的前分值的alignment次数次数vE值值取决取决于于alignment分值、相比较序列的长短分值、相比较序列的长短和数据库中数据的数量和数据库中数据的数量vBlast中中E的阈值为的阈值为10。1e-66=1 10-66E值越小越好值越小越好Evalue类似于类似于Pvalue,如:试验组存活率比对,如:试验组存活率比对照组高照组高20%(p100kb的片段)的片段)v结果页面结果页面注意:不熟悉各种参数时,使用默认的参数注意:不熟悉各种参数时,使用默认的参数BLAST结果解读结果解读SequenceBLAST结果解读结果解读HitlistScore(Bit score)Hig

13、h bit score=good matchE-Value Low E-value=good matchRed:very goodGreen:acceptableBlack:badE-values higher than 1e-4 require extra evidence to support homologyE-values lower than 1e-4 indicate possible homology1e-03=borderline E-value1e-04=good E-value1e-10=very good E-value实际应用中主要看实际应用中主要看E-value,同时

14、要求,同时要求Score大于一定值(比如大于一定值(比如100)(2)BLASTPu基本操作同基本操作同blastn(3)PSI-BLAST(PositionSpecificIteratedBLAST)v氨基酸序列检索氨基酸序列检索v重复检索数据库重复检索数据库第一步第一步检索数据库检索数据库新的新的alignmentsequences第二步第二步可继续检索循环可继续检索循环被查询序列(被查询序列(query)BLASTP标准检索标准检索点击点击RunPSI-Blastiteration2(4)PHI-BLAST(PatternHitInitiatedBLAST)u蛋白质序列,并带有特殊区域(

15、蛋白质序列,并带有特殊区域(pattern)v具有具有同样的特殊区域同样的特殊区域v其它区域其它区域与查询序列相似与查询序列相似u可与可与PSIBLAST相连,重复检索相连,重复检索u在在数据库中数据库中检索到检索到的蛋白质的蛋白质v可查询检测到的特殊区域可查询检测到的特殊区域v检索前需输入检索前需输入PROSITE数据库的数据库的结构句法(结构句法(patternsyntax)如:如:IVMF-G-E-x-GAS-LIVM-x(5,11)-R-STAQ(5)TranslatedBLASTublastx,tblastn,tblastxu基本操作同基本操作同blastn第四章第四章核苷酸和蛋白质

16、序列为核苷酸和蛋白质序列为基础的数据库检索基础的数据库检索(III)生物信息学(6)ConservedDomainSearchu检索检索conserveddomaindatabaseu只适用于蛋白质序列的检索分析只适用于蛋白质序列的检索分析u检测被检索的序列中是否含有检测被检索的序列中是否含有保守结构域保守结构域点击点击“Searchforsimilardomainarchitectures”查看查看相关相关结构域结构域点击结构域图标查点击结构域图标查看看多序列对位排列多序列对位排列(7)Primer-BLASThttp:/www.ncbi.nlm.nih.gov/tools/primer-b

17、last/u设计设计PCR引物引物u分析引物特异性分析引物特异性u在在GenBank检索结果页面中提供了链接检索结果页面中提供了链接u结果结果(8)Constraint-basedMultipleAlignmentToolhttp:/www.ncbi.nlm.nih.gov/tools/cobalt/u多重比对多重比对u进化分析进化分析u在在blast检索结果页面中提供了链接检索结果页面中提供了链接u结果结果3、FASTA检索检索http:/www.ebi.ac.uk/Tools/sss/uPrograms一些特殊设计的序列一些特殊设计的序列检索体系在发现基因检索体系在发现基因和蛋白质家族成员

18、方和蛋白质家族成员方面可能更为可靠面可能更为可靠BLAST和和FASTA检检索体系有时不能检测索体系有时不能检测出某些远缘序列的相出某些远缘序列的相关性关性(三)两序列对位排列分析(三)两序列对位排列分析uNCBI的分析工具的分析工具u对任意两条序列进行对位排列分析对任意两条序列进行对位排列分析u允许空位允许空位SpecializedBLASTAligntwo(ormore)sequencesusingBLAST(bl2seq)Needleman-WunschGlobalSequenceAlignmentToolu序列来源序列来源v输入输入Accessionnumberv直接粘贴序列直接粘贴序

19、列u适用于适用于blastn,blastp,blastx,tblastn,tblastxvblastn:两条核苷酸序列相比较两条核苷酸序列相比较vblastp:两条蛋白质序列相比较两条蛋白质序列相比较vtblastn:比较蛋白质序列(比较蛋白质序列(sequence1)和核苷酸序列)和核苷酸序列(翻译成蛋白质序列)(翻译成蛋白质序列)(sequence2)vblastx:比较核苷酸序列(翻译成蛋白质序列)比较核苷酸序列(翻译成蛋白质序列)(sequence1)和蛋白质序列()和蛋白质序列(sequence2)vtblastx:两条核苷酸序列(翻译成蛋白质序列)比较两条核苷酸序列(翻译成蛋白质序

20、列)比较BLAST2sequencesu结果格式结果格式v两种图形两种图形v两序列对位排列两序列对位排列Seq2Seq1BLAST2sequencesu结果格式结果格式v两种图形两种图形v两序列对位排列两序列对位排列Needleman-WunschGlobalSequenceAlignmentToolSeq2Seq1(四)序列比对的其他应用(四)序列比对的其他应用-利用利用BLAST方法分析方法分析miRNAu利用利用miRBase数据库数据库(http:/microrna.sanger.ac.uk/sequences/index.shtml)在在数据库主页数据库主页点击点击“searchin

21、g”在在miRBase:Sequences网页的网页的“By sequence”栏目粘贴序列(栏目粘贴序列(小于小于1000 bp),在),在“Search sequences”栏目中选择检索栏目中选择检索“Mature miRNAs”或或“Stem-loop sequences”,点击,点击“Search miRNAs”检索检索结果结果(http:/rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi)在在“RNAfold WebServer”网站粘贴序列网站粘贴序列v 判断是否可能是判断是否可能是hairpin precursor miRNA 分析分析结果结果不

22、同不同图示图示展示结果展示结果(四)序列比对的其他应用(四)序列比对的其他应用-分析分析RNA或或DNA的二级结构的二级结构 u编码区的比对编码区的比对v应以密码子为单位应以密码子为单位v勿改变编码框勿改变编码框注意:注意:Nucl.Acids Res.(2003)31:3537-3539eTBLASTDuplicationPlagiarismNature2008451:397-399Atextsimilarity-basedengineforsearchingliteraturecollectionsa database of highly similar citations in the

23、scientific literature http:/dejavu.vbi.vt.edu/dejavu/http:/etest.vbi.vt.edu/etblast3/由美国德克萨斯大学西南医学中心开发,可以输入整句对由美国德克萨斯大学西南医学中心开发,可以输入整句对Medline进行检索。进行检索。“However,twoofthesecountries,ChinaandJapan,haveestimatedduplicationratesthatareroughlytwicethatexpectedforthenumberofpublicationstheycontributetoMed

24、line,Perhapsthecomplexityoftranslationbetweendifferentscripts,differencesinethicstrainingandculturalnormscontributetoelevatedduplicationratesinthesetwocountries”第四章第四章核苷酸和蛋白质序列为基础核苷酸和蛋白质序列为基础的数据库检索的数据库检索(上机操作上机操作)生物信息学(四)(四)上机操作上机操作1.了解了解BLASTHelp中的内容。中的内容。2.以大麦以大麦Mlo基因(基因(Z83834)为查询序列)为查询序列(1)用用Bla

25、stn能在能在nr/nt数据库中检索到多少条与之同源的序数据库中检索到多少条与之同源的序列(列(E-value1e-30)?有多少条是禾本科中的?)?有多少条是禾本科中的?(2)换用换用megablast或或discontiguousmegablast,观察检索结,观察检索结果的改变。果的改变。(3)尝试修改尝试修改Blastn的参数,观测对检索结果的影响。的参数,观测对检索结果的影响。(4)找出找出Mlo基因的编码蛋白序列,用基因的编码蛋白序列,用Blastp检索到的与检索到的与Mlo蛋白同源的序列与用蛋白同源的序列与用PSI-Blast检索到的同源序列是否有差检索到的同源序列是否有差别?别

26、?(5)使用使用BlastX预测预测Mlo基因的编码蛋白。基因的编码蛋白。3.用用bl2seq分析大麦和小麦分析大麦和小麦Mlo基因基因mRNA序列编码区和蛋白序列编码区和蛋白质产物的同源性质产物的同源性 G F C N *F F T *L N?W L L Q L I L N L A *C M A S A T N S S L S L M?5 ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC 33 TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG 5?P L Q W *N L V *T L A H S R C S I R *L R *H?A E A V L E E S V N IBlastx的的6种阅读框架种阅读框架plain structure drawing structure drawing encoding base-pair probabilities structure drawing encoding positional entropy 三种不同的图示显示

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!