Blast本地化详细流程
《Blast本地化详细流程》由会员分享,可在线阅读,更多相关《Blast本地化详细流程(6页珍藏版)》请在装配图网上搜索。
1、Blast 2.4.0+本地化详细流程(基于Windows系统)1. 程序获得。从NCBI上下载Blast本地化程序,下载地址: ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/64安装版64解压(绿色)版最好安装或解压到X盘根目录:如X:blast,尽量简短,方便后边命令输入。2. 原始序列获得。方法1:找到转录组测序数据unigene数据库文件:unigene.fasta或unigene.fa,若为unigene.fa则直接改后缀为.fasta即可。找到或修改后将数据库文件移动至Blast本地化程序目录“X:blastbi
2、n”。方法2:从NCBI中的 ftp 库下载所需要库,链ftp:/ftp.ncbi.nlm.nih.gov/blast/db/FASTA/,其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。下载的month.nt.gz先用WINRAR解压缩,然后用makeblastdb.exe格式化。方法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。注释:上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是NCBI 中已经格
3、式化好的,在进行本地检索时不需再进行格式化,直接用即可。3. 用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下面内容:NCBIData=C:blastdata 先新建TXT文件,然后改属性,将ncbi.ini文件存放到C:Windows 4. 将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:a) 右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量b) 系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化程序所在路径,E:blast 点击确定,将安装路径添加到path。5. 运行MS-DOC。打开D
4、OC窗口(点击开始,选择运行,打开的输入框中输入“CMD”,确定),访问Blast本地化程序所在文件夹,依次输入:(1)X: 回车;(2)cd blastbin,回车。6. 数据初始化。下载得到的数据库为fasta格式,需要经过格式转化才能建立本地数据库。上接第5(2)步,回车后,输入格式化数据库命令:(右键可粘贴)makeblastdb.exe in xxx.fasta -parse_seqids -hash_index -dbtype prot,回车,在原数据库文件所在文件夹生成一系列文件,Blast本地化体系构建完成。blast本地化命令blast本地化后生成的文件参数注释:-in参数后
5、面接将要格式化的数据库;-parse_seqids,-hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype后接所格式化的序列的类型,核酸用 nucl,蛋白质用prot。7. 待比对文件建立。在blastbin文件夹创建test.txt文件,将需要blast的序列以fasta格式存于该文件中,文件名自己命名即可,这里以test为例。建立fasta文件注意事项请查看附件1。若有NCBI上下载好的.fasta文件,直接放到blastbin文件夹即可。test.fasta格式文件制作8. 本地Blast比对。上接第6步,在MS-DOS窗口输入比对命令:bl
6、astn.exe -task blastn -query test.fasta -db xxx.fasta -out text.txt,稍等片刻,Blast结果即存于系统自动生成的out.txt文件中。blastn.exe -task blastn -query RefGene.txt -db Stellera.Unigene.fasta -out RefGene(test).txt -evalue 1e-5 -num_threads 8参数注释:blastn.exe为程序执行命令,程序根据自己需要而blastn,blatp,tblastx;-task后面选择你所要用的程序blastn,bla
7、tp,tblastx等;-query后接查询序列的文件名称;-db后接格式化好的数据库名称;-out后接输出的文件名称及格式。by malapidan2016.08.24附件1 FASTA格式说明1. 构建FASTA格式文件所有TEST序列输入必须是FASTA格式,所谓FASTA是指DNA 序列第一行开始于一个标识符:,紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。 下面是FASTA格式的示例:Mus_AQP11 mRNA for aqu
8、aporin 11, complete cdsGCGGTGAGGGAGCCATGTCCGCGCTACTGGGACTCCGGCCCGAGGTGCAGGACACCTGCATCTCGCTGGGGCTAATGCTGCTGTTCGTGCTGTTCGTGGGGCTGGCCCGCGTGATCGCCCGGCAACAGCTACACAGGCCCGTGGTCCACGCCTTCGTCCTGGAGTTTCTAGCTACCTTCCAGCTCTGCTGCTGCACCCACGAGCTCCAAGTGCTGAGCGAGCAGGACTCTGCGCACCCCACCTGGACTCTGACACTGATCTACTTCTTTTCCTTGGT
9、GCATGGCCTGACCCTGGTGGGCACAGCTAGCAACCCGTGCGGCGTGATGATGCAGATGATTCTGGGGGGTATGTCCCCCGAAATGGGTGCCGTGAGGTTGTTGGCTCAGCTGGTTAGCGCCCTGTGCAGCAGGTACTGCATAAGCGCCCTGTGGAGCCTGAGTCTGACCAAGTACCATTACGACGAAAGGATCTTAGCTTGCAGGAATCCCATCCACACCGACATGTCCAAAGCGATCATCATAGAGGCCATCTGCTCCTTTATTTTCCACAGCGCTCTACTGCACTTCCAGGAGGTCCG
10、AACCAAGCTTCGCATCCACCTGCTGGCTGCACTCATCACCTTTTTGGCCTATGCAGGAGGGAGCCTCACAGGAGCATTGTTTAACCCAGCGCTGGCACTTTCTCTGCACTTTCCGTGCTTTGACGAACTCTTCTATAAGTTTTTTGTAGTATACTGGCTTGCTCCTTCTGTAGGTGTGCTGATGATGATCCTCATGTTCAGTTTTTTCCTTCCATGGCTGCATAACAATCAAATGACTAATAAAAAAGAGTAACCACTCCCAAAGACTCGAACTAAGTCCCAGGACAGTCAAGCTGGATG
11、CGACAATCTGAGCACCCTCCAAACTCTGGACGCCTCCTGCTTCAGCTTTCTCTGTGGAA Mus_AQP12 mRNA for aquaporin 12, complete cdsCCGGGCCCCCCCTCGATTGGCCAAATCGGCCCTCGAGTTAATTAAATTAATCCCCCCCCCCCCCGTTGGGCTGTGGGACCAGCCAGTCTCCCACACGTCACCAGGTCCTTGCTCCTTGTAGAACCCAGACTGATGGCCAGTCTGAATGTGTCCCTCTGTTTCTTTTTTGCTACTTGTGCCATCTGTGAGGTGGCT
12、AGAAGGGCATCTAAAGCCCTGCTTCCAGCAGGTACCTATGCCAGTTTTGCCCGGGGGGCAGTAGGCGCAGCCCAGCTGGCAGCCTGCTGCCTGGAGATGCGAGTGTTGGTGGAGCTTGGCCCCTGGGCAGGGGGCTTCGGACCCGACCTGTTGCTGACCCTGGTCTTCCTGCTTTTCCTGGTACATGGGGTCACCTTCGATGGGGCCTCTGCCAACCCCACCGTGGCCCTGCAGGAGTTCCTCATGGTGGAGGCATCGCTGCCCAACACTCTGCTGAAACTGTCGGCCCAGGTGCTGGGT
13、GCACAGGCTGCCTGTGCCCTGACCCAGCGCTGCTGGGCCTGGGAGCTCAGCGAACTACACTTACTACAGAGCCTCATGGCTGCACACTGCAGCTCAACCCTGCGTACATCCGTGCTGCAGGGCATGCTCGTGGAGGGTGCCTGCACCTTCTTCTTCCATCTGAGCCTCCTCCACCTGCAGCACAGCCTTCTTGTCTACAGGGTGCCTGCCCTGGCCCTGCTGGTCACTCTCATGGCCTACACAGCAGGGCCCTACACATCTGCCTTCTTCAATCCTGCCCTGGCTGCCTCTGTCACATTC
14、CACTGCCCTGGGAACACCTTGCTGGAGTATGCCCACGTGTACTGCCTGGGTCCTGTCGCAGGGATGATCCTGGCTGTCCTCCTCCATCAGGGCCACCTTCCCCGCCTTTTCCAGAGAAATCTGTTCTACCGGCAGAAAAGCAAATACCGAACTCCCAGGGGGAAGCTGTCCCCAGGTTCTGTGGACGCCAAGATGCACAAAGGGGAGTAGTGGCAAAGGGCCGTGCCCTACAGGTGCCAGGGCAGCAGCCACTGGGGTCCAGCTGCGCTGTCTCACTCACCGCAGCTTCACTCGCCTCCT
15、GAGAGGTCTGGTCTCCCTGCCACAAAATCATTTGCCAATAAACCACTGTTAAGATCAAAAAAAAAAAAAAAAGAGCTCGGCCATAAGGGCCATAGCTCCAGCTTTTGTTCCCTTTAGTGAGGGTTAATTTCCGAGCTTGGCGTAATCA2. 从NCBI下载FASTA格式的核酸序列。当我们在NCBI上搜索到目的基因之后,会出现如下图所示的界面,图中红色方框内的链接均可以点击并且会出现如图中红色长箭头所指的下拉菜单,点击红色小箭头所指的链接即可获得相应的FASTA格式的序列。以图中基因为例, 点击NC_000014.8之后将获得该基因的基
16、因组DNA序列(未剪接),点击 NM_021257.3 之后将获得该基因剪接之后的mRNA序列,点击 NP_067080.1 将获得该基因相应的蛋白质序列。BLAST+本地化发表于2015年3月23日由chenwen 1、从NCBI下载对应系统的BLAST+程序NCBI推荐使用BLAST+,老版本的BLAST已经停止更新!BLAST+与BLAST相比,有很多改进和提高。BLAST+:ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/老版本BLAST:ftp:/ftp.ncbi.nlm.nih.gov/blast/executab
17、les/release/LATEST/2、解压,将程序路径添加到环境变量我的系统是Ubuntu 14.04 64位,选择的程序是ncbi-blast-2.2.30+-x64-linux.tar.gz。tar zxvf ncbi-blast-2.2.30+-x64-linux.tar.gzvi /.bashrc在末尾添加:export PATH=/home/biochen/bin/blast/bin:$PATH这里的路径视具体情况而定。更新,使配置生效:source /.bashrc3、从NCBI下载数据库下载地址:ftp:/ftp.ncbi.nih.gov/blast/db/有关每个文件的含义
18、请阅读README文件。下面摘录几种:human_genomic.gz 人类基因组序列nr.gz 来源于GenPept, Swissprot, PIR, PDF, PDB, and RefSeq的非冗余蛋白质序列nt.gz 除wgs, gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的htg.gz 来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列4、格式化数据库BLAST+使用makeblastdb命令格式化数据库。老版本BLAST使用formatdb命令。makeblastdb -in db.fasta -dbtype prot -par
19、se_seqids -out db_name参数说明:-in:待格式化的序列文件-dbtype:数据库类型,prot或nucl-out:数据库名5、BLAST+运行BLAST+提供多种比对程序:blastp: 用蛋白质序列搜索蛋白质序列库balstn: 用核酸序列搜索核酸库blastx:核酸序列对蛋白库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索tblastx:核酸序列对核酸库在蛋白质级别的比对,两者都在搜索之前翻译城蛋白质进行比对核酸序列比对核酸数据库(blastn):blas
20、tn -query seq.fasta -out out.txt -db dbname -evalue 1e-5 -num_threads 8参数说明:-query: 输入文件路径及文件名-out:输出文件路径及文件名-db:格式化了的数据库路径及数据库名-evalue:设置输出结果的e-value值-num_threads:线程数其他程序比对跟blastn相似,更多参数可以用-help查询。6、wwwblast感兴趣的朋友,还可以通过wwwblast将本地化的blast+制作成像NCBI那样的网页版。下载地址:ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/按照官方说明,安装Apache 架设网站和对wwwblast进行简单配置。
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 顶级别墅项目广告设计鉴赏2
- 页岩气勘探开发技术
- 《文言文虚词复习》优秀课件
- 八年级道德与法治下册第二单元理解权利义务第四课公民义务第1框公民基本义务习题课件新人教版
- 八年级道德与法治下册第四单元崇尚法治精神第八课维课件
- 八年级道德与法治下册第三四单元综合复习教学课件人教版
- 《蔬菜种植技术》课件
- 阅读专题之人物描写与人物形象分析ppt课件
- 八年级道德与法治下册第一单元坚持宪法至上第二课保障宪法实施第1框坚持依宪治国教学课件人教版
- 远距离点对点通信系统设计通信原理三级项目ppt课件
- 页岩气与煤层气井压裂增产技术
- 化工制图课件
- 远离手机--班会ppt课件
- 预防校园欺凌主题班会ppt课件
- 阅读表现手法ppt课件