基因家族分析套路

上传人:非****1 文档编号:70213692 上传时间:2022-04-06 格式:DOCX 页数:14 大小:199.34KB
收藏 版权申诉 举报 下载
基因家族分析套路_第1页
第1页 / 共14页
基因家族分析套路_第2页
第2页 / 共14页
基因家族分析套路_第3页
第3页 / 共14页
资源描述:

《基因家族分析套路》由会员分享,可在线阅读,更多相关《基因家族分析套路(14页珍藏版)》请在装配图网上搜索。

1、基因家族分析套路(近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路-全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);一、基本分析内容数据库检索与成员鉴定进化树构建保守domain和motif分析.基因结构分析.转录组或荧光定量表达分析.二、数据库检索与成员鉴定1、数据库检索1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了Brachypodiumdb:RiceGenomeAnnotationProject:.2)已鉴定的家族成员获取。如何获得其他

2、物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找:a.NCBI:nucleotideandproteindb.2、比对工具。一般使用blast和hmmer,具体使用命令如下:LocalBLASTformatdb-idb.fas-pF/T;blastall-pblastp(orelse)-iknown.fas-ddb.fas-m8-b2(orelse)e1e-5-oalignresult.txt.-b:outputtwodifferentmembersinsubject

3、sequences(db).Hmmer(hiddenMarkovModel)search.ThesameasPSI-BLASTinfunction.Ithasahighersensitivity,butthespeedislower.Command:3、过滤Identity:至少50%.Coverregion:也要超过50%或者蛋白结构域的长度EST支持BlastandHmmer同时检测到4、通过上述操作获得某家族的所有成员基因家族分析套路(本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。、构建进化树的基本步骤1、多序列比对.Muscleprogram.3、算

4、法选择。三种.NJ,MLandBI.4、软件选二、具体步骤2.1 多序列比对。一般采用muscle。因为MUSCLEisoneofthebest-performingmultiplealignmentprogramsaccordingtopublishedbenchmarktests,withaccuracyandspeedthatareconsistentlybetterthanCLUSTALW.2.2 模型选择。对于用蛋白序列构建进化树的可以采用下面命令:java-Xmx250m-classpathpath/ProtTest.jarprottest.ProtTest-ialignmfile

5、.phy.运行结果如下图BestmodelaccordingtcAIC:WAG4-G+FModeldeltaAIC*AICAICw-LnLKAG田E0.0015560,510,73-7751.25梯W+工H?+E2,0015562.510,27-7751.25LG+G+Fie.i15579.120,00-7760,StW+I+G+F20,155&K20.00-7760,56WAS+G26.7315587,230.00-7763.622e,7315589,23口B1O31W62+G+F37.4215597.930.00-7769.96汪忠:1) “.Phy”format.Onlyallowten

6、charaters.注意名字不能重复相同。2) AIC:AkaikeInformationCriterionframework.3) Gammadistributionparameter(G):gammashape.4) proportionofinvariablesites:I.2.3构建进化树2.3.1 意义:a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为MEKK,RafandZIK三个亚家族.b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近c基因家族复制分析。研究基因家族复制事件(duplicationevents),两种复制事件类型常采用的标准:Ta

7、ndemduplication:Identityandcoverregionmorethan70%andtightlylinked(Holub,2001).2.3.2 进化树。般ML树比较准确,但应结合方法,如NJ树,相互验证。2.3.3 进化部分分析:KaKs计算a.ParaAT:ParaAT.pl-htest.homologs-ntest.cds-atest.pep-pprocfaxt-k-ooutputc.分歧时间计算:Divergenttime(T)calculation.T=Ks/2卜入:mean5.1-7.1X10-9.d.Ka/Ks意义:Ka/Ks=1.中性进化。.Ka/KsKa

8、/Ks1.正选择。Positivelyselectedgenesandproducefitnessadvantagemutationstoevolvenewfunctions.基因家族分析套路(三)本节主要讲基因结构分析套路1、Motif分析使用软件MEME,命令如下:memesample.fa-dna-revcomp-nmotifs10-modzoops-minw6-maxw50meme_htmlFormat.html2、基因结构分布图用法如下:HomeHelpIAboutILinks:PlantRegMapGeneFeaturesInputfeaturesrnBEDformatC:Inpu

9、tdata:一一一一AY0T7T570153UTR.AY0T77575街725UTR.AT077T577251357CDS0AT077767J2B71757CDS2AYDTT76T13S71993CDS2AYD77T572】432W3CDS0AY07Tm打电273DTK.AYSL40430翊CDS2AY5L4043ggg1121CDS2学14117i、可以慈受当冲入文件格式&点击酷皿n1。可属者看相应的格2、n诔餐FASTA棉式皋,曲事保空定的匚口5与修因序列一段3Oth*rFvamrutP口”口1打工主费用于展示第白拮恂母在其四的百五闱户口以通过御人站为域的位置疑涉相应的存正4、Output

10、户可映智Anowick格式的神我苫E喳慧泸因的。山工,来硒琛检照自己阳里的5、暴怎入拜5取;输出oruploadfile:选择文件章延祥任何立件FormatBED+oOtherFeaturestoDisplay,GSE-GSM.GPL:platformGSE:multipleseries.GSM:multiplesamples.GDSGSE.ThedifferenceconcentratedonthedatalabeledGDScanbeanalyzedforonegeneonline.Itissimpleandeasily.ThedatainthesameGPLcanbeusedtocomp

11、areinexperimentEtiOrganismforsearch口勇pinySeninas;wSummaryJOpftfpag*SoriedbyDetmMw於rResults:1to20of1827Experimentdesign加ndyPr亦“mIrGDSHofdeumvukafaE.ck*asmprdflhnafr:ieoynt2sta*i,2stress-26seu?stsDetailinformatioHordevmwhgfc可生小的0。,什:3汉号网itq江二I?EndOSDt-miandemorofrAttlansOfnQs3iAnjlyofftndfltpMmjndtrnb

12、ryvje*J1js$v*frAclwjo4vylfjtnnirkjfluTgp/njPtlrtfl5*dl炉蜘g(fmtnq(icCflurg小心SonshipcbMwtfimMumh:fnMOrgasmTfg_pi由5.加=仍0frpotf2dsbpoliofbaftarcuHfs廿就sadirHiysttrssGcWKiPTorrmsfl15习ia-Jal*MunripfinqtrlyclosefyelatMtoMaylhgrpeRwiAsprwdinsightintotMmoiciilaFba等国ofthisdrffwenc#m写就T&WKgQT0M仃mTrtwOnlineanalys

13、isPlreformPLD340GSEM25348wno(*iDOwnPgflCUtaGE5Et:口而切ACUmjmGt冶”X1&初;PuMWdFulll幽n匕巾FMUSamdilud卜面是在线分析转录组数据的用法:gOnlineAnalysis(GDS)QflUtatteCMiGDS34If:fay.Ju:laalyW*Sibwti1:tMw*mmdtry4*9m44tomgifimniEngw4iMpbhw:0fp*ncifp.tndMpMB皿wrtrr41mdXIrMcmfdvw*iogmgn49tiwMtngi.ww_Harfmov*to*1dum4mHttfAwCvApntuv,Rn

14、Jt注tAHhtFt)wbWw厘力髀N嗨wM*B4rtar0*1#0;JkrJivwfAFfMMfer*91)340BWvijMhnwtniBjhrvGBfwMgClibrary(affy);library(makecdfenv);library”.cel file analyzed.mydataesetwrite.exprs(eset,file=mydata.txt)designcolnames(design)fitcontrast.matrixfit2f12topTable(fit2,coef=1,adjust=fdr,sort.by=B,number=10)#Generateslisto

15、ftop10(number=10)differentiallyexpressedgenessortedbyB-values(sort.by=B)forfirstcomparison_group._write.table(topTable(fit2,coef=1,adjust=fdr,sort.by=B,number=500),file=limmacomplete.xls,row.names=F,sep=t)#Exportscompletelimmastatisticstableforfirstcomparisongroup.results-decideTests(fit2,p.value=0.

16、05);vennDiagram(results)2、转录组数据处理。原始数据格式为sra或fastq格式。Sra可以转换为fastq然后运用下面的命令进行处理。1)获得cleandata;fastx_clipper:clipadapter.fastq_quality_filter:basequalitycontrol.fastq_quality_trimmer:trim5lowqualitybases.2)计算RPKM.bowtie2-buildpath/db.seqpath/dbtophatdbread.fastqbam_filterpath/accepted_hits.bamsamtoolsview-h-ooutput-uniq.samoutputuniq.bamexcelforcalculation(lowfrequencyreadsW5wereomitted).3)差异表达的基因。寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。a.倍数法。对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因b.CV值。计算某个成员在不同处理下的基因表达变化。CV=SD/mean.Usedindifferenttissuesororgansanlysis.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!