《表达序列分析》PPT课件

上传人:xt****7 文档编号:156551665 上传时间:2022-09-27 格式:PPT 页数:58 大小:1.67MB
收藏 版权申诉 举报 下载
《表达序列分析》PPT课件_第1页
第1页 / 共58页
《表达序列分析》PPT课件_第2页
第2页 / 共58页
《表达序列分析》PPT课件_第3页
第3页 / 共58页
资源描述:

《《表达序列分析》PPT课件》由会员分享,可在线阅读,更多相关《《表达序列分析》PPT课件(58页珍藏版)》请在装配图网上搜索。

1、第六章 表达序列分析第一节 引言(二)什么是表达序列标签?(expressed sequence tag,EST)从已建好的从已建好的cDNA库中随机取出一个克隆,库中随机取出一个克隆,从从5末端或末端或3末端进行一轮单向自动测序,所获末端进行一轮单向自动测序,所获得的约得的约60-500bp的一段的一段cDNA序列。序列。基因组表达为基因组表达为RNA的序列的序列:mRNA和功能和功能RNA一、表达序列与表达序列标签一、表达序列与表达序列标签(一一)什么是表达序列什么是表达序列?EST的获得途径的获得途径二、EST的用途(一一)ESTs与基因图谱的绘制与基因图谱的绘制基因组物理图谱的构建基因

2、组物理图谱的构建:借助序列标签位点(借助序列标签位点(sequence-tagged sites,STS)物理图谱也称为物理图谱也称为STS图谱图谱 EST是一种是一种STS1995发表的人类基因组物理图谱含有发表的人类基因组物理图谱含有15086个个 STS,其中大多数为其中大多数为EST,平均密度为平均密度为1个标记个标记/199kb(二二)ESTs与基因预测的验证与基因预测的验证某一个物种的基因组测序完成之后,首要任务是对基因某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全

3、部基因,此时需要对预测基因进能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条行验证,每一条EST代表特定基因的部分序列,因此将代表特定基因的部分序列,因此将预测基因同物种所有的预测基因同物种所有的EST进行比对,有助于基因预测进行比对,有助于基因预测的验证。的验证。(三三)ESTs与基因预测与基因预测(Blast数据库搜索数据库搜索)在同一物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员(paralogs)在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因(orthologs)已知基因的不同剪切模式的搜寻已知基因的不同剪切模式的搜寻(四四)ESTs与与SNP位

4、点预测位点预测来自不同个体的冗余的来自不同个体的冗余的ESTs可用于发现基因组中转录区可用于发现基因组中转录区域存在的域存在的SNPs。应注意区别真正的应注意区别真正的SNPs和由于测序错误而引起的本身不和由于测序错误而引起的本身不存在的存在的SNPs。解决这一问题可以通过:。解决这一问题可以通过:提高提高ESTs分析的准确性分析的准确性 对所发现的对所发现的SNPs进行实验验证进行实验验证(五五)ESTs与与基因表达谱的构建基因表达谱的构建.Clone反转录(可选)反转录(可选)读取光密度读取光密度聚类分析(非同源功能注释)聚类分析(非同源功能注释)标记标记杂交杂交反转录反转录EST分析分析

5、.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表达量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发现的基(研究已发现的基因)因)连接,连接,转化转化 Rice genome-wide DNA chip(60,000+预测基因)果蝇基因芯片原位合成 (六六)EST数据的不足数据的不足ESTs很短,没有给出完整的表达序列;很短,没有给出完整的表达序列;低丰度表达基因不易获得(低丰度表达基因不易获得(SAGE可以解决)可以解决);由于只是一轮测序结果,出错率达由于只是一轮测序结果,出错率达2%5%;有时有载体序列和核外有

6、时有载体序列和核外mRNA来源的来源的cDNA污染或污染或是基因组是基因组DNA的污染;的污染;有时出现有时出现镶嵌克隆镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。序列的冗余,导致所需要处理的数据量很大。第二节 EST数据分析一、一、cDNA文库的构建与文库的构建与EST数据的实验获取数据的实验获取u非标准化非标准化cDNA文库的构建文库的构建u标准化标准化 cDNA文库的构建(杂交方法如扣除杂交)文库的构建(杂交方法如扣除杂交)ucDNA逆转录引物逆转录引物检测低丰度表达基因检测低丰度表达基因不能用于表达谱研究不能用于表达谱研究适用于表达谱研究适用于表达谱研究测序成本较高测序成本较高O

7、ligo T引物引物随机引物随机引物体内:翻译体外研究:反转录连接,转化二、二、EST数据库数据库u1993年前:年前:EST收录于收录于GenBank,EBI和和DDBJu1993年年 NCBI 建立建立dbEST02468101214161820总EST条目(million)19931995199719992001时间(年)dbEST中数据量的增长中数据量的增长u常用的常用的EST数据库数据库(一)(一)dbEST(database of EST)Genbank的一部分的一部分63,236,621条数据(条数据(20091016)u描述:描述:u向向dbEST提交数据提交数据按格式编辑数据

8、按格式编辑数据通过通过E-mail提交提交更新数据更新数据udbEST数据格式数据格式Publication文件:文献文件,文献发表信息文件:文献文件,文献发表信息Library文件:文库文件,实验信息文件:文库文件,实验信息Contact文件:联系人文件,联系信息文件:联系人文件,联系信息EST文件:文件:EST数据文件,核心数据数据文件,核心数据u在在dbEST中检索数据中检索数据利用利用Entrez检索系统检索系统登录登录NCBI FTP下载:下载:ftp.ncbi.nih.gov/repository/dbEST 例:在例:在Entrez中检索人类血红蛋白中检索人类血红蛋白EST数据数

9、据1.检索栏内输入关键词,如检索栏内输入关键词,如“HBB Human”2.检索结果检索结果访问号访问号数据描述数据描述Gi号号/数据库来源数据库来源3.检索结果的解读检索结果的解读数据记录的编号:数据记录的编号:DN991377数据记录的描述:数据记录的描述:数据记录的格式:数据记录的格式:Genbank格式、格式、EST格式格式数据记录的下载:下载数据记录的下载:下载FASTA格式序列、下格式序列、下载载Genbank格式的文本文件格式的文本文件(二)(二)UniGene数据库数据库 Genbank的一部分的一部分一条纪录为一个一条纪录为一个gene clusteru简介简介u查询查询Un

10、iGene通过通过NCBI Ftp 下载:下载:使用使用dbEST数据库检索数据库检索例:检索人类血红蛋白例:检索人类血红蛋白亚基的亚基的UniGene数数据据1.检索栏内输入关键词检索栏内输入关键词“HBB Human”2.获得检索结果页面获得检索结果页面3.检索结果解读检索结果解读数据名称:数据名称:数据描述:数据描述:数据格式(主要字段):数据格式(主要字段):SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合基因类中相似蛋白质集合GENE EXPRESSTION:基因表达信息:基因表达信息SEQUECNES:与基因类相关的序列,:与基因类相关的序列,如如

11、mRNA、EST等等等等(三)(三)Gene Indices数据库数据库 The Institute of Genomic Research Database(TIGR)中的一个子库)中的一个子库 u简介简介u数据构成数据构成42类动物类动物47类植物类植物15类原生生物类原生生物10类真菌类真菌三、三、ESTEST数据分析方法数据分析方法去除低质量的序列(去除低质量的序列(如使用如使用Phred)应用应用BLAST、RepeatMasker或或Crossmatch屏蔽屏蔽数据数据组中不属于表达基因的赝象序列组中不属于表达基因的赝象序列(artifactual sequences)载体序列载体

12、序列(ftp:/ncbi.nlm.nih.gov/repository/vector)重复序列重复序列(RepBase,http:/www.girinst.org)污染序列污染序列(如核糖体如核糖体RNA、细菌或其他物种的基因、细菌或其他物种的基因组组DNA等等)去除其中的去除其中的嵌合克隆嵌合克隆最后去除长度小于最后去除长度小于100bp的序列的序列(一)序列前处理(一)序列前处理ESTEST数据预处理流程数据预处理流程聚类目的:将来自同一个基因或同一个转录本的具有聚类目的:将来自同一个基因或同一个转录本的具有重叠部分重叠部分(over-lapping)的的ESTs整合至单一的簇整合至单一的

13、簇(cluster)中中聚类作用:聚类作用:产生较长的一致性序列产生较长的一致性序列(contigs),用于注释,用于注释 降低数据的冗余,纠正错误数据。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:聚类的数据库主要有三个:UniGene(http:/www.ncbi.nlm.nih.gov/UniGene)TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/)STACK(http:/www.sanbi.ac.za/Dbases.html)(二)(二)ESTs的聚类的聚类PhrapCAP3TI

14、GR AssemblerStaden Package(三)(三)ESTs序列聚类拼接的主要软件序列聚类拼接的主要软件u 4种种ESTs聚类和拼接软件比较聚类和拼接软件比较(四)序列注释和分析(四)序列注释和分析一级序列同源性比对:使用一级序列同源性比对:使用BLASTBLAST等工具等工具蛋白质结构域和功能位点搜索蛋白质结构域和功能位点搜索基因功能分类:基因功能分类:Gene OntologyGene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较通路分析可变剪切分析一、一、SAGESAGE技术原理简介技术原理简介基因表达系列分析(基因表达系列分析(Serial Analy

15、sis of Gene Expression,SAGE):):1995,Velculescu高通量、平行性检测高通量、平行性检测u简介简介u三个基本要点三个基本要点9-14bp的短核苷酸序列的短核苷酸序列“标签标签”(Tag)可以特异确定一)可以特异确定一个转录本个转录本串联体(多聚体)分子批量分析串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量各转录本的表达水平可以用特定标签被测得的次数定量SAGE技术原理技术原理二、二、SAGESAGE技术方案技术方案u构建构建SAGE文库文库u多聚体分子的克隆与测序多聚体分子的克隆与测序u标签序列的提取标签序列的提取

16、反转录反转录酶切酶切连接连接测序测序单条测序相当于对单条测序相当于对3040条条EST测序测序分析分析由于采样量大大提高,可对低表达基因进行分析:由于采样量大大提高,可对低表达基因进行分析:基因表达量分析、寻找新基因等等基因表达量分析、寻找新基因等等SAGE技术方案技术方案三、三、SAGESAGE技术应用前景技术应用前景u全基因组表达谱分析与比较全基因组表达谱分析与比较u深入认识基因调控网络深入认识基因调控网络四、四、SAGESAGE数据库与分析软件数据库与分析软件1.NCBI SAGE数据库数据库(GEO)2.SAGEnet3.The Mouse SAGE Site4.其他其他SAGE数据库

17、数据库(一)(一)SAGESAGE数据库数据库1.NCBI SAGE数据库:数据库:GEOGene Expression Omnibus,2000,NCBIGEO数据库四个基本实体数据库四个基本实体 1)提交者,)提交者,2)平台,)平台,3)样本,)样本,4)系列)系列uGEO简介简介uGEO数据库查询:在数据库查询:在EntreZ中查询中查询Entrez GEO数据集数据集 查询所有的实验注解查询所有的实验注解 Entrez GEO表达谱表达谱查询样品和系列纪录查询样品和系列纪录 uGEO数据库查询数据库查询:在在GEO主页查询主页查询例:查询例:查询GDS325GDS325数据集的结果数

18、据集的结果数据记录的相关信息数据记录的相关信息Expression Profiles:表达谱数据:表达谱数据 Data Analysis Tools:分析工具:分析工具 Sample subsets:样本子集:样本子集表达谱信息分析工具样本子集uGEO数据分析数据分析Find genes 工具:快速寻找指定基因工具:快速寻找指定基因Cluster heatmap工具:样本层次聚类图工具:样本层次聚类图Query Group A versus B 工具:子集比较查询工具:子集比较查询Experiment design and Value distribution:数据:数据集的数值分布集的数值分

19、布GEO BLAST:使用:使用BLAST搜索感兴趣序列的搜索感兴趣序列的表达谱数据表达谱数据Subset effects:子集效应,提供不同子集之间的:子集效应,提供不同子集之间的差异信号差异信号Find genes Cluster heatmapExperiment design and Value distributionuGEO数据提交与更新数据提交与更新创建创建GEO账号:账号:GEO主页点击主页点击“Create a new account”选择提交方式选择提交方式 Direct Deposit/Update:直接提交:直接提交 Web Deposit/Update:Web交互方式

20、提交交互方式提交准备数据,执行提交准备数据,执行提交2.SAGEnetSAGEnet是一个关于是一个关于SAGE技术方法、文档、资讯技术方法、文档、资讯以及收录以及收录SAGE数据的网络资源库数据的网络资源库主要内容:主要内容:FINDNGS:SAGE技术介绍技术介绍 RESOURCES:资料及数据下载:资料及数据下载 PUBLICATIONS:SAGE出版物出版物 CONFERENCES:相关会议信息:相关会议信息 CONTACS US:联系获取:联系获取SAGE资料资料3.The MOUSE SAGE Site小鼠小鼠SGAE数据库,由捷克科学院分子遗传研究数据库,由捷克科学院分子遗传研究

21、所构建所构建4.其他其他SAGE数据库数据库GutSAGE:StormSAGE:GermSAGE:(二)(二)SAGE分析软件分析软件 对对SAGE数据分析主要包括从原始的序列数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等。能的分析或发现新的基因等。SAGE300l与与sagenet实验方案配套使用实验方案配套使用WEBSAGEl对对SAGE数据进行统

22、计分析,鉴别差异表达的标数据进行统计分析,鉴别差异表达的标签,绘制分析结果的散点图等。签,绘制分析结果的散点图等。lh/ATCGl从标签序列来构建基因表达图谱从标签序列来构建基因表达图谱l l接受接受10bp的短的短SAGE标签、标签、17bp的长的长SAGE标签、标签、13bp的的MPSS标签、标签、16bp的的MPSS或或SBS标签标签POWER-SAGEl对不同大小的样本和不同使用频率的标签的组合进行对不同大小的样本和不同使用频率的标签的组合进行“虚拟虚拟”的的SAGE实验分析,用以确定最好的实验方实验分析,用以确定最好的实验方案案l邮件获取:邮件获取: 使用使用ATCG进行在线的进行在线的SAGE标签数据分析标签数据分析

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!