连锁关联分析在疾病研究中的探讨课件

上传人:痛*** 文档编号:132333550 上传时间:2022-08-08 格式:PPT 页数:69 大小:2.62MB
收藏 版权申诉 举报 下载
连锁关联分析在疾病研究中的探讨课件_第1页
第1页 / 共69页
连锁关联分析在疾病研究中的探讨课件_第2页
第2页 / 共69页
连锁关联分析在疾病研究中的探讨课件_第3页
第3页 / 共69页
资源描述:

《连锁关联分析在疾病研究中的探讨课件》由会员分享,可在线阅读,更多相关《连锁关联分析在疾病研究中的探讨课件(69页珍藏版)》请在装配图网上搜索。

1、1晶能生物技术(上海)有限公司晶能生物技术(上海)有限公司Hanson Zheng 郑汉城郑汉城连锁、关联分析在疾病研究中的探讨连锁、关联分析在疾病研究中的探讨2Life is the translation of the information in the genome into the phenotype of the organismThe organism,computes this phenotype from its genotype,given a specific environment3GenotypeMethylationCNVPhenotypeEnvironment41

2、.24%0.1%56Cystic fibrosisCoronary heart disease基因基因环境环境InfectionRadiation injuryBipolar disorderCancerHuntingtons disease少数单基因少数单基因疾病疾病大多数疾病是多基因疾病多种基因和大多数疾病是多基因疾病多种基因和环境共同作用的环境共同作用的疾病复杂的机制疾病复杂的机制7单基因疾病单基因疾病 疾病的发生是由疾病的发生是由“单单”基因基因的突变所致的突变所致(一对主基因一对主基因):致病基因致病基因单基因疾病不多见,但由于单基因疾病不多见,但由于其遗传性,危害很大其遗传性,危害

3、很大单基因疾病如:囊性纤维肿单基因疾病如:囊性纤维肿瘤,血友病,血色沉着病等瘤,血友病,血色沉着病等8多基因疾病多基因疾病多基因疾病是由两对以上基因突变所多基因疾病是由两对以上基因突变所致,且环境因素在这类疾病的发生中致,且环境因素在这类疾病的发生中起不同程度作用的一类疾病:易感基起不同程度作用的一类疾病:易感基因。因。如:肿瘤,高血压、动脉粥样硬化、如:肿瘤,高血压、动脉粥样硬化、糖尿病、哮喘、自身免疫性疾病、老糖尿病、哮喘、自身免疫性疾病、老年痴呆、癫痫、精神分裂症、类风湿年痴呆、癫痫、精神分裂症、类风湿关节炎、智能发育障碍等关节炎、智能发育障碍等 92022年8月如何从茫茫基因组中找出致

4、病或易感基因?如何从茫茫基因组中找出致病或易感基因?10遗传标记遗传标记 是在染色体上有可以确定的物理位置的DNA片段,它有一定的遗传特征。标记可以是一个基因,也可以是未知功能的DNA片段。因为DNA片段在染色体上相互 接近因而能同时遗传,标记通常被用作跟踪未被确定但大致位置已知的基因。11遗传标记发展遗传标记发展 第一代遗传标记:第一代遗传标记:RFLP restrict fragment length polymorphism 限制性片段长度多态性限制性片段长度多态性第二代遗传标记:第二代遗传标记:STRs short tandem repeats短串联重复序列短串联重复序列第三代遗传标记

5、:第三代遗传标记:SNP single nucleotide polymorphism 单核苷酸多态性单核苷酸多态性 12 第一代:限制性片段长度多态性限制性片段长度多态性 RFLPs(restriction fragment length polymorphisms)1980年,Botstein首次提出。1987年,第一张较完整的人基因连锁图,包含393个RFLP位点。亨廷顿舞蹈症(Huntington)成为第一个使用RFLP定位的遗传病。缺点:数目少,信息量小;成本昂贵,操作繁琐,不易发展到自动化水平。13STR广泛存在于人基因组,占约5%,基本单位是2bp-6bp的串联重复,其中以(CA

6、)n,(GT)n常见。1996年,建立了以6000多个STR为主体的遗传图谱,两个标记之间的平均距离为0.7cM。特点:数目比第一代标记多一些,多态性多。第二代:短串联重复序列第二代:短串联重复序列STRs(short tandem repeats)14第三代:第三代:SNPSNP最普遍的遗传变异标记最普遍的遗传变异标记单核苷酸多态性单核苷酸多态性(SNPs):(SNPs):在基因组中,不同个体的在基因组中,不同个体的DNADNA序列上的单序列上的单个碱基的差异个碱基的差异SNP是目前进行疾病研究最为有效的遗传标记是目前进行疾病研究最为有效的遗传标记15SNPs:最普遍的遗传变异标记最普遍的遗

7、传变异标记l1/1000:任何两个个体具有任何两个个体具有99.9%的序列同源性的序列同源性l1/300:每每300bp出现一个出现一个SNP位点位点l90%变异变异:SNP是最普遍的序列变异是最普遍的序列变异l不均匀分布不均匀分布:SNP在基因组中不均匀分布在基因组中不均匀分布l 10,000,000 SNP:人类基因组中约有一千万个人类基因组中约有一千万个SNP位点位点,任何两个个体约有几百万的差异,任何两个个体约有几百万的差异16单体单体型型(haplotype):相邻相邻SNPs的等位位点倾向于以的等位位点倾向于以一个整体遗传给后代一个整体遗传给后代;位于染色体上某一区域的一组位于染色

8、体上某一区域的一组相关联的相关联的SNP等位位点等位位点标签标签SNP(tagSNP):一个染色体区域可以有很多一个染色体区域可以有很多SNP位点,能代表其他位点信息的位点,能代表其他位点信息的SNP位点称为标签位点称为标签SNP;用少数几个标签用少数几个标签SNPs,就能够提供该区域内,就能够提供该区域内大多数的遗传多态模式大多数的遗传多态模式;50万个较常见的万个较常见的SNP,基本,基本上代表了上代表了1000万个万个SNP SNPs:最普遍的遗传变异标记最普遍的遗传变异标记17遗传学分析方法遗传学分析方法18方法一:关联分析(Associated Studies)在大人群中进行,不考虑

9、家族遗传的方式,分析观察的遗传标记位点等位基因和易感基因位点间存在连锁不平衡(Linkage Disequilibrium Analysis,LD)。连锁不平衡表示两位点是紧密连锁的,两位点越靠近则LD程度越强。因此,标记位点与致病基因越近,突变率越低,杂合度越高,用遗传标记检出致病基因位点的机率越高。连锁不平衡分析需要高密度的遗传标记,可用于基因的精细定位。1920如研究的疾病区域未知如研究的疾病区域未知全基因组全基因组SNP分型检测芯片分型检测芯片21全基因组扫描全基因组扫描无需实验假设无需实验假设/遗传模式支持遗传模式支持无需依赖少数位点无需依赖少数位点同时发现和疾病或某性状相关的多个位

10、点同时发现和疾病或某性状相关的多个位点检出率高检出率高定位精确定位精确22全基因组分型扫描解决方案一:一步法全基因组分型扫描解决方案一:一步法对大人群样品进行全基因组扫描扫描费用?费用?对所有样品进行全基因组扫描对所有样品进行全基因组扫描2022年年8月月连锁关联分析在疾病研究中的探讨连锁关联分析在疾病研究中的探讨23全基因组分型扫描方案二:两步法全基因组分型扫描方案二:两步法1.对小数量样品进行全基因组分型扫描(100-200样品)2.设定 p-值(0.01)筛选出下一步要研究的位点 3.进行大样品数的检测241,2,3,N1,2,3,MSNPs样品Stage 1Stage 2样品标记1,2

11、,3,MSNPsSamples1,2,3,N一步法和两步法全基因组分型扫描比较 25多步设计降低实验成本多步设计降低实验成本-illumina提供完整平台提供完整平台InfiniumGoldenGateGoldenGate26疾病疾病对照对照1 12222要研究的要研究的SNPSNP位点位点疾病对照的关联分析疾病对照的关联分析疾病标记疾病标记SNP位点位点27+=2,000 人人1000 病人病人Cases病例1000 正常人正常人Controls对照病例对照的关联分析病例对照的关联分析28病例病例-对照的关联分析有很多的优点:对照的关联分析有很多的优点:无亲缘关系的样本比较容易收集;无亲缘关

12、系的样本比较容易收集;是一种非参数分析,无需设定疾病的遗传模式;是一种非参数分析,无需设定疾病的遗传模式;检出率较高,尤其适于定位微效基因;检出率较高,尤其适于定位微效基因;定位精确,检出的遗传标记位点与致病基因的距离通常在定位精确,检出的遗传标记位点与致病基因的距离通常在1cM之内;之内;可以提示相关位点或基因的传递方式及效应性质,并可由亚组分析发现可以提示相关位点或基因的传递方式及效应性质,并可由亚组分析发现疾病的遗传异质性。疾病的遗传异质性。基于病例基于病例-对照的关联分析在近几年的研究中逐渐占领了主导地位对照的关联分析在近几年的研究中逐渐占领了主导地位,成功的将一系列复杂疾病的易感基因

13、定位到染色体的相对较,成功的将一系列复杂疾病的易感基因定位到染色体的相对较精确的位置。精确的位置。29检验遗传标记检验遗传标记(等位基因、基因频率或是等位基因、基因频率或是单体型单体型)在病例组的频率是否显著异于对在病例组的频率是否显著异于对照组。如果得到阳性关联的结果,排除各照组。如果得到阳性关联的结果,排除各种混杂因素种混杂因素(如人群分层如人群分层)之后,可以推断之后,可以推断该遗传标记存在于疾病易感基因基因座内该遗传标记存在于疾病易感基因基因座内或者与易感基因座连锁不平衡或者与易感基因座连锁不平衡。关联分析的原理关联分析的原理30GWAS关联分析成功的关键(关联分析成功的关键(Biol

14、ogical Factors)l Population stratificationl Minor Allele Frequencyl Effect Size of Variantsl Prevalence of phenotypel Phenotypic heterogeneity31GWAS关联分析成功的关键关联分析成功的关键(Technical Factors)Sample Size:Affects power to detect an associationLD/Genomic coverage:Global Coverage Local Coverage Gene CoverageD

15、ata Quality:Call Rate Accuracy Random errors32Sample Size:It is important to differentiate between:Required and Effective Sample SizeRequired sample size:Sample size needed to achieve statistical significance at a desired powerEffective sample size:r2 x required sample size Sample size based on the

16、genomic coverage of the genotyping product used(LD/Correlation)33TagSNPs provide optimized Power for WGA studiesDSL:disease susceptibility locusDisease PhenotypeTest for genetic association between the phenotype and the DSLMarkerLinkage DisequilibriumTest for association between phenotype and marker

17、 locusRequired Sample SizeDNAPhenotypeGenomic CoverageEffective Sample Size34Sample Size:“Required”versus“Effective”Sample SizeRequired sampleRequired sample sizes to achieve 80%power in a case/control sizes to achieve 80%power in a case/control study for a significance level of 10study for a signif

18、icance level of 10-7-7 with a disease relative risk of with a disease relative risk of 1.3.This calculation assumes that the disease allele is typed 1.3.This calculation assumes that the disease allele is typed directly(Required Sample Size=Effective Sample Size).directly(Required Sample Size=Effect

19、ive Sample Size).35The interpretation of r2r2 x sample size is the“effective sample size”A study with 1000 cases and controls and an r2 of 0.8 has an effective sample size of 800 cases and controls(N x r2)(as if typing the disease causing SNP directly)Goal:The markers that are genotyped should be se

20、lected so that they have high r2-values(preferable 80%)with the marker that are not genotyped.The higher the r2 the better your powerA good SNPs selection will be key for the success of GWAs36LD/Genomic coverage:Not all SNPs are equally informativeNeed to select a panel with adequate LD coverage for

21、 study populationFrequencyMAF 0.05:Common SNP0.05Disease SNPTag SNP:Best proxy for the majority of all other SNPs with similar allele frequency High LDNon Tag SNP:Limited proxy37LD/genomic coverageGenomic Coverage r2:0.8HumanHap300/CNV370-DuoHumanHap550HumanHap650YHuman1M*Random 900kCaucasian0.810.8

22、90.90.950.84Asian0.680.860.870.930.84Yoruba0.340.560.670.740.6738Increase sample size to maintain 80%power94%genomic coverage39Hap 550 vs Random 500K in Europeans020025015010050Position(Mb)22212019181716151413121110987654321ChromosomeRed indicates regions with higher Power in HumanHap550 versus Rand

23、om 500K SNPs40Power Histogram for Tag versus Random SNPs10-1POWER DIFFERENCES300020001000NUMBER OF REGIONS WITH MORE POWER10-110-1030002000100003000200010000CEUJPT+CHBYRI650k Tag 550k Tag300k TagRANDOM TAG500k 500k 500k 41CIDR quality report for Illumina data42CIDR quality report for Illumina data43

24、Data Quality:Call rate Dependence of the power of a GWA on the call rateCase/control study:1,500 cases&controlsOdds-ratio:1.5Overall significance level:5%Adjustment for multiple comparisons:Bonferroni 5%/500,000=10-7Power as a function of allele frequency and call rates44Power levels and avg number

25、of false positives:Avg call rate by genotype:AA:100%AB:100%BB:100%Allele freqPowerAvg#false positives0.1027%0.160.2071%0.280.3091%0.260.4093%0.1845Power levels and avg number of false positives:Avg call rate by genotype:AA:98%AB:98%BB:98%Allele freqPowerAvg#false positives0.1024%22110.2064%22050.308

26、1%22040.4088%219746Gene Coverage47重复性重复性4849Illumina芯片产品高质量芯片产品高质量Illuminas platform generates the highest data quality on the market:High target selectivity through 50-mer oligonucleotidesHigh allele specificity through single base extension reactionHigh probe redundancy for the allele position(30

27、fold avg.)2 color read outStable and proven calling algorithm in Genomestudio 50Allele Detection Through Single-Base ExtensionBEAD50mer OLIGO SEQUENCEDNA SAMPLEATCGTATT1.SELECTIVITY2.SPECIFICITYPolymerase 30 x51探针设计探针设计52推荐产品推荐产品53530 GWAS Publications,2351 Associations2006200720082009889151222The G

28、WAS Approach is Successful in Human GeneticsYear#of Pubs54国内发表的关于疾病基因国内发表的关于疾病基因关联分析的五篇大文章全关联分析的五篇大文章全部用部用illumina芯片技术芯片技术银屑病银屑病系统性红斑狼疮系统性红斑狼疮麻风病麻风病55GoldenGate检测技术检测技术针对疾病选择针对疾病选择SNP位点定制芯片位点定制芯片如研究的疾病区域已知如研究的疾病区域已知针对疾病选择针对疾病选择SNP位点定位点定制芯片制芯片56AGillumiCode 地址地址Allele Specific Extension&LigationUnive

29、rsal PCR Sequence 1Universal PCR Sequence 2Universal PCR Sequence 3GoldenGate 检测检测等位基因特异性延伸和连接等位基因特异性延伸和连接Genomic DNAT/CLigaseT/APolymerase57/illumiCode#561illumiCode#217illumiCode#1024GoldenGate 检测检测和独特的带和独特的带 IllumiCodeTM 编码序列的芯片杂交编码序列的芯片杂交/A/AG/GC/TSNP#561SNP#217SNP#102458RefSeqIllumina检测设计生物信息学平

30、台Gene SymbolsHUGO gene namesRefSeq NM_ accessionRegionsCoordinatesMarker to markerSNP Score FilesValidation Status Minor Allele Freq Design ScoreRS SNPsrs idsSequencesADTdbdbSNP可根据客户需求设计可根据客户需求设计SNP位点位点59SNP位点设计位点设计601536 位点位点 384 DNA样品样品实验数据实验数据61GoldenGate 检测检测Hapmap项目的主要实验平台项目的主要实验平台62总结总结通过等位基因特

31、异性延伸进行精确地SNP定位高准确度和成功率CALL RATE(0.99)根据研究需要可同时研究 96,384,768 或 1536 个SNP位点仅需全基因组 DNA而无需扩增250ng 全基因组DNA 即可完成1536 位点的研究 可接受质量较差的样品如全基因组中扩增出的DNAGoldenGate检测芯片检测芯片6364Veracode已获美国已获美国FDA认证,可用于临床检测认证,可用于临床检测BeadXpress扫描扫描系统为激光扫描系统,系统为激光扫描系统,它提供两类光束,一它提供两类光束,一类光束对微柱进行扫类光束对微柱进行扫描并通过软件解读,描并通过软件解读,另一类光束对不同应另一

32、类光束对不同应用发出的荧光进行检用发出的荧光进行检测。测。可检测可检测1-384。65连锁分析连锁分析连锁分析是基因定位中的主要策略之一,也是进行致病基因定位的第一步。连锁分析是基因定位中的主要策略之一,也是进行致病基因定位的第一步。通常,在进行基因定位时先收集出现病患的家系,应用一系列遗传标记位通常,在进行基因定位时先收集出现病患的家系,应用一系列遗传标记位点对他们进行全基因组扫描,将候选致病基因定位到染色体上点对他们进行全基因组扫描,将候选致病基因定位到染色体上10-20Mb左左右的位置。连锁分析最适于有多个患者的大家系研究,通常要求致病基因右的位置。连锁分析最适于有多个患者的大家系研究,

33、通常要求致病基因有强效作用,诊断明确,并且要求了解疾病可能的遗传模式。有强效作用,诊断明确,并且要求了解疾病可能的遗传模式。66连锁分析是建立连锁分析是建立在遗传家系的基在遗传家系的基础上,遗传标记础上,遗传标记位点与致病基因位点与致病基因位点同时在家系位点同时在家系中进行传递,通中进行传递,通过计算它们在家过计算它们在家系传递过程中的系传递过程中的重组率变化,来重组率变化,来估算这两点间的估算这两点间的距离以及连锁程距离以及连锁程度。度。67连锁分析的样本选择连锁分析的样本选择尽量明确的疾病背景,是否伴性遗传、显隐性遗传尽量多的家族成员,男女均等、疾病正常均等、几代人都有。68HumanLinkage V Panel Set 6056位点Mouse LD LINKAGE 377位点Mouse MD Linkage 1449位点精心挑选出信息含量最大的SNP连锁分析推荐产品:连锁分析推荐产品:69

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!