人类遗传统计基础—术语、概念、基础统计

上传人:仙*** 文档编号:139043643 上传时间:2022-08-22 格式:PPTX 页数:97 大小:264.86KB
收藏 版权申诉 举报 下载
人类遗传统计基础—术语、概念、基础统计_第1页
第1页 / 共97页
人类遗传统计基础—术语、概念、基础统计_第2页
第2页 / 共97页
人类遗传统计基础—术语、概念、基础统计_第3页
第3页 / 共97页
资源描述:

《人类遗传统计基础—术语、概念、基础统计》由会员分享,可在线阅读,更多相关《人类遗传统计基础—术语、概念、基础统计(97页珍藏版)》请在装配图网上搜索。

1、人类遗传统计基础术语、概念、基础统计2004年10月,北京染色体(chromosome,46条,23对同源染色体(homologous chromosome)有丝分裂(mitosis):DNA复制形成姐妹染色单体(chromatid)姐妹染色单体分开进入新细胞。减数分裂(miosis):DNA复制形成姐妹染色单体同源染色体配对(四倍体)、交换“同源染色体”分开进入新细胞“姐妹染色单体”分开形成配子进入新细胞。单倍型(haplotype):一条染色体上不同基因座上来自同一个亲体的基因排列。遗传密码:DNA链上不同的碱基排列。为了编码20种氨基酸,需要最少3个碱基组成1个序列片段,称三联体密码(t

2、ripletcode)。每个三联体(如AAA)在mRNA上的副本(UUU)称为一个密码子(codon)。地球上所有生物都具有统一的遗传密码。同一氨基酸可有好几个密码,密码子的专一性主要由前两个碱基决定。64个密码中61个都对应了相应的氨基酸,其中一个(AUG,对应甲硫氨酸的唯一密码)兼具起始密码功能,另有3个终止密码(UAA、UAG和UGA)。基因(gene):完成特定功能的一段核苷酸序列。基因座(locus):基因在染色体上的位置等位基因(alleles):同一位点上可能出现的基因,例如ABO血型基因基因型(genotype):同一位点上两个等位基因的组合纯合体(homozygote):如A

3、/A杂合体(heterozygote):如A/O表现型(phenotype):基因型控制的性状 表现型与基因型并非一一对应关系。单基因性状:由单个基因控制的性状。这些性状之间的差别明显,一般没有中间过渡类型,呈不连续变异(质量差异),称 为 质 量 性 状(q u a l i t a t i v e character)。如单眼皮/双眼皮,卷舌,用手习惯,卷发/直发,血友病、色盲等。单基因性状属于孟德尔式遗传。多基因性状:由多个基因共同控制的性状。这些性状的变异有一系列过渡类型彼此间只有数量的差别,没有明显质的界限,呈连续变异。因此,多基因性状又称为数量性状(quantitative char

4、acter)。人类性状多是数量性状(如智力、身高、肤色、冠心病、消化性溃疡等)。多基因遗传:一种遗传性状的表达受两对或两对以上基因的控制,各对基因彼此间没有显性隐性关系,每对基因对表型的效应都很小,各对基因的作用有积累效应。多基因遗传的特征:1)纯合亲本-F1的表型一般是双亲的中间类型。2)F2个体的表型平均值大体上与F1相近,但变异幅度显著增加。3)含有环境效应。环境因子数目越大,变异越接近正态分布。4)当双亲不是极端类型时,其子女可分离出高于高亲值或低于低亲值的类型,称超亲遗传。基因频率(allele frequency):人群中一个等位基因占该位点全部基因的比例基因型频率(allele

5、frequency):人群中特定基因型占该位点全部基因型的比例基因多态性(polymorphism):一个位点上等位基因频率中最大值不超过95%孟德尔第一定律(独立分离):得到父母2等位基因之一的概率为1/2孟德尔第二定律(自由组合):不同染色体上的等位基因传递独立:PAB|AaBb=PA|Aa PB|Bb 哈代哈代温伯格平衡温伯格平衡:无迁移、选择、突变,群体中的基因频率和基因型频率保持不变。l P(A)=p ,P(B)=q,P(O)=rl全部:(p+q+r)2l(近交系数F一般0.005)遗传漂变遗传漂变:有限群体中,除迁移、选择和突变外,基因库中仅部分个体贡献下一代配子,这种因抽样产生的

6、随机性导致下一代基因频率变化。有效群体:有效群体:群体中生育年龄个体数。有效群体大小:有效群体大小:N=4MF/(M+F)例:达到生育年龄男性50,女性200N=450200/(50+200)=160基因型表现型A型B型AB型O型A/A1000A/B0010A/O1000B/B0100B/O0100O/O0001基因型表 现 型基因型频率A1A2A1BA2BBOa1/a1a1/a2a1/ba1/oa2/a2a2/ba2/ob/bb/oo/o1101000000000010100000100000000000010000000000011000000000010.04410.02940.0252

7、0.27720.00490.00840.09240.00360.07920.4356表现型频率0.3507 0.0973 0.0252 0.0084 0.0828 0.4356 1隐性(recessive)显性(dominant)共显性(codominant)表现型表现型基因型基因型基因型基因型频率率AAAAOP22prBBBBOq22qrOABOOABr22pq交叉交叉(crossover)、互换、互换:减数分裂中同源染色体配对条染色单体之间,一次减数分裂至少一次交叉重组重组(recombination):奇数次互换导致一个重组重组率重组率(recombination fraction):无

8、连锁 连锁L=h2 L=(MSb-MSw)/MSb+(n-1)MSw h2=2L流行资料(prevalence data):根据人群患病率Bp和患者直系亲属患病率Bo计算,h2=2Bpt-X(Bo)/f(t)t=X(Bp),X(y)=-1(1-y),f(t)=(t)分离分析:检验家庭数据的遗传模式。估计分离率,比较与期望分离率的吻合度常染色体显性遗传:单基因,等位基因A/a,A致病,p(A)=p0,各婚配孟德尔:婚配型AAAaaa患病率AA*AA1001AA*Aa 1/21/201AA*aa0101Aa*Aa1/41/23/4Aa*aa01/2aa*aa0010最可能出现的婚配型是Aa*aa,

9、一个子女患病一个不患病信息量最大,通常假定为Aa*aa型,患病子女数X服从二项分布b(n,),欲检验=1/2,计算 2=4ri-n/2 2/n =1 ln:k个家庭子女总数,ri:家庭i患病子女数ln:k个家庭子女总数,ri:家庭i患病子女数l例:乳光齿质症,亲本之一患病,共调查112子女,其中52人患病,2=452-112/2 2/112=0.5714 0.3p0.5l该病可能属常染色体显性遗传(单基因)l常染色体隐性遗传常染色体隐性遗传:单基因,孟德尔分离率=1/4。按最大似然方法估计,再与1/4比较。一般计算复杂,借助计算机程序实现。图距图距x x:位点间的遗传距离,可转换成遗传图谱遗传

10、图谱:已知图距的基因排列 x:x=cM(Morgan)(1cM=1000kb,kb=1000核苷酸对)图距函数图距函数:x与的关系 HaldaneHaldane:x=-0.5ln(1-2)00.5 x=其他 KosambiKosambi:x=0.5tanh-1(2)位点,x2x23 13x13连锁群连锁群:多态性程度多态性程度:1.杂合率杂合率(hiterozygosity)pi2 pi:第i个allele频率 u n/(n-1)ABO基因频率0.28,0.06,0.66 0.282-0.062-0.662=0.48 考虑近交:(1-F)H 一般 F0.005 a个等概:pi2 1-1/a a

11、1/(1-H),例:H=0.9,a102.多态信息量多态信息量PICPIC PIC pi2 2(pi pj)2 ABO基因频率0.28,0.06,0.66 PIC10.282-0.062-0.662-2(0.28 0.06)2-2(0.060.66)2=0.41 对max95%的多态性定义,有:H 0.10,PIC 0.10 突变率 H/(1-H)似然函数似然函数L:观察到手头样本F的概率。对二项分布,p(A)=p,p(a)=1-p,观察到“k/n”(记为F)的概率为:P(p,F)=P(p,n,k)=Cnkp k(1-p)(n-k)例如n=4,k=1,p=0.3,P(p,F)=C41 0.3

12、0.73=0.4116 如果 p=0.4 P(p,F)=C41 0.4 0.63=0.3456 L随F和分布(参数)而变分布常参数化为,似然函数写成L(,F)二项分布,=p,F表示为(n,k)L(,F)=P(p,n,k)=Cnkp k(1-p)(n-k)已知,L(,F)是的函数,“给定下的概率”。的最大似然估计:使L(,F)最大化的.对上述例子(n=4,k=1,二项分布,=p):(p)0.20.30.50.6L(,F)0.4096 0.4116 0.2500 0.1526 MLE的计算:对 L(,F)求解 一般,令 lnL(,F)对上述二项分布例子(n=4,k=1,=p):L(,F)=L(p,

13、F)=Cnkp k(1-p)(n-k)=4p(1-p)3 LnL(p,F)=ln(4)+ln(p)+3ln(1-p)令 lnL(p,F)p=1/p-3/(1-p)=0 1=4p 的MLE为0.25。MLE的单调变换仍是MLE (例如2 2)MLE一般是有偏的 MLE一致(渐近无偏)、渐近正态实例:3例死亡1例,一般病死率57%“疗效好”。1/30.57?l以0.57为真病死率,100个n=3的样本:d/nN样本病例数病死数3/31957572/341123821/33296320/38240合计100300171l总病死率=171/300=57%,但1/3样本有32个,0/3样本8个,共40个

14、,占40%l 样本可能是这40%中之一l 结论有问题l 想证实疗效好(H)l 收集数据 作结论l?结论没有考虑数据对H的支持程度科研工作一般步骤科研工作一般步骤:l 研究者的科学假设H l 进行试验得到样本数据S l 根据S对H的支持程度做出推断假设检验假设检验概率意义的概率意义的“反证法反证法”先设立H的对立假设H0(H记为H1)把H0下的样本空间划分为拒绝域R与接受域A(=AR,AR=)观察样本S:落在A(或R)中?根据S位置进行推断:l 接受H0,当SA;l 拒绝H0,当SR。划分划分A和和R的依据的依据(=AR,AR=)l=p(R|H0);很小,R|H0为小概率事件,如果H0真,一次试

15、验中R|H0一般不会出现l实际实行:S 统计量T,T的分布已知,划分划分l当T为t t检验,=(-,),A=(-t ,t),R=|t|t T()=supL(,F)/supL(0,F)如果H1真,则T()倾向于大。当T()Tc时否定H0,Tc满足:p(T()Tc|H0)=l按切贝雪夫不等式l p(T()Tc|H0)1/Tcl 1/Tcl =p(T()T()|H0)l 上例,T()=2.62144,l P值1/2.62144=0.38147支持函数支持函数:(对数)似然函数。似然方法似然方法:不光是MAX(L(,F)(似然比检验时只考虑H0下似然比的分布),而是直接根据L(,F)推断。区间估计区间

16、估计:,连锁分析一般不做支持区间支持区间:比似然函数曲线最大值小m个单位处画一条横线,其与似然函数曲线的两个交点对应了两个值,它们构成“m单位支持区间”。一般取m=2。BayesBayes定理定理:A,B1,Bn,已知p(A|Bi)和p(Bi),欲计算p(Bi|A)l p(Bi|A)=p(BiA)/p(A)l =p(A|Bi)p(Bi)/p(A|Bi)p(Bi)例例:稀有显性病,致病等位基因频率为p,E1:”患病父/母为纯合子”,E2”杂合子”,n个子女患病(F)条件下,患病父/母为纯(杂)合子的后验概率?lE1的(非条件)概率为p2,E2为2p(1-p),E1的相对概率(前概率)p2/(p2

17、+2p(1-p)=p/(2-p)l欲求后概率p(E1|F)、p(E2|F)E1E2Sum前概率p/(2-p)(2-2p)/(2-p)1F条件概率10.5n联合概率p/(2-p)(1-p)0.5n-1 2-pp+(1-p)0.5n-1 2-p后概率 2n-1p?2n-1p+1-p 1-p?2n-1p+1-p1if n=3 4p?1+3p 1-p?1+3p1基因连锁基因连锁(linkage):同一染色体上两个位点的等位基因一起传递的现象。例如基因型AB|ab,形成AB和ab两种配子。(若交换则形成 Ab和aB称重组体)连锁分析连锁分析:根据家系资料估计,后者可用以分析基因座之间的图距。=0.01

18、1图距或1分摩(cM),一般图距25cM时这种近似线性关系成立。连锁平衡连锁平衡(linkage equilibrium):两个基因座上的等位基因独立。否则称连锁不平衡(disequilibrium)连锁不平衡参数连锁不平衡参数=p(AB)-p(A)p(B)若初始00,n代随机婚配后变为:n=(1-)n 0 当=1/2,很快达到平衡直接法直接法:重组事件k/n,直接用k/n估,可按二项分布计算可信区间。问题:须确知父母基因型,但即使是已知型双杂合体父母,也有时不能明确判断重组。Y Y统计量统计量:重组事件k/n,给定双杂合体父母相后,y=k(n-k)只随而变。=1/2时最大,=0时为0。Y统计

19、量的效力低于最大似然估计。同胞对法同胞对法(Penrose):依同胞两性状异同检验连锁。例:W,T为基因型WW,Ww及TT,Tt的表现型,父母婚配为WTwt,两个子女可能的基因型组合有10种:同胞1同胞2同胞1同胞2WTWTWTwTWtWtWTwtwTwTWtwTwtwtWtwtWTWtwTwtl可归4类,做成四格表如下:l若不连锁,则4个格子里的频数应差不多一样,可按四格表2检验法进行检验。未考虑父母基因型,低效。受累同胞对受累同胞对(ASP)ASP)法法:见后性状2同性状2不同性状1同AB性状1不同CD最大似然法最大似然法:max T()(似然比)l改变0,1/2,找到极大化T()者为ML

20、E。l可信区间:困难,一般计算支持区间(见后)。u u统计量法统计量法:两代家系,仅对松散连锁有效似然分数法似然分数法:LOD(Z(),是似然比T()的常用对数。Z()=log10T()=log10L(,F)/L(0,F)l不一定最大化Z(),而是计算一系列Z()例:腺瘤样息肉,显性遗传(Ff),标记等位基因1或2。祖父是纯合体f2/f2,祖母患病已死,子女患病/未患病祖母疾病基因型Ff,子女标记基因有12/22,祖母标记基因型12。但祖母可能有2相,:F1/f2,:F2/f1。相4个非重组型,相4个重组型。两相按等概处理:lL()=(1-)4/2+4/2=(1-)4+4/2l似然比统计量T(

21、)=L()/L(1/2)=8(1-)4+4l Z()=log108+log10(1-)4+4l 若=0.1,Z()=0.72例:疾病位点等位基因记为1,2和3,标记位点是HLA(等位基因a,b,c,d)或ABO血型(等位基因A,B,O)-个体 表现型 可能的基因型 -父 1/3;a/b I:1a/3b II:1b/3a 母 3/3;c/d 3c/3d 子 3/3;a/c 3a/3c 女 3/3;b/c 3b/3c -父I型下子重组,II型下女重组,似然函数为L()=(1-)/2+(1-)/2=(1-)L(1/2)=1/4 Z()=log4(1-)-个体 表现型 可能的基因型 -父 I:1a/3

22、b II:1b/3a 母 3/3;c/d 3c/3d 子 1/3;a/c 1a/3c 女 1/3;b/c 1b/3c 女 3/3;a/d 3a/3d -父表现型未知,通过其他成员得其可能的基因型。I型下2重组,II型下1重组,似然函数:L()=2(1-)/2+(1-)2/2 =(1-)/2 L(1/2)=1/8 Z()=log4(1-)此3子女信息量与上面2子女同 -个体 表现型 可能的基因型 -父 1/3;O 1o/3o 母 1/3;A I:1a/3o II:1o/3a 子 1/3;O 1o/3o 子 1/3;O 1o/1o 子 3/3;A 3a/3o -因子有O型血,故母亲杂合。I下若1s

23、t子的1o来自母亲则为重组,来自父亲为非重组,II型下反之。给定任意型,其概率为:/2+(1-)/2/2=1/4,是常数,在LOD里消掉,无信息贡献。次子与三子在I型下重组。L()=2/2+(1-)2/2=2+(1-)2/2 Z()=log2+log2+(1-)2 -个体 表现型 可能的基因型 -父 p2:3a/3o 2p(1-p):3a/xo或3o/xa 母 1/1;O 1o/1o 女 1/3;O 3o/1o 子 1/3;A 3a/1o 子 1/3;O 3o/1o -父的ABO基因必是a/o,疾病位点只考虑3,把其他并为“x”。记3的基因频率为p,有3种可能的基因型:1:3/3,此时3个子女

24、基因型出现概率为1/2,条件似然Lc为1/8,无连锁信息。此情形出现的概率为p2。2:3/x,若3a/xo,则长子非重组,其余2子女重组,Lc=2(1-)/8;3o/xa下反之,Lc=(1-)2/8。加总得 Lc=(1-)/16,其概率2p(1-p)。把条件似然按概率加权求和得到:L()=p2/8+p(1-p)(1-)/8 Z(,p)=log4(1-)(1-p)+p/(1+3p)Zmax在=1/2处达到(Zmax=0),其他lod皆为负值。Z(,p)除了随改变而外,还依赖于参数p。多个齐性家系的资料,Z()值可以累加(固定)。一般以表格形式报告连锁分析结果,列是不同的值,行是不同的家系。由于不

25、完全外显、信息缺失、男女重组率不同等原因,Z()一般需通过计算机程序计算。资料如果有偏,似然函数L()会受影响,但似然比统计量T()(因而Z()不受影响,因为分子分母同时受影响而抵消。一般从0以步长0.05变到1/2,计算一系列的Z()值 MortonMorton双位点连锁分析双位点连锁分析l 当 2 Z()21,4.63=13.8渐近p=0.0002 因单尾,渐近p=0.0001l当考虑男女不同,应取3.4为上界,否则p实际上=0.00025。MortonMorton后验后验类错误概率类错误概率lP(H0|s)=P(s|H0)p(H0)/l P(s|H0)p(H0)+P(s|H1)p(H1)

26、l一般认为p(H1)=0.05(在44条染色体中,2基因位于同1条上的概率为0.044),若=0.5,=0.001 3.66%的后验为什么连锁分析里设定的为什么连锁分析里设定的那么小?那么小?为了使Morton后验类错误概率不过大简单假设下的切贝雪夫不等式简单假设下的切贝雪夫不等式p(T()Tc|H0)1/Tc 对广义似然比检验(此时不事先设定,而是估出)仍成立:p(ZmaxZc|H0)10-Zc 例如Zc=3对应的p值上界是0.001。任何观察到的Zmax,对应了一个不超过10-Zmax的经验P值。例如Zmax=4对应的经验p值0.0001,Zmax=1.5的经验p值0.031623。的1-

27、1-单位支持区间单位支持区间:高度为Zmax-1的横线与Z()曲线产生两个交点。若Z()在=0时最大,则下界取0。l4.6Z 21,1个Z()单位乘以4.6就转换为2单位。一个对=0的2检验在2达到4.6时对应了一个0.032的渐近水准。因此,上述支持区间有时被看作渐近置信区间,置信度96.8%。按切贝雪夫不等式 p(ZmaxZc|H0)10Zc,置信度下界为90%。l为了使支持区间一致于检验,仅当Zmax3时才构造3-3-单位支持区间单位支持区间。等量观察数等量观察数 当k/n已知,则k/n=e为的MLE,对e0:lZmax=nlog2+(n-k)log(1-e)+klogel =nlog2

28、+n(1-e)log(1-e)+nelogel =nlog2+(1-e)log(1-e)+elogelZmax=nlog2 当e=0l 解出n:ln=Zmax/log2+(1-e)log(1-e)+elogel 当e0ln=Zmax/log2 当e=0lk=n e例:6家系连锁分析,n=24,k=0,在e=0处得到 Zmax=3.26,等量观察数n=Zmax/log2=3.26/log2=10.83,k=0 实际观察数24 比等量观察数11大,说明未知相与基因型而人为指定时夸大了资料的信息量。简单家系资料的精确检验简单家系资料的精确检验(n家系,m子女)已知相双回交家系,可明确判断重组数k,可

29、计算Zmax,以及结果显著的概率ps(样本空间里那些*的样点概率之和)。对不同值,计算的ps列于表中:当n3,当n=10-15,仅Zmax(0/n)可3,故ps=(1-)n,当n=16-19,仅Zmax(0/n)和Zmax(1/n)可3,故 ps=(1-)n+n(1-)n-1。“n双回交家系,m子女”不同下得到显著性结果的概率*原为nm=10 *原为nm=16Z0=3Z0=2相已知相未知已知未知 n=10m=1*n=16m=1*n=10m=2n=10m=3nm=7n=7m=2n=4m=300.010.050.100.200.300.400.5010.9040.5990.3490.1070.02

30、80.0060.00110.9890.8110.5150.1410.0260.0030.0002610.8190.3690.1370.0210.0040.0010.00110.9660.5720.2020.0150.0010.000080.0000310.9320.6980.4780.2100.0820.0280.00810.8690.4970.2490.0670.0220.0100.00810.8860.5410.2840.0730.0190.0060.004 可见:1。如果以Zmax3(或2)为依据,则不再固定。故有人建议除了报道Zmax,还要报道p值。2。仅当连锁紧密时(=0.01)功效

31、好。多重检验问题:单个检验假阳性概率1,g次独立检验后假阳性概率=1-(1-1)g 1=1-(1-)1/g 1/g,称Bonferroni校正。另一方面,排除掉一部分标记位点增大了剩余标记位点连锁的先验概率。二者抵消以基因组为单位的假阳性概率不用校正。但对复杂性状,无事先假定的疾病位点,须通过检验来发现,不存在增大剩余标记位点连锁先验概率效应,随着标记位点增加,位点间图距缩小(或只是重复检验次数增加)以基因组为单位的假阳性概率也增加。按Bonferroni校正原理,有人提出一个简单公式(Kidd-Ott 1984):记单个检验水准为1,g次检验后水准约为=g1g110-Z(这个Z控制了总水准)

32、110-(Z+log(g)为了控制总水准,取单次检验界值为 Z0=Z+log(g)。例如,当Z=3,做5次检验,可取 Z0=3+log(5)=3.69897 一般可通过模拟(例如SIMULATE程序)来近似总水准。对受累同胞对分析情形,有人对标记位点的不同图距计算了1和Z0:受累同胞对分析,给定相邻标记位点图距和全基因组扫描总水准=0.05时的lod分数界值据Bonferroni校正结果,相邻标记位点图距在8cM以上时大致可视为稀疏(独立)相邻位点距离Lod分数界值 单个检验水准1Bonferroni校正的水准 10cM 5cM 2cM 1cM 0.1cM2.583.063.243.353.6

33、30.0001360.0000880.0000570.0000440.0000220.0460.0590.0930.1390.557家系资料的似然函数家系资料的似然函数:L=p(x1,x2,xm),此处xi表示第i个家系成员的表现型。L条件独立:L=p(x)=gp(x,g)=gp(x|g)p(g)Elston-Stewart算法:逐步计算条件概率L=p(xm-1|gm-1)p(gm-1|.)p(xm|gm)p(gm|.),从家系最底层开始(LINKAGE)Lander-Breen算法:计算量随家系成员数指数增加,随标记位点数线性增加Kruglyak算法:定义遗传向量=(p1,m1,),分量为0

34、/1变量,以及记分函数S(,F),F是观察到的表现型。(GENEHUNTER)最大似然分数最大似然分数Z Zmaxmax FisherFisher信息量信息量I(I()=-d2lnL()/d 2l 必须是的最大似然估计解析解l I()是估计值的近似方差 期望似然分数期望似然分数:在处把每个LOD按发生概率加权求和,得到一条期望LOD曲线,ELOD一般指期望LOD曲线的最大值。(重 组 率)KP(k)0.010 0.0900.1000.110 Zmax0.7290.8900.7800.7660.751 0.9030.243-1.106-0.224-0.188-0.157 0.0740.027-3

35、.101-1.229-1.143-1.065 00.001-5.097-2.234-2.097-1.973 00.2910.4790.4800.479 0.676期望LOD对不同家系有可加性,例如,为使似然分数,需要多少这样的3子女家系?3/0.48=6.23 大约7个。MELOD:期望LOD曲线的最大值 EMLOD:期望最大似然分数E(Zmax),不可加 ELODMELODEMLOD 检验功效:p(ZmaxZc),本例 p(Zmax3)=0,p(Zmax0.5)=0.729,p(Zmax0.05)=0.972对表现型不详的家系资料,ELOD通过模拟来近似。如条件ELOD,目的是在测定标记基因

36、型之前预测:如果测定了标记基因型,大致会得到什么样的Zmax。期望信息量与方差 Fisher信息量I()=-d2lnL()/d2l假设有1个重组,3个非重组事件l LnL()=ln+3ln(1-)最大值在=1/4处。对LnL()求二阶导数得:lI()=LnL()=-1/2+3/(1-)2lI()=LnL()=-1/2+3/(1-)2lI(0.25)=-1/0.252+3/0.752=21.3 此I()是在MLE处计算的。期望信息量是真重组率r的函数I(r)。当结果分c类,每个观察值的期望信息量是:i(r)=cq2(r)/p(r)p(r)是类别发生概率,q(r)是p(r)例如重组与非重组,c=2

37、,p(r)=r,q(r)=1,非重组率p(r)=1-r,q(r)=-1,i(r)=1/r+1/(1-r)=1/r(1-r)ln个子女提供的总期望信息量是I(r)=ni(r)l1/I(r)为MLE的渐近方差。多参数情形下,I(r)取矩阵形式,称信息矩阵按婚配类型计算期望信息量的步骤:1.列出可能的单倍体可能的基因型 合并难以区分的基因型 2.按表现型归组基因型各型概率按 i(r)=cq2(r)/p(r)计算期望信息量。例:A1|B2A1|B2型婚配,共显性。A配子概率为1/2,A2为r/2,A1为(1-r)/2 双亲配子及子女基因型概率归纳如下:-一方父母 另一方父母 -A1 B2 A2 B1

38、(1-r)/2(1-r)/2 r/2 r/2-A1(1-r)/2 A1|A1 A1|B2 A1|A2 A1|B1B2(1-r)/2 B2|A1 B2|B2 B2|A2 B2|B1A2 r/2 A2|A1 A2|B2 A2|A2 A2|B1B1 r/2 B1|A1 B1|B2 B1|A2 B1|B1-实际上只有10种不同的子女基因型 子女基因型及其概率这些基因型确定了9种表现型:基因型概率基因型概率A1|A1(1-r)2A2|A2r2A1|B2(1-r)2A1|B1r(1 r)B2|B2(1-r)2B1|B2r(1 r)A1|A2r(1 r)A2|B1r2A2|B2r(1 r)B1|B1r2 A

39、1|B2A1|B2型婚配子女表现型及其概率型号表现型概率1AA-11(1-r)22 AA-12r(1 r)3AB-12r2+(1-r)24AB-11r(1 r)5AA-22r26AB-22r(1 r)7BB-11r28BB-12r(1 r)9BB-22r(1 r)1 表现型的概率如果相同,它们的LOD分数也相同,对期望信息量的贡献也相同。因此把它们合并归为一类:A1|B2A1|B2婚配归类表现型及其概率类号 型号PQ=PZ()11+9(1-r)2r-1log4(1-)22 2+4+6+82r(1-r)2-4rlog4(1-)35+7r2rlog4243r2+(1-r)22r-1log22+2(

40、1-)2 10总lod=nZ(),加总是对所有表现型类别,n是各类的子女数。一个子女的费歇信息量为:i(r)=1/r(1-r)+4r(1-r)/r2+(1-r)2-2 期望LOD=P(r)*Z(),以r替代,得到:ELOD=(1-r2)log2(1-r)+r(2-r)log(2r)+r2+(1-r)2log2r2+2(1-r)2给定真重组率r,上式提供了已知相双杂交子女的平均连锁信息量。在r=处ELOD=0,而在r=0处达最大值0.45。因此,为了得到3或更大的期望lod,需要3/0.45=6.67,即大约7个子女。多个等位基因情形下的双杂交多个等位基因情形下的双杂交 假定2位点各有4个等位基

41、因:ABCD和1234,考虑婚配A1/B2C3/D4,按上述步骤,每个子女都是双杂合体,有16种可能的不同基因型,它们的概率有3种:(1-r)2、r(1-r)和r2。合并为3类后,类概率为(1-r)2、2r(1-r)和r2。婚配A1/B2C3/D4每个子女能判断出2个重组事件,其Fisher期望信息量为:i(r)=2/r(1-r)ELOD为:ELOD=2rlog(2r)+2(1-r)log2(1-r)l二者都大于A1|B2A1|B2型(2等位基因)婚配子女,因为等位基因数增多了。l当r=0,ELOD=0.601,2-allele型为0.451,二者比值为1.33 对紧密连锁,100例4-all

42、ele子女相当于133例2-allele子女。随着r增大,比值逐渐趋近于2。li(r)比值在r=0时为1,随着r增大,比值逐渐趋近于2。l因此,4-allele子女的信息量大致为2-allele子女的2倍。已知相双回交已知相双回交A1|B2A1|A1 此时k/n已知,i(r)=1/r(1-r)期望lod=rlog(2r)+(1-4)log2(1-r),在r=0处,期望lod=0.30。这种婚配每个子女相当于一个重组事件,故常用作与其他婚配比较的基准。这种父母基因型已知的婚配,n个1子女家庭提供的信息等同于n/2个2子女家庭,也等同于1个n子女家庭提供的信息。两子女的未知两子女的未知相双杂交相双

43、杂交 双杂合体为 I相:A1|B2 或II相:A2|B1,纯合体为A1|A1,假定一个子女为基因型为x=A1|A1,x在I相下是非重组型,II相下是重组型 p(x)=p(x|I)p(I)+p(x|II)p(II)=(1-r)+r=与r无关,对似然函数及LOD没有贡献,其他基因型也如此。故未知相双杂交的一个子女对连锁分析无信息贡献。2子女情形:设x1=x2=A1|A1,对给定相,2子女条件独立p(x1,x2)=p(x1,x2|I)p(I)+p(x1,x2|II)p(II)=(1-r)2+r2 =(1-r)2+r2/8f1 对子女基因型组合 x1=A1|A1,x2=A2|A1p(x1,x2)=p(

44、x1,x2|I)p(I)+p(x1,x2|II)p(II)=(1-r)r+(1-r)r =(1-r)r/4f2 其他所有可能的子女基因型组合概率都是f1(=(1-r)2+r2/8)或f2(=(1-r)r/4):子 女 2子女1A1|A1 B2|A1A2|A1 B1|A1A1|A1 f1f1f2F2B2|A1f1F1f2F2A2|A1 f2f2f1F1B1|A1f2f2f1f1把相同概率的基因型组合归组,得到:类1指在I相下非重组,类2指在I相下重组。可见在亲体相不清楚时子女基因型不独立。这个表的相关系数=(1-2r)2,1-2r称为连锁参数,当r=0,=1,否则0。子女2子女1类1类2 类1(

45、1-r)2+r2/2 r(1-r)1/2 类2r(1-r)(1-r)2+r2/21/2 1/21/21此表可进一步合并,得到2个类别:2子女要么都重组要么都不重组(类别1),以及一个重组一个不重组(类别2)。只要两个位点都处于连锁平衡,两类别的概率就独立于人群等位基因频率。类别概率p导数qZ()类别1(1-r)2+r2-2(1-2r)log22+2(1-)2类别2 2r(1-r)2(1-2r)log4(1-)10每同胞对的期望信息量为i(r)=2(1-2r)2/r(1-r)1-2r(1-r)在无重组的极限情形,此i(r)与已知相双回交2子女的i(r)=2/r(1-r)一样。故在r=0时,未知相

46、并不降低重组率估计值的精度。类别概率p导数qZ()类别1(1-r)2+r2-2(1-2r)log22+2(1-)2类别2 2r(1-r)2(1-2r)log4(1-)10期望LOD=2r(1-r)log4r(1-r)+r2+(1-r)2log2r2+2(1-r)2当r=0,ELOD=0.30,是已知相双回交一个子女的ELOD。未知相导致信息损失一半。已知相2子女的ELOD与未知相2子女ELOD比值R在r=0时为2,即 R(0)=2,R(0.1)=3.32,R(0.2)=5.82,R(0.3)=12.80,R(0.5)=。对n个2子女未知相双回交家系,可直接估计重组率:n个2子女未知相双回交家系

47、,其中类别2(2子女1个重组1个非重组)家系数为k。类别2家系概率为2r(1-r),我们又可写成 2r(1-r)=k/n,求解r,得到:=1-(1-k/n)/2 其近似标准差为 1/ni(r)以代r,得到标准差估计值。受累同胞对受累同胞对(ASP)法法 认为标记基因与疾病基因连锁,故集中考虑患病子女。巧妙地避开了不完全外显(penetrance)问题,但受到拟表现型(thenocopy)干扰。观察子代接受同样标记基因(基因同源,IBD)情况,例如,父母标记基因有4种alleles,二同胞可能的同源基因数有0、1和2,按孟德尔方式,其出现比例为1:2:1。如果紧密连锁,父母可能会把标记基因的一个

48、等位基因和疾病一起传给后代,导致共享IBD数增加。l记共享i个IBD基因的概率为ki,i=0,1,2,资料中观察到的相应比例为i,在无连锁情形,k0=,k1=,k2=。Minmax检验(Whittemore-Tu 1998)l u=1.04476(1.58-2.580 1.871)nli为共享i个IBD基因的比例,n为同胞对总数,uN(0,1),Minmax为最大风险极小化。当0=,1=,u=0。均数均数检验检验(mean test):计数亲体传递的共享IBD基因个数(只有0或1个);例如俩亲体的标记基因型为1/2和3/4,受累同胞对的基因型为1/3和1/4,则亲体“1/2”的分数为1,“3/

49、4”为0。p为传递了1个共享IBD基因的亲体比例,计算 u=(2p 1)n,uN(0,1),当|u|太大,则倾向于认为存在连锁。例如:301个亲体中173个传递了1个共享IBD基因,u=(2*173/3011)301=2.602403 p=0.0046 均数检验对显性性状功效高比例比例检验检验(proportion test):2的期望值在无连锁时是,据此构造检验统计量:u=(4 2 1)(n/3)n为同胞对数。在H0(无连锁)情形下,uN(0,1)。ASP方法与LOD分析 Zmax是ASP方法观察到的共享IBD基因总个数的单调变换,因此,在适当选择界值后,均数检验等价于LOD检验。l薛禾生 (010)13691446315

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!