基于统计方法的结肠癌基因信息提取研究

上传人：痛*** 文档编号：62704583 上传时间：2022-03-15 格式：DOC 页数：22 大小：1.50MB

收藏版权申诉举报下载

第1页 / 共22页

第2页 / 共22页

第3页 / 共22页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《基于统计方法的结肠癌基因信息提取研究》由会员分享，可在线阅读，更多相关《基于统计方法的结肠癌基因信息提取研究（22页珍藏版）》请在装配图网上搜索。

1、基于统计方法的结肠癌基因信息提取研究作者：日期：2 个人收集整理勿做商业用途基于统计方法的结肠癌基因信息提取研究内蒙古财经学院王立勇、张志红、李慧燕摘要本文主要采用了修正的信噪比、基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析，利用统计学的相关知识更加精确有效地提取致病基因.旨在对于提取基因图谱信息方法的改进，找到可以能够对样本分类信息量进行更有效估计的方法采用基于密度的祛噪声方法进行噪声祛除,并使用噪声云图对祛噪前后的效果进行了直观描述，表明可以有效祛除噪声。并利用聚类分析和判别分析统计的方法，最终确定了与结肠

2、癌有关的8个信息基因。关键词:修正的信噪比；祛噪声；统计检验。目录一、引言4（1)研究背景和选题意义4（2）国内外研究现状4（3）研究思路6二、基因图谱信息提取的实证研究62.1问题分析62。2数据的正态性研究72。3基因序列的初步提取102.4统计检验122。5噪声处理132。6肿瘤基因的确定17三、结论及分析18参考文献20一、引言(1）研究背景和选题意义结肠癌是胃肠道常见的恶性肿瘤，仅次于胃癌、食管癌.癌肿部位最常发生于直肠和乙状结肠，约占77。8，其次为盲肠及升结肠，再次为降结肠、肝曲及脾曲。结肠癌生长较慢，转移较晚.手术切除仍然是目前结肠癌治疗的主要治疗方法，并可辅以化疗，免疫治

3、疗、中药以及其它支持治疗。结肠恶变是常见的恶性恶变之一，以40岁50岁年龄组发病率最高.据世界流行病学调查，发现结肠恶变在北美、西欧、澳大利亚、新西兰等地的发病率最高,居内脏种瘤前二位,但在亚、非、拉美等地发病率则很低.我国的发病率与死亡率低于胃恶变,食管恶变、肺恶变等常见恶性恶变。本文为互联网收集，请勿用作商业用途文档为个人收集整理，来源于网络随着人民生活水平的提高,饮食结构的改变，其发病率呈逐年上各趋势.中国和日本人的大肠恶变发病率明显低于美国,但移民到美国的第一代即可见到大肠恶变发病率上升，第二代基本接近美国人的发病率。从流行病学的观点看，结肠恶变的发病和环境、生活习惯、尤其是饮食方式

4、有关. 慢性大肠炎症，如溃疡性结肠炎的肠恶变发生率高于一般人群,炎症的增生性病变的发展过程中，常可形成息肉，进一步发展为肠恶变；克隆氏（Crohn）病时,有结肠、直肠受累者可引起恶变变。血吸虫流行区和非流行区的结肠恶变发病率与死亡率有明显区别，过去认为慢性血吸虫病患者，因肠壁血吸虫卵沉积与毒素刺激,导致大肠粘膜慢性溃疡,炎性息肉等，进而引起恶变变。这个观点一直在争论, 据浙江省嘉善县血吸虫病日渐控制，新发病例明显减少，晚期病人趋于消失，而结肠恶变的发病率仍很高。就目前形势看,国内外学者对有关致癌基因提取的研究各抒己见，分别采用不同的理论基础以及技术手段对其进行了研究分析，仁者见仁,智者见智

5、,但是尚未形成统一的结论，而且在医学领域中尚有许多有待改进的地方，因此，需要对基因信息的提取进行更进一步的研究。由于基因数量繁多,要在如此众多的属性中选出一组对分类而言最为有效的属性，即样本的分类因素，同时又兼顾计算复杂度是很困难的。由于肿瘤分型在诊断和治疗中的重要作用,研究人员一直在寻找获得更加准确、精细的肿瘤分型方法。为了更加方便研究、治疗肿瘤等基因疾病，我们针对基因提取这一课题展开了研究分析.（2）国内外研究现状据世界流行病学调查发现，结肠癌在北美、西欧、澳大利亚、新西兰等地的发病率最高,居内脏肿瘤前两位,但在亚、非、拉美等地发病率则很低。近几年各地资料显示随着人民生活水平的提高，饮食结

6、构的改变,其在我国的发病率呈逐年上升之势。以前结肠癌在国内并不引人注意,但如今在某些经济发展快的城市中,结肠癌发病率的上升非常明显。从正式公布的数据来看,已从原来的第六位上升到第三或第四位（与肝癌不相上下）.肿瘤是一类复杂的基因疾病。由于癌细胞是克隆性的，基因的改变限于癌细胞中,而在正常组织中不存在。因此，从研究肿瘤和对应正常组织的基因表达谱出发,借助分类特征选取技术,就有可能从中发现肿瘤组织中普遍特异表达的基因,并对其在不同肿瘤组织中的表达行为进行分析。基于肿瘤基因表达谱，利用生物信息学的方法,从肿瘤与正常组织的样本分类入手就肿瘤特异表达基因的发现及其表达模式问题进行了分析和研究,进而探讨了

7、肿瘤在基因表达上的特点.在分析肿瘤基因表达谱特点的基础上，提出了基于 Relief 算法的样本分类特征基因选取策略；以支持向量机为分类工具进行样本类型的识别,以分类错误率为标准选取样本分类特征基因，并对其中反映肿瘤与正常样本组织构成特点的组织特异表达基因进行排除以突出肿瘤样本真实的类别特征;最后结合统计学方法，从信息学的角度论证了分类特征基因在肿瘤组织中特异表达的确实性和普遍性，并对这些基因在肿瘤组织中呈现出的特异的表达模式进行了分析（阮晓钢，李颖新，李建更,龚道雄，王金莲，2006)1。在分析基因表达谱数据特性的基础上，李泽提出了一个将之用于肿瘤分子分型和选取相应亚型特征基因的策略。采用

8、一个无监督的基因过滤算法以降低用于分型计算的数据的噪声,提出了一个概率模型对样本中的分类结构进行建模,基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因，应用该策略对两个公开发表的数据集进行了再挖掘，具有明显的优越性(李泽，包雷，黄英武,孙之荣，2002）2。本文为互联网收集，请勿用作商业用途个人收集整理，勿做商业用途目前，各学者对基因的研究具有不同的方法。基于基因表达谱结构提出一种基因表达谱的样本分类方法。用基因的Bhattacharyya距离衡量其所含样本类别的信息，过滤Bhattacharyya距离较小的噪声基因；然后修改重复剪辑近邻算法，剔除噪声样本；再基于Boostin

9、g算法构建支持向量机组合分类器;最后以结肠癌基因表达谱样本为例,进行分类实验（刘全金，李颖新,2008）3。汪伟于2010年提出了基于遗传算法支持向量机的特征基因选择，从结果可以看出通过遗传算法降维可以提高支持向量机的分类准确率，特别是剔除了数据中的大量无关基因和噪声,使得经过特征选择后分类准确率提高。结果显示遗传算法与支持向量机结合方法对分类更加有效。此外,通过分析结果显示特征基因的主要功能体现在信号传导和氨基酸代谢上(汪伟，刘红，2010）4。基于最小二乘模糊支持向量机的基因分类方法。该方法融合了最小二乘支持向量机与模糊技术两者的优点，它既有支持向量机的泛化能力强、全局最优等优点，又有

10、模糊技术的不依赖被控对象模型、鲁棒性强等优点。在模糊隶属度设计过程中 ,充分地考虑了样本与类中心以及样本与样本之间的关系 ,很好地减小了噪声或野值样本对分类的影响（骆嘉伟 , 苏涵沐，陈涛,2010）5.基于支持向量机的灵敏度分析方法选取结肠癌特征基因.用支持向量机分析基因对分类决策函数的灵敏度.递归去除灵敏度较低的若干基因,得到一组候选特征基因子集；以支持向量机为分类工具。检验候选特征基因子集对样本分类的贡献。选取具有最佳分类能力的候选特征基因子集作为结肠癌特征基因子集通过实验比较该特征基因子集的分类能力优于文献给出的其他特征基因子集,表明了该方法的可行性和有效性(刘全金，李颖新，阮晓

11、钢，2007）6。文档为个人收集整理，来源于网络本文为互联网收集，请勿用作商业用途相对而言,从癌症的研究状况来看,对致病基因提取的研究具有迫切性和现实意义的。因此，本文采用了修正的信噪比 Bhattacharyya 距离基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。通过对治疗结肠癌新途径中基因疗法中的致病基因提取研究分析，利用统计学的相关知识更加精确有效地提取致病基因.（3）研究思路本文通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析，利用统计学的相关知识更加精确有效地提取致病基因。旨在对于提取基因图谱信息方法的改进，找到可以能够对样本分类信息量进行更有效估计的方法。

12、通过信噪比的改进、密度去噪声方法、非参数检验和判别分析相结合的方法，找到8组携带致病信息的基因。通过对比、比较运用更加有效的方式准确提取结肠癌致病基因。二基因图谱信息提取的实证研究符号说明符号符号说明d信噪比B基因Bhattacharyya 距离CK吸附计数器sj任取一种子N总体数量n样本容量标准差显著性水平2。1问题分析本文的分析对象是结肠癌数据集,可从相关网站7下载得到.该数据集包含了62个样本，其中22个为正常样本（normal）,40个为肿瘤样本（tumor）,每个样本包含有2 000个基因，这2000个基因是Alon等根据一定的准则从原始数据6 500个基因中挑选出来的具有代表性的

13、基因。由于原始样本集中的每个样本都是以2000个基因测量值来表征的，要在如此众多的属性中选出一组对分类而言最为有效的属性，即样本的分类因素，同时又兼顾计算复杂度，可以采用对每个基因包含的样本分类信息量进行有效估计的方法进行。因此，如何衡量每个属性包含的样本分类信息量，准确估计该属性对样本分类的贡献程度就成为有效选择分类特征的关键.选取样本分类特征的一个基本思想是考察样本类别在每个属性上的可分性，而可分性的计算又可以通过考察该属性在同类别样本上的相似性(类内距离）以及该属性在不同类别样本间的差异性（类间距离）来进行计算。不同的样本总体分布形态会带来不同的样本指标间关系的差异性,因此为了更好的对数

14、据进行研究，从总体上把握数据的分布状况，需要研究总体的分布情况.对数据进行分布形态分析。由于给定数据样本有两千组，若对全体的基因进行分析，势必会造成分析问题的复杂性和时间的延误.为了兼顾研究的科学性、考虑时间的紧迫性，本文通过统计抽样的办法,从总体中抽出的可以代表总体信息的适当数目的样本进行研究,以样本信息反映总体情况。本文采用的方法为等距抽样，该抽样方法应先确定适宜的样本个数。本文采用的是假定数据服从正态分布的前提下的样本抽样,采用的抽样公式为: n= (1）其中,n为所需样本大小；Ua为双侧检验中，a时U的界值，s为总体标准差，为容许的误差。本文选取0。05的显著性水平，U0。05=1.9

15、6；样本总数为2000；样本标准差为11.8438，给定允许的误差范围为0。05。通过公式(1）计算结果如下：n=(1。96*11。8438/0.05) =197。3967由于样本抽取必须为整数，197。3967在理论上无法实现，因此,选取的适宜的样本数目为198个。确定样本数目之后，采用公式（2）计算样本间隔.抽样间隔 (2）依据公式（2），确定的抽样间隔为2000197.3967=10.13188，因此，选取10为抽样间隔.先通过随机选取，从110中随机选取随机数3,依此可以确定本文抽出的数据为3、13、23、33、43。1993，共抽取样本数目为200。2。2数据的正态性研究急性白血病基

16、因表达谱数据集共含有72个急性白血病样本，每个样本均含7 129个基因的表达数据。其中47个样本被诊断为急性成淋巴细胞白血病(acute lymphoblastic leukemia,ALL）,25个被诊断为急性骨髓性白血病（acutemyeloid leukemia，AML）.本文在此基础上分析结肠癌的基因表达水平，目的在于寻找出含有病变信息的基因序列.共有2000组数据，分别按照normal组和cancer组进行分类,normal组22人、cancer组38人。由于在正态分布中有左偏分布、对成分布和右偏分布的差异，且每个不同的分布都有各自的分布特征，因此，在研究之前应该先研究总体的分布情况

17、,即需要研究这2000个数据的正态性。将2000组数据分别按照normal组和cancer组，分别计算其偏度，这里以第13组为例进行说明.为了研究每个基因的正态分布特征，做出正态检验QQ图.图1 gene13normal组的正态检验QQ图从图1看出第13组数据22个normal数据的QQ图基本接近于正态分布，但是还是有部分点偏离直线较远，存在误差的可能。再通过直方图的分布进一步验证其正态性.图2 gene13normal组的正态检验直方图图2表明，其图形没有明显规则,显著异于正态分布。其偏度值为0。435623。因此，第13组数据22个normal数据服从右偏分布.图3 gene13cance

18、r组的正态检验QQ图图3表明，第13组基因中40个cancer组数据的QQ图基本接近于正态分布，但是在最左端和最右端部分值偏离较远，且多数分布在直线的左端,存在左偏的的可能。再通过直方图的分布进一步验证其正态性.图4 gene13cancer组的正态检验直方图从图4可以看到，其图形也没有明显规则，但明显侧重于右半部分,显著异于正态分布，有左偏的倾向.其偏度值为0.388767，因此，第13组数据40个cancer数据服从左偏分布。以对第13组基因的处理为例，处理200个组中的其他组，判断其正态性。本文依据抽取的200个样本的检验结果来看，normal组中有20个样本右偏分布,169个样本左偏分

19、布。而在cancer组中有74个样本右偏分布，116个样本左偏分布。鉴于这种情况，本文对于选择均值作为判断指标做出一定的改进。以下为几种偏态分布的均值、中位数、众数的关系图。图5 均值、中位数、众数的关系图图5说明,对于对称正态分布，其均值、中位数、众数是等同的，三者没有大小的关系区分。但是在左偏分布中，均值小于中位数；而在右偏分布中，均值大于中位数。鉴于这种情况,若仍旧选取均值作为衡量标准,就会出现偏差。为此,首先想到的是对于均值进行偏度上的矫正，使其更好的代表真实情况.但是复杂之处在于从抽样抽取出来的200个样本来看，多数样本服从左偏分布,也有部分服从右偏分布；有极个别近似对称分布。在这种

20、情况下，选取中位数作为均值的替代，具有更强的代表性和说服力.2.3基因序列的初步提取由于基因数量很大，在判断肿瘤基因标签过程中，存在“大量无关信息，由于在基因表达谱中一些基因的表达水平在所有样本中都非常接近，这些基因没有对样本类型的判断提供有效信息，反而增加了计算的复杂性，因此对这些“无关信息必须予以剔除。在衡量基因含有样本分类信息多少的度量问题上,本文仍采用“信噪比”8的方法进行研究，即: （3）其中: d为基因的信噪比,1、2分别为该基因在normal和cancer中表达水平的均值，1、2为其表达水平的标准差.依据式(3），若某一基因在normal和cancer两个类别中的分布均值相同，

21、则其信噪比d =0 ，该基因将被作为无关基因而被剔除。为了找出用均值和用中位数计算信噪比之间的差异，本文同时用两种方法计算信噪比，以便分析两种方法的优劣。计算结果如下：表1 均值、中位数“信噪比比较关系表均值计算的信噪比中位数计算的信噪比d06231090D0,为无影响,若D0，为有影响。依据该判别公式（9），对23组基因分别进行计算,计算结果见表3：表3 23组基因判别结果表基因序列得分基因序列得分基因序列得分gene625。278709gene 6820.418572gene 14871.6916gene723。915549gene 7650.925791gene 15672.23302g

22、ene 1273。216694gene 8451。267526gene 1668-2。96764gene 3601。74617gene 8531.346227gene 1672-2.10474gene 3652.019087gene 1039-1。36916gene 17971。88103gene 3990.106153gene 10670。31037gene 18923。13184gene 4530.12744gene 1328-1。4103gene 1920-3.05953gene 6521.875243gene 13812。42002依据判别公式的计算结果,可以断定出含有致病信息的基因为

23、gene453、gene 1039、gene 1328、gene 1381、gene 1487、gene 1567、gene 1668、gene 1672、gene 1797、gene 1892、gene 1920，共11组。用聚类分析的结果和判别分析的结果对比分析，gene1039、gene1328、gene1381、gene1487、gene1668、gene1672、gene1797、gene1920为两种方法所选取的共同基因。对这八组基因的描述,见表4:表4 特征基因集合中信息最大的8个特征基因的说明及描述表gene numberIC gene descriptionL24203gen

24、eHomo sapiens ataxia-telangiectasia group D-associated protein mRNA， complete cds.R392093 UTRHUMAN IMMUNODEFICIENCY VIRUS TYPE I ENHANCER-BINDING PROTEIN 2 （Homo sapiens)R392093 UTRHUMAN IMMUNODEFICIENCY VIRUS TYPE I ENHANCERBINDING PROTEIN 2 (Homo sapiens)M82919geneHuman gamma amino butyric acid （G

25、ABAA） receptor beta-3 subunit mRNA,complete cds.D42047geneHuman mRNA for ORF (mouse glycerophosphate dehydrogenaserelated),partial cds.L25941geneHomo sapiens integral nuclear envelope inner membrane protein （LBR） gene.L13738geneHuman activated p21cdc42Hs kinase （ack) mRNA, complete cds。J04102geneHum

26、an erythroblastosis virus oncogene homolog 2 (ets-2） mRNA， complete cds。三、结论及分析在癌症的研究中，致病基因是通过基因测量值来表征的，由于基因数量繁多,要在如此众多的属性中选出一组对分类而言最为有效的属性，即样本的分类因素，同时又兼顾计算复杂度是很困难的。本文旨在对于提取基因图谱信息方法的改进，找到可以能够对样本分类信息量进行更有效估计的方法。本文通过信噪比的改进、密度去噪声方法、非参数检验和判别分析相结合的方法，找到8组携带致病信息的基因，在信息分类的过程中，我们可以得到如下结论:（1）从抽取的样本来看，normal组

27、中有20个样本右偏分布，169个样本左偏分布；而在cancer组中有74个样本右偏分布，116个样本左偏分布。在偏态分布的情况下,中位数的代表性优于均值,通过使用中位数计算的“信噪比”可以更加准确地反映真实情况。(2）利用中位数和均值分别计算Bhattacharyya 距离并对原始基因数据进行初步分类，找到的信息基因的个数为157个。因此，使用中位数的方法可以更加有效、快速地从大量基因信息中筛选出“信息基因”，剔除“无关基因”。（3）由于本文的数据基本都不是服从对称的正态分布的,而且部分数据左偏,部分数据右偏。鉴于此，本文采用了一种基于密度的去噪声方法,并在该方法的基础上进行了改进，引入了“

28、噪声识别云图的概念”。该方法摒除了传统方法的缺陷，不依赖于数据服从某一特定分布的假设，能够对服从多个相异分布的数据进行有效的去噪声处理.对筛选出来的102个基因进行去噪声处理后,效果明显。(4）在最终对“信息基因”的筛选过程中，本文采用了判别分析相的方法。该方法避免了使用单一方法的局限性，不仅从整体上对类别进行了划分；同时，从个体上对每一个基因进行了类别的归属分析，最终确定了与结肠癌有关的8个信息基因。（5)由于基因序列的分布以及密度函数不能够确定，因此，采用了非参数检验的方法来进行检验.由此也表明，在许多不能确定的场合，非参数检验比参数检验有更大的优势。参考文献:1阮晓钢，李颖新,李建更,龚

29、道雄,王金莲，基于基因表达谱的肿瘤特异基因表达模式研究，中国科学 C 辑，生命科学 2006.2 李泽,包雷，黄英武等,基于基因表达谱的肿瘤分型和特征基因的选取,生物物理学报,第18卷第4期,413页417页,2002.3 刘全金，李颖新,Boosting算法在基因表达谱样本分类中的应用,2008。4汪伟,刘红,基于遗传算法与支持向量机的基因微阵列分析,中国组织工程研究与临床康复,第14卷,第17期,20100423出版。5 骆嘉伟,苏涵沐，陈涛，基于最小二乘模糊支持向量机的基因分类研究,第 27卷第2期，2010年2月。6 刘全金,李颖新,阮晓钢,基于sVM的灵敏度分析方法选取肿瘤特征基因，北京工业大学学报,第33卷第9期,2007年9月.7http:/microarray.Prince fon。edu/o ncology/affydata/in2.de x.h tm .l8T。R。Golub,et al,Monitoringand Class Prediction by Gene ExpressionMolecular Classification of Cancer：Class Discovery, DOI：10.1126/science.286。5439.531Science286,531(1999).20

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

基于统计方法的结肠癌基因信息提取研究

最新文档

相关资源

相关搜索