基于基因表达谱的肿瘤识别方法的研究

上传人:仙*** 文档编号:28821519 上传时间:2021-09-14 格式:DOC 页数:32 大小:2.90MB
收藏 版权申诉 举报 下载
基于基因表达谱的肿瘤识别方法的研究_第1页
第1页 / 共32页
基于基因表达谱的肿瘤识别方法的研究_第2页
第2页 / 共32页
基于基因表达谱的肿瘤识别方法的研究_第3页
第3页 / 共32页
资源描述:

《基于基因表达谱的肿瘤识别方法的研究》由会员分享,可在线阅读,更多相关《基于基因表达谱的肿瘤识别方法的研究(32页珍藏版)》请在装配图网上搜索。

1、全国第七届研究生数学建模竞赛题 目 基于基因表达谱的肿瘤识别方法的研究摘 要:本文基于基因表达谱讨论了肿瘤识别方法的问题。首先建立分类数学模型对样本分类识别:即在对原始数据进行处理的基础上,利用主成分分析的方法进行降维处理;并将提取的主成分数据输入支持向量机模型训练学习,从而实现对样本的有效分类。其中模型对样本正确分类识别率接近90%,并且对模型进行敏感性和稳定性检验测试。其次,通过Relief算法对基因进行排序和筛选,在此基础上运用留一交叉检验法确定了一组“基因标签”,并利用随机重复试验检验了“基因标签”的样本分类能力。在上述模型运算分析结果的基础上分析了影响肿瘤识别效果的噪声来源,对数据中

2、存在的噪声样本和重复数据进行降噪,建立了噪声模型,进而得到了一组新的基因“标签”,从而使肿瘤识别精度提高到了92.65%;最后融入临床生物学信息,综合运用支持向量机等数学理论建立了肿瘤诊断识别的数学模型,肿瘤识别率提高到了99.8%。关键词:基因表达谱 肿瘤 支持向量机 主成分分析 Relief算法参赛密码 (由组委会填写) 参赛队号 10224003 队员姓名 杨振华 刘爱兰 邢秉昆 中山大学承办一、问题重述癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布。所以探讨基因分布的改变与癌症发生之间的关系具有

3、深远的意义。从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”取出“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。下面我们参考基因表达谱及肿瘤识别问题方面的研究成果,利用附件所给数据并结合相关资料,就提取基因图谱信息方法研究如下问题:1、由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据,如何从上述观点出发,选择最好的分类因素?2、相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何

4、减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”?3、基因表达谱中不可避免地含有噪声(见1999 年Golub在Science发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。比如临床有下面的生理学信息:大约90%结肠癌在早期有5号染色体长臂APC基因的失活,而只有40

5、%50%的ras相关基因突变。二、问题分析2.1寻找与肿瘤相关的突变基因的分类因素我们认为“分类因素” 可理解为由基因的某种组合得到的潜在因素。针对这一问题,我们设计了一种有效的算法作为样本分类识别的依据。具体内容如下:首先利用修正后的信噪比公式对原始数据中的无关基因进行剔除,同时对保留下来的基因进行主成分分析,既可以实现有效的降维,同时便于计算;然后引入支持向量机分类器,对提取的主成分进行学习训练,得到基于支持向量机的分类模型。在此基础上,我们对算法进行了敏感性检验和稳定性检验。2.2从分类的角度确定基因“标签”相对于基因个数来说62个样本非常小,如果直接用于分类会造成小样本的学习问题。我们

6、用Relief算法为每个基因赋予一个权重,然后设定相应的阈值,高于这个阈值的基因被留下;然后用留一交叉检验法来检验我们设定的阈值的合理性,通过检验不断地调整阈值,最终确定哪些基因被留下,而这些基因便是我们分类所依据的基因“标签”。2.3基因表达谱中噪声模型的建立基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息会产生偏差。为了解决这个问题,我们分析发现Genbank Acc name中含有存在重复数据的基因,运用方差分析来对这种基因的normal样本和cancer样本分别进行显著性检验,发现该种基因在同类样本间存在显著差异,进而推断其显著性差异并不直接作用于样本的分类,应予以剔除。

7、同时,在对第二问中得到的“基因标签”的检验过程中,发现来源于样本的噪声,故对这些样本进行去噪处理。最后,应用第二问的模型对去噪后的数据重新进行运算,得到新的“基因标签”并对其进行检验。2.4融入临床信息的诊断肿瘤确定基因标签的数学模型的建立在确定某种肿瘤的基因标签时如能融入与临床问题相关的主要生理学信息,也许可以纠正现有研究中基因低水平表达、差异不大的表达被忽略的倾向。我们利用问题三中经过降噪处理后的样本数据,利用最终筛选出的基因标签和所给数据中的APC基因和ras相关基因建立数学模型,希望能进一步提高肿瘤识别的正确率。三、模型假设及符号说明3.1模型假设1、假设统计数据真实可靠,没有实验室误

8、差。2、假设样本具有普遍性,此样本对分类效果没有特别影响。3、假设与一种肿瘤相关的突变基因数目很少。3.2符号说明-分类特征基因集合-算法筛选出的基因数-Relief算法中的阈值四、模型的建立与解答由样本数据可知,有些基因的标号相同(即属于同一种基因),故取这些基因表达水平的均值,合并为一种基因。问题一:寻找与肿瘤相关的突变基因的分类因素由于基因表示之间存在着很强的相关性,且相对于较少的样本数而言,过多的基因数既无益于样本类型的判定,也会对以后统计方法的使用产生不良影响。因此,在分析样本之前需要对基因进行筛选。本文引入修正后的信噪比公式作为筛选依据来衡量基因表达差异的显著程度;然后利用主成分分

9、析将相关性显著的基因组合成具有某种特征的基因组合来降低维数,进而利用支持向量机进行训练学习来寻找识别肿瘤的最好的分类因素。4.1.1算法流程图我们基于各种方法寻找与肿瘤相关的突变基因的分类因素的算法过程如图1所示:样本数据标准化预处理训练集测试集基因筛选和降维处理癌症识别训练好的SVM分类器SVM的训练训练是否已结束是否图1:算法流程图4.1.2基因筛选1、修正后的信噪比公式1,式中,和,分别是第个基因在正常人和癌症患者两类样本中的均值和均方差。其中,公式的第一部分来源于Golub等人提出的“信噪比”指标,后一部分体现了表达水平分布方差的不同对样本分类的贡献。2、筛选结果利用修正后的信噪比公式

10、将每个基因赋以相应的权重,根据实验设定相应的阈值,之后从中初步筛选出可能与肿瘤相关的基因。由于目前仍没有关于使用多少基因来构造分类器这一问题的最优答案,故我们根据修正后的信噪比计算公式分别筛选出M为25个、50个、100个、200个基因来构造分类器。4.1.3降维处理1、主成分分析的基本思想主成分分析(PCA)的目的是为了降维,即设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标。这些转化生成的综合指标称作主成分,其中每个主成分都是原始变量的线性组合,体现原有变量的综合效果,且各个主成分之间互不相关,从而在进行定量分析的过程中涉及的变量较少,而得到的信息量较多2。2、主成分

11、分析的实现我们利用修正后的信噪比公式筛选出的基因在Matlab中进行主成分分析。根据修正后的信噪比计算公式分别筛选出的25个、50个、100个、200个基因对附录中62个样本数据进行主成分分析,结果如表1所示:表1:主成分分析的结果M选取主成分个数累计贡献率25389.80%50486.16%100587.26%200585.46%其中,M为筛选出的基因数4.1.4支持向量机111.支持向量机的基本思想 支持向量机(SVM,Support Vector Machine)是由Vapnik首先提出的,可用于模式分类和非线性回归。支持向量机的主要思想是建立一个分类超平面作为决策曲面,使得正例和反例之

12、间的隔离边缘被最大化。支持向量机算法旨在改善传统神经网络学习方法的理论弱点,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的泛化能力。3,42、支持向量机的数学模型在分类问题中,支持向量机分类效果主要受核函数的选择以及参数的选择的影响。支持向量机常用的核函数有线性、多项式核函数、径向基核函数、S形核函数。考虑到径向基核函数可以实现非线性分类同时其只有一个控制参数,而其它核函数均有比径向基核函数更多的核参数。综合考虑,本文选择径向基函数作为核函数4,其表达形式如下:其中是径向基核函数的参数,下文用来表示。关于SVM参数的优化选取,目前常用的方法就是让惩罚参数和核参数在一

13、定的范围内取值,对于取定的和把训练集作为原始数据集利用Kfold Cross Validation (KCV)方法得到在此组和下训练集验证分类准确率,最终取使得训练集验证分类准确率最高的那组和作为最佳的参数,当有多组和对应于最高验证分类准确率时,这里采用的手段是选取能够达到最高验证分类准确率中参数最小的那组和作为最佳参数。这样做的原因是:过高的会导致过学习状态,即训练集分类准确率很高而测试集分类准确率很低(分类器泛化能力降低),所以在能够达到最高验证分类准确率中的所有的成对的和中认为较小的惩罚参数是更佳的选择对象。4.1.5寻求分类因素算法的Matlab实现本文中将上一步选取的相应主成分作为支

14、持向量机模型的输入,以径向基函数作为核函数,样本的类别作为输出,以Kfold Cross Validation (KCV)计算最佳参数和,构建支持向量机训练模型。样本数据SVM样本类别图2:分类因素算法图以下给出参数优化过程中参数和和准确率的等高线图和3D图,能更直观的看到和组合对准确率的影响,如图3所示: 图3:参数寻优等高线图及3D图4.1.6算法的检验91、算法对参数选择的敏感性分析参数敏感性分析的目的在于检验分析过程中选择不同的M是否会对算法的判定效果产生较大影响。故采用随机重复的方法:将62个样本数据随机分成42个样本的训练集(15 normal,27 cancer)和20个样本的测

15、试集(7 normal,13 cancer),运用上述算法对测试集进行分类,重复100次并计算平均正确识别个数。表2:分类因素算法对随机测试集的平均正确识别个数M2550100200平均正确识别个数平均正确识别率(%)18.0190.0517.8589.2517.4087.0017.5587.75在M分别为25、50、100、200时,采用该算法对样本数据随机测试集的平均正确识别个数在17.4018.01个之间,这表明该算法的识别效果较为稳定,不因M的变化而发生剧烈波动,即当参数M为25、50、100、200时,该算法对M并不敏感。2、算法稳定性分析算法的稳定性主要体现在对不同的训练集和测试集

16、,最终的预测结果没有产生较大波动。据此,同样采用随机重复的方法,将62个样本数据随机分成42个样本的训练集(15 normal,27 cancer)和20个样本的测试集(7 normal,13 cancer),运用上述算法对测试集进行分类并重复100次。改算法对随机划分的样本数据的分类结果如图4所示:M=25M=200M=100M=50图4:分类因素算法对随机划分的样本数据的分类结果从分类识别的结果看,该算法对含有20个样本的测试集的正确识别个数主要集中在1719个样本之间,其预测结果总体上比较稳定,并没有因为训练集的变化而使最终预测结果产生剧烈波动。结论一:从以上分析与检验可以看出,我们采用

17、的以主成分分析构造的分类因素对样本是正常还是癌变具有很好的识别效果,其识别率均达到90%左右;并且此寻找分类因素的算法对参数的选择并不敏感,具有非常好的稳定性。问题二:从分类的角度确定“基因标签”从分类的角度来说,我们的目的是在众多基因中找出决定样本类别的一组基因作为分类特征基因。由于与一种肿瘤直接相关的突变基因数目很少,故只有少数基因与样本类别相关,且大部分基因将被视作无关基因而剔除。4.2.1分类特征基因的选取1、Relif算法的基本思想Relief算法是一种属性重要性排序的机器学习算法,其基本思想是以属性区分相似样本的能力来作为评估属性重要程度的标准,并据此给出属性的分类权重(具体原理见

18、参考文献810)。Relief算法通过求取分类特征的属性分类权重,来选取具有最大分类权重的一组属性作为决定样本分类的特征基因。所以基因的分类权重越大,其含有的样本分类信息越多,对样本的分类能力就越强。5,6,72、基因的排序根据Relief算法,本文计算出每个基因的分类权重。如图5给出了基因分类权重的分布情况:图5:基因分类权重的分布图由上图可知各基因的分类权重,按照从大到小的顺序进行排序,从而得到有序基因组合,即,满足:,且。4.2.2确定“基因标签”1、留一交叉检验法(LOOCV)8留一交叉检验法是交叉检验方法的扩展,用来进行样本类型的识别,基本思想是在测试集上每次保留一个不同的样本作为测

19、试样本,其余样本作为SVM的训练样本,不断重复这个过程,直到所有训练样本都被测试了一次为止。将所有被错误分类的样本数作为该方法的分类错误数。2、“基因标签”的确定我们运用留一交叉检验法(LOOCV)来对基因组合中的基因进行分类能力检验,以期进一步缩小具有分类特征基因(“基因标签”)的范围。(1)由于基因的分类权重越大,其对样本的分类能力也就越强,因此我们设定阈值,按照从大到小的顺序选取基因组合中分类权重最大的53个基因开始研究其分类能力。在这里我们定义53个基因组合,其中初始时刻为,将中的基因作为分类特征基因,其值作为SVM模型的输入,记录其对训练样本的分类误差。(2)接下来将中分类权重最小的

20、基因剔除,利用中的基因作为SVM模型的输入研究其分类能力。如此循环下去,选取分类权重最大的个基因,得到分类特征基因组合用于分类,从而得到了有关于基因组合,与其分类误差的关系曲线(如图6)。由该曲线不仅可以得到不同基因组合的分类能力,而且也能看出分类能力随基因个数的变化而变化的趋势。根据错误分类个数最小原则,确定出一个最佳分类基因组合(“基因标签”)。010203040506056789101112基因个数错误分类个数图6:分类误差曲线图由上图可知,基因个数介于1235之间的分类基因组合的错误分类个数最少,但对于基因个数大于35的组合来说,其走势并不稳定,错误分类个数随着基因个数的增加而升高。我

21、们认为,造成这一结果的原因在于小样本学习问题,即相对于有限的样本数来说,过多基因数目的选取影响了对样本类别(正常人和癌症患者)的判定。鉴于此,我们重新对筛选基因的阈值进行设定,以缩小基因组合的范围,即当时,按照从大到小的顺序选取基因组合中分类权重最大的18个基因进行分类能力的研究,研究方法仍为留一交叉检验法,这里不多赘述。经过分析,得到新的分类误差曲线,如图7所示:图7:分类误差曲线图由此图可以清晰的看出:基因个数大于12的基因组合其错误分类数最低,且随着基因数的扩大一直保持稳定的分类识别率,从而确定具有样本分类特征的“基因标签”为基因组合。4.2.3“基因标签”样本分类能力的显著性检验8为检

22、验上述确定的“基因标签”确实具有区分正常人与癌症患者的良好样本分类能力,在有限样本的情况下,本文采用随机交互检验的方法对中基因的样本分类能力进行检验。具体做法如下:(1)样本抽样:在保证训练集中每种不同类型的组织样本数不变(即训练集(15 normal,27 cancer)的前提下,在原始样本集的22个正常人和40个癌症患者样本中进行无重复抽样,以形成新的训练集,剩余样本形成新的测试集。(2)样本识别:以中的基因作为分类特征,利用新形成的训练集构造SVM分类器,对测试集中的样本进行类型识别,记录分类结果(SVM分类模型的参数设置同第一问)。上述两个过程称为一次随机测试实验,本文共做了100次这

23、样的实验,由此得到100次随机测试实验的平均分类正确率达90.1%。考虑到中基因是作为正常人和癌症患者的分类特征基因,那么即使采用非限制性抽样,即不考虑训练集和测试集内部样本的构成情况直接接进行完全随机抽样形成新的训练集和测试集,中的基因也应具有良好的样本分类能力。为此,我们采用非限制性抽样同样做了100次随机测试实验,得到测试集的平均分类正确率为90.45%。这一结果同上面限制训练集样本构成的随机测试实验的分类结果(90.1%)相当。结论二:综上所述,基因“标签”=R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J05032,M26383,M

24、22382,X63629,M76378中的基因识别正常和患癌样本的识别率达到了90%左右,检验证明其具有很好的分类能力,“基因标签”的确定具有合理性。问题三:基因表达谱中噪声模型的建立4.3.1噪声的去除基因表达谱中不可避免的含有噪声,充分消除噪声数据的影响有利于“基因标签”更精确的给出。“噪声”一般来源于噪声样本、无用基因和基因数据的方差波动等方面。我们认为应该针对第二问中确定的“基因标签”()中的基因数据进行噪声处理。1、实验数据去噪在第二问得到的“基因标签”=R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J05032,M26383,M2

25、2382,X63629,M76378中,我们发现基因M76378在原始数据表中存在重复出现的现象,这可能是由于实验误差造成的。其原始数据如表3所示:表3:基因M76378的原始数据GenBank Acc Nonormal1normal2normal22cancer1cancer2cancer40M7637810.68699.17152810.27688.892637.7088727.579983M7637810.741649.22337110.174438.8800967.617927.786257M7637810.797659.4986529.1009128.6064617.3639815.

26、726695针对基因M76378,利用SPSS软件分别对其normal样本和cancer样本进行方差分析,结果如表4和表5所示:ANOVA表4:normal样本数据Sum of SquaresdfMean SquareFSig.Between Groups122.490215.83327.288.000Within Groups9.40544.214Total131.89665ANOVA表5:cancer样本数据Sum of SquaresdfMean SquareFSig.Between Groups92.377392.3695.802.000Within Groups32.65880.40

27、8Total125.035119分析结果表明,基因M76378的normal样本和cancer样本之间都存在着显著的差异性。因此有理由推断,基因M76378的显著差异来源于同类样本自身,并不直接作用于样本分类。所以应该将基因M76378从“基因标签”中予以删除。2、噪声样本的识别与剔除由第二问中的分类误差曲线图(图8和图9)可以看出,所有特征分类基因组合的最小错误分类个数为5,还没有一个基因组合的正确分类识别率达到100% 。这表示作为分类特征的“基因标签”仍然有进一步精确的空间。通过进一步分析我们发现,在各基因组合进行样本分类识别的过程中有5个样本经常被错判,且这正好与基因组合的最小错误分类

28、数相同。因此我们猜想,是否是这5个样本的存在导致基因组合的正确识别率始终无法达到100% 。为了验证这一猜想,我们从样本的角度出发,对各个样本在分类识别过程(包括在和两种情况下的留一交叉检验)中的错误识别率进行了具体分析,如图 8和图9所示:图8:的留一交叉检验中各样本的错误识别率图9:的留一交叉检验中各样本的错误识别率从图中可以非常直观的看到:在这两个分类识别的过程中,都有5个样本被严重错判,且都是同样的5个样本。它们分别是:normal18,normal20,cancer52,cancer55,cancer58。这些样本严重干扰了“基因标签”对样本的正确分类,影响了“基因标签”的选取,故应

29、该删去。综上所述,在对基因组合的原始数据进行去噪后,得到了新的基因组合R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J05032,M26383,M22382,X63629,而这些基因的原始数据样本也由62个变为57个(包括20个normal样本和37个cancer样本)。4.3.2去噪后的“基因标签”确定我们将去噪后的数据重新带入第二问的“基因标签”确定模型,得到新的“基因标签”=R87126,M63391,J02854 。4.3.3“基因标签”样本分类能力的显著性检验我们采用非限制性抽样同样做了100次随机测试实验(方法同4.2.3),得到

30、测试集的平均分类正确识别率为92.65% ,即基因“标签”具有良好的样本分类能力。结论三:综上所述,与第二问中得到的基因标签相比,去噪后得到的基因“标签”=R87126,M63391,J02854 其基因组合所含基因数大大减少,且平均正确识别率达到92.64%,高于的识别精度。由此我们认为无论是来源于哪个方面的噪声对基因“标签”的影响都是不利的,所以对基因表达谱无论是在实验阶段还是在数据处理阶段都必须考虑噪声的影响,从而提高识别肿瘤的正确率,为临床及医学研究提供精确的依据。问题四:融入临床信息的诊断肿瘤确定基因标签的数学模型的建立目前诊断肿瘤主要依靠临床的生理学信息,但有些情况下临床信息会难以

31、确定甚至出现错误,这就为肿瘤的早期诊断和及时治疗带来了很多困难。而近年来迅速发展并日益成熟的基因表达谱可以清晰地表现肿瘤样本与正常样本的差别,据此可以更精确地识别肿瘤。遗憾的是,基于基因表达谱的研究还没有进入临床实践。如果能把基于基因表达谱的肿瘤识别方法与临床生理学信息结合起来建立确定基因标签的数学模型将会为肿瘤的识别与诊断带来更可靠的依据。我们尝试在这一问中建立这样一个数学模型。4.4.1 APC基因和ras相关基因由APC基因和ras相关基因的原始数据得到其各自的样本表达水平趋势图,如图10所示:APCras(M28214) ras(T70197) ras(L33075)ras(R5394

32、1) ras(H42477) ras(T71207)ras(X54871) ras(R22779) ras(Z29677)图10:样本表达水平趋势图4.4.2肿瘤识别基因信息图考虑到这样的临床生理学信息:大约90%结肠癌在早期有5号染色体长臂APC基因的失活,而只有40%-50%的ras相关基因突变,结合4.3.2确定的基因标签,我们给出了融入临床信息的诊断肿瘤确定基因标签的结构图,如图11所示:肿瘤识别基因标签临床生理学信息R87126M63391J02854APC基因Ras相关基因图11:肿瘤识别基因信息图4.4.3构造融入临床信息的肿瘤识别模型1、数据说明此模型使用的数据为基于第三问去噪

33、后的57个样本数据,而原始数据中有6个ras相关基因的数据,由于它们的表达水平相似,故取其均值作为ras相关基因的表达数据。我们构造的训练集中包含38个样本(13 normal,25cancer),测试集包含19个样本(7normal,12cancer)。2、SVM训练学习我们构造一个SVM分类器来实现此模型(其具体思想见4.1.5)。在此模型中,输入为基因标签中三个基因的表达水平值和由题设可知的APC基因、ras相关基因在结肠癌中发生与否的概率关系;经过图12中的SVM进行训练学习后输出代表样本类别。样本数据样本类别SVMAPCras图12:模型结构图3、模型检验经过500次的重复随机实验,

34、此模型的正确分类识别率达到99.8%,如图12所示:图12:融入临床信息的肿瘤识别模型的正确识别个数结论四:综上所述,考虑了APC基因和ras相关基因的肿瘤识别模型精度上有了大幅度提高,有利于我们对样本进行分类。由此可见,在基因表达谱的分析过程中融入临床生理学信息,对于提高肿瘤的诊断效果具有非常重要的贡献。五、模型的评价与改进设想本文基于基因表达谱讨论了肿瘤识别方法的问题。我们主要使用支持向量机和Relief算法等方法,找到了区分正常与肿瘤的较好的分类方法,其正确识别率达到90%;然后进一步从分类的角度找出了正确识别率达到92.46%的基因标签;在此基础上,我们建立了噪声模型,对来源于三个方面

35、的噪声进行了剔除,包括找出了假阴性和假阳性的样本,得出了噪声对确定基因标签不利的结论;最后,我们融入了临床生理学信息,建立了更加精确的肿瘤识别模型,其正确率达到99.8%。由于时间仓促,本文不可避免地会存在一些不足,而各个模型也有改进的必要,例如噪声模型我们可以把所给的对数化处理的数据还原回去,利用样本间的倍数关系来计算它的表达水平的上调和下调,进而可以更加精确地寻求噪声对我们所建立的模型的影响。另外,融入临床信息的模型的建立可以再考虑更多的其它信息,这样可以使模型的正确识别率更进一步地提高,最好能稳定地达到100%,进而在临床广泛推广,这是未来基因表达谱的研究方向。32六、参考文献1 李颖新

36、,阮晓钢.基于基因表达谱的肿瘤亚型识别与分类特征基因选取研究J .电子学报.2005年4月第4期:6522何晓群.多元统计分析M.第二版.北京:中国人民大学出版社,2002.152-174.3SVMEB/OL4张小艳,李强.基于SVM的分类方法综述J .科技信息. 2008年第28期:3445吴艳文,胡学钢,陈效军.基于Relief算法的特征学习聚类J .合肥学院学报(自然科学版).2008年5月.第18卷第2期:456赖冰凌,王新宇.Relief算法在关门车故障自动识别中的应用J .铁路(计算机应用).第16卷第1期.Vol.16 No.1:227吴浩苗,尹中航,孙富春.Relief算法在笔

37、迹识别中的应用J.第26卷第1期.2006年1月:1748阮晓钢,李颖新,李建更,龚道雄,王金莲.基于基因表达谱的肿瘤特异基因表达模式研究.中国科学C辑生命科学.2006,36(1):86-969王翼飞,史定华.生物信息学-智能化算法及其应用.北京:化学工业出版社.2006年7月:237-24310李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究J.计算机学报.2006年2月第29卷第2期:325-32611Matlab中文论坛.Matlab神经网络30个案例分析M.北京:北京航空航天大学出版社.2010年4月:112-141附录第一问程序function S,BS,x

38、zS,xzbinameno,xzxzbinameno,bnameno,sortk,sortxzbixu=fenlei_A1(x1,x2)%利用信噪比、修正信噪比、巴式距离对基因进行分类%mx1,nx1=size(x1);mx2,nx2=size(x2);miu1=mean(x1);miu2=mean(x2);xigema1=std(x1);xigema2=std(x2);xinzaobi=abs(miu1-miu2)./(xigema1+xigema2);index1=find(xinzaobi=0.2&xinzaobi=0.4&xinzaobi=0.6&xinzaobi=0.8);s1=le

39、ngth(index1);s2=length(index2);s3=length(index3);s4=length(index4);s5=length(index5);S=s1,s2,s3,s4,s5;xzbinameno=index1,index2,index3,index4,index5;figurebar(0.1 0.3 0.5 0.7 0.9,s1,s2,s3,s4,s5)title(信噪比)% 修正信噪比temp=log(xigema1.*xigema1+xigema2.*xigema2)./(2*(xigema1.*xigema2);xzxinzaobi=abs(miu1-miu

40、2)./(xigema1+xigema2)+temp;xzindex1=find(xzxinzaobi=0.2&xzxinzaobi=0.4&xzxinzaobi=0.6&xzxinzaobi=0.8);xzs1=length(xzindex1);xzs2=length(xzindex2);xzs3=length(xzindex3);xzs4=length(xzindex4);xzs5=length(xzindex5);xzS=xzs1,xzs2,xzs3,xzs4,xzs5;xzxzbinameno=xzindex1,xzindex2,xzindex3,xzindex4,xzindex5;s

41、ortxzbixu,sortk=sort(xzxinzaobi);figurebar(0.1 0.3 0.5 0.7 0.9,xzs1,xzs2,xzs3,xzs4,xzs5)title(修正信噪比)% 巴氏距离bashi=(miu1-miu2).2)./(4*(xigema1.*xigema1+xigema2.*xigema2)+0.5*temp;bindex1=find(bashi=0.1&bashi=0.2&bashi=0.4&bashi=0.5&bashi=0.6&bashi=0.8);bs1=length(bindex1);bs2=length(bindex2);bs3=length

42、(bindex3);bs4=length(bindex4);bs5=length(bindex5);bs6=length(bindex6);bs7=length(bindex7);BS=bs1,bs2,bs3,bs4,bs5,bs6,bs7;bnameno=bindex1,bindex2,bindex3,bindex4,bindex5,bindex6,bindex7;figurebar(0.1 0.2 0.3 0.4 0.5 0.6 0.7,bs1,bs2,bs3,bs4,bs5,bs6,bs7)title(巴氏距离)%function pc_m,gxlv,score_m=funpca(gai

43、data,m)% 选取不同的基因,主成分分析的程序gd=gaidata;x1=gd(:,1:22);x2=gd(:,23:end);S,BS,xzS,xzbinameno,xzxzbinameno,bnameno,sortk,sortxzbixu=fenlei_A1(x1,x2);index_m=sortk(1991-m+1:1991);data_m=gd(index_m,:);stdr_m=std(data_m);sr=data_m./stdr_m(ones(m,1),:);pc_m,score_m,latent_m,tsquare_m = princomp(sr);gxlv=cumsum(

44、latent_m)./sum(latent_m);function ptest_label,test_accuracy,ptrain_label,train_accuracy,bestacc,bestc,bestg=fun_svm_class(train_x,train_data_labels,test_x,test_data_labels)% % 利用支持向量机进行分类% for classificatonformat compact;% 原始数据可视化% figure;% boxplot(train_data,orientation,horizontal);% grid on;% titl

45、e(Visualization for original data);% figure;% for i = 1:length(train_data(:,1)% plot(train_data(i,1),train_data(i,2),r*);% hold on;% end% grid on;% title(Visualization for 1st dimension & 2nd dimension of original data);% 归一化预处理train_final,test_final = scaleForSVM(train_x,test_x,0,1);% 归一化后可视化% figu

46、re;% for i = 1:length(train_final(:,1)% plot(train_final(i,1),train_final(i,2),r*);% hold on;% end% grid on;% title(Visualization for 1st dimension & 2nd dimension of scale data);% 降维预处理(pca)% train_final,test_final = pcaForSVM(train_final,test_final,97);% DCT% train_final,test_final = DCTforSVM(tra

47、in_final,test_final);% ica% train_final,test_final = fasticaForSVM(train_final,test_final);% feature selection% using GA,.,etc.% 参数c和g寻优选择bestCVaccuracy,bestc,bestg = SVMcgForClass(train_data_labels,train_final);% ga_option.maxgen = 100;% ga_option.sizepop = 20; % ga_option.ggap = 0.9;% ga_option.cb

48、ound = 0,100;% ga_option.gbound = 0,100;% ga_option.v = 5;% bestacc,bestc,bestg = gaSVMcgForClass(train_data_labels,train_final,ga_option)% pso_option.c1 = 1.5;% pso_option.c2 = 1.7;% pso_option.maxgen = 100;% pso_option.sizepop = 20;% pso_option.k = 0.6;% pso_option.wV = 1;% pso_option.wP = 1;% pso

49、_option.v = 3;% pso_option.popcmax = 100;% pso_option.popcmin = 0.1;% pso_option.popgmax = 100;% pso_option.popgmin = 0.1;% bestacc,bestc,bestg = psoSVMcgForClass(train_data_labels,train_final,pso_option);cmd = -c ,num2str(bestc), -g ,num2str(bestg);% bestc =% 1.2714% bestg =% 1.8047% cmd = -c 147.0

50、334 -g 16% 分类预测model = svmtrain(train_data_labels, train_final,cmd);ptrain_label, train_accuracy = svmpredict(train_data_labels, train_final, model);% train_accuracyptest_label, test_accuracy = svmpredict(test_data_labels, test_final, model);% test_accuracy% toc;function meanstest,meanstrain,lv,zqgs

51、=zuijia(score,l,method)% % 第一问 得到主成分后的分类检验程序% 和第二问中重复检验%method=2 为非限制 method=1是限制性随机试验if method=2 stest=0; strain=0; zqgs=zeros(1,100); lv=zeros(1,100); zonglabel=zeros(1,57); for k=1:500 randnum=randperm(57); ind=find(randnum20); x_label=zonglabel; x_label(ind)=1; trainno=randnum(1:38); testno=rand

52、num(39:57); x=score(:,1:l); train_x=x(trainno,:); train_label=x_label(1:38); test_x=x(testno,:); test_label=x_label(41:end); ptest_label,test_accuracy,ptrain_label,train_accuracy=fun_svm_class(train_x,train_label,test_x,test_label); zqgs(k)=length(find(ptest_label-test_label)=0); close all stest=ste

53、st+test_accuracy(1); strain=strain+train_accuracy(1); lv(k)=test_accuracy(1)/100; end meanstest=stest/500; meanstrain=strain/500; plot(lv,*) xlabel(重复次数) ylabel(正确识别率) axis(1 105 0.7 1.2) % endelseif method=1 stest=0; strain=0; zqgs=zeros(1,100); lv=zeros(1,100); for k=1:500% index1=randperm(20); in

54、dex2=randperm(37); trainno1=index1(1:13); testno1=index1(14:20); trainno2=20+index2(1:25); testno2=20+index2(26:end); % l=14; % for i=61:-1:1 x=score(:,1:l); train_x=x(trainno1,:);x(trainno2,:); train_label=zeros(1,13),ones(1,25); test_x=x(testno1,:);x(testno2,:); test_label=zeros(1,7),ones(1,12); p

55、test_label,test_accuracy,ptrain_label,train_accuracy=fun_svm_class(train_x,train_label,test_x,test_label); zqgs(k)=length(find(ptest_label-test_label)=0); close all stest=stest+test_accuracy(1); strain=strain+train_accuracy(1); lv(k)=test_accuracy(1)/100; end meanstest=stest/500; meanstrain=strain/5

56、00; plot(lv,*) xlabel(重复次数) ylabel(正确识别率) axis(1 105 0.7 1.2) % endendzq=minmax(zqgs);k=1;for p=zq(1):zq(2) b=length(find(zqgs=p); if b=0 bar_m(k)=b; x_m(k)=p; k=k+1; else p=p+1 endendbar(x_m,bar_m)xlabel(正确识别样本个数)ylabel(频数)第二问%=% 函数名:standardization% 函数介绍:归一化。方法:(x基因均值)/基因方差。% 计算每类样本的个数。% 输入参数:a是原始

57、基因表达谱数据。行是基因,列是样本。a的第一行是样本标记。0表示normal;1表示tumor。% 输出参数:b是归一化之后的a。% style_1是normal样本的个数。% style_2是tumor样本的个数。%=function b, style_1, style_2 = standardization ( a )style = a ( 1 , : );%找到样本标记行。row, column = size ( a );%对基因表达谱数据标准化。a = a ( 2 : row , : );%将样本标记行去掉。for i = 1 : row-1 m = mean ( a ( i , : ) );%样本均值 s = std ( a ( i , :) );%样本方差。 b ( i , : ) = ( a ( i , : ) - m ) ./ s;end%标准化结束%计算每

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!