生物医学数据挖掘-数据的采集和组织课件

上传人:29 文档编号:252818888 上传时间:2024-11-20 格式:PPT 页数:31 大小:1.03MB
收藏 版权申诉 举报 下载
生物医学数据挖掘-数据的采集和组织课件_第1页
第1页 / 共31页
生物医学数据挖掘-数据的采集和组织课件_第2页
第2页 / 共31页
生物医学数据挖掘-数据的采集和组织课件_第3页
第3页 / 共31页
资源描述:

《生物医学数据挖掘-数据的采集和组织课件》由会员分享,可在线阅读,更多相关《生物医学数据挖掘-数据的采集和组织课件(31页珍藏版)》请在装配图网上搜索。

1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,生物医学数据挖掘,Biomedical Data Mining,生物医学数据挖掘Biomedical Data Minin,2,回顾,第一章 概论,一、什么是数据挖掘,二、数据挖掘的过程,三、数据挖掘方法的分类,预测型,描述型,2回顾第一章 概论,3,第一章 概论,一、什么是数据挖掘,二、数据挖掘的过程,三、数据挖掘方法的分类,四、数据挖掘性能评价,评价准则,样本的组织,预测型模型的性能评价,描述型模型的性能评价,3第一章

2、 概论一、什么是数据挖掘,4,评价准则:结果或模型,准确性,可理解性,性能,数据的噪声,四、数据挖掘性能评价,4评价准则:结果或模型四、数据挖掘性能评价,5,样本的组织,所有样本属性已知,两类样本:相互独立,学习样本,/,训练样本集:规律的总结,测试样本集:评价、检验,四、数据挖掘性能评价,5样本的组织四、数据挖掘性能评价,6,两类样本的分组,6两类样本的分组,7,随机分组法:,通常:训练集,(2/3),,测试集,(1/3),两类样本的分组,模型,评估,7随机分组法:两类样本的分组模型评估,8,交叉验证法:,如,K,折交叉验证法(一般随机分成,10,组),留一法:适用样本数据更少的情况,两类样

3、本的分组,8交叉验证法:两类样本的分组,9,举例,例,1.,预测型模型,肺癌 干预,(,手术,/,手术化疗,),及预后(五年生存),共,5,万个样本,其中,1.7,万干预后,5,年内死于肺癌,如何组织数据进行数据挖掘?,9举例例1.预测型模型,10,例,2.,共,1000,个,其中,315,个五年内死亡,如何组织数据?,例,3.,共,49,个,,14,个,5,年内死亡,,35,个存活,如何组织数据?,10例2.,11,总结:,随机,分布与总体相近,计算成本的考虑,样本要保证足够多,但不只是数量的多少,11,12,预测型模型的性能评价,残差,混淆矩阵,P10,灵敏度(,sensitivity,)

4、,特异度(,specificity,),分类正确率(,accuracy,),ROC,(,receiver operating characteristics curve,)曲线,四、数据挖掘性能评价,12预测型模型的性能评价四、数据挖掘性能评价,13,灵敏度,特异度,分类正确率,四、数据挖掘性能评价,13四、数据挖掘性能评价,14,例:,ECG(electrocardiogram),诊断试验的结果,灵敏度,=,?,特异度,=,?,分类正确率,=?,14例:ECG(electrocardiogram)诊断试验,15,灵敏度与特异度,取值:均在,0-1,之间,缺点:单独使用,可能出现矛盾,解决办法

5、:,ROC,曲线,15灵敏度与特异度,16,ROC,曲线,灵敏度与特异度间的平衡,(trade off),四、数据挖掘性能评价,1,特异度(假阳性率),灵敏度,机率线,(chance line)(diagonal reference line),16ROC曲线四、数据挖掘性能评价1特异度(假阳性率)灵敏,17,完美结果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,无用结果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,17完美结果0.00.20.40.6

6、0.81.00.00.2,18,ROC,曲线下面积(,Area,),高,0.90-1.00=excellent(A),中,0.80-0.90=good(B)0.70-0.80=fair(C),低,0.60-0.70=poor(D)0.50-0.60=fail(F),0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.664,A,0.830,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4

7、,0.6,0.8,1.0,FPR,T,P,R,A,0.938,18ROC曲线下面积(Area)0.00.20.40.60.,19,例,4.,继续前例,,干预及预后(五年生存),共,5,万个样本,其中,1.7,万干预后,,5,年内死于肺癌,其余,3.3,万存活。,假定对上述数据分别建立了预测型模型,A,和,B,,,试比较两个模型的性能。,19例4.继续前例,,20,模型,A,模型,B,20模型A,21,比较模型,A,与,B,:,21比较模型A与B:,22,性能评价的作用:,如实表明,描述模型的性能,可以比较,模型性能的优劣、高低,同一问题可多个模型,即使仅一个模型,可设计多个参数,22性能评价的

8、作用:,23,总结,第一章 概论,一、什么是数据挖掘,二、数据挖掘的过程,三、数据挖掘方法的分类,四、数据挖掘性能评价,23总结第一章 概论,24,第二章 数据采集与准备,一、数据的采集和组织,1.,数据采集和管理,2.,数据的组织,3.,数据的类型,二、数据管理,三、数据预处理,24第二章 数据采集与准备一、数据的采集和组织,25,一、数据的采集和组织,数据采集和管理,关系数据库,DB,既往的数据,如电子病例,数据仓库,DW,面向特定目标的、集成的数据集合,如,HIS,25一、数据的采集和组织数据采集和管理,26,一、数据的采集和组织,数据组织,平面文件,记录:处理的对象,属性:一个特征,2

9、6一、数据的采集和组织数据组织,27,一、数据的采集和组织,数据的类型,数值:可运算,如年龄、血压,分类:文字或数字,不可运算,二值型:,对称:如性别:男、女,非对称:如阳性,1,、阴性,0,排序型,数值型和分类型数据的转换,27一、数据的采集和组织数据的类型,28,一、数据的采集和组织,例,.,采集原始数据,姓名:,ID,:,性别:,年龄:,血压:,肿瘤,TNM,分期:,28一、数据的采集和组织例.采集原始数据,29,第二章 数据采集与准备,一、数据的采集和组织,二、数据管理,1.Excel,2.,关系数据库,三、数据预处理,29第二章 数据采集与准备一、数据的采集和组织,30,二、,数据管理,Excel,数据管理,数据清单,排序、筛选,统计分析,分类汇总,30二、数据管理Excel数据管理,31,二、,数据管理,关系数据库,数据定义,排序、索引和筛选,查询和统计,31二、数据管理关系数据库,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!