数据挖掘及其在医学诊断中的应用

上传人：痛*** 文档编号：46910473 上传时间：2021-12-16 格式：DOC 页数：140 大小：434.01KB

收藏版权申诉举报下载

第1页 / 共140页

第2页 / 共140页

第3页 / 共140页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《数据挖掘及其在医学诊断中的应用》由会员分享，可在线阅读，更多相关《数据挖掘及其在医学诊断中的应用（140页珍藏版）》请在装配图网上搜索。

1、上海交通大学硕士学位论文数据挖掘及其在医学诊断中的应用姓名：潘永生申请学位级别：硕士专业：生物医学工程指导教师：庄天戈2002.1.1数据挖掘及其在医学诊断中的应用摘要目前，随着、和等医学信息系统广泛应用，医院里的数据采集和存储技术已经有了很大的提高，基本上实现了医学数据的数字化，但是与数据采集和存储技术飞速发展不相称的是知识获取技术进展的缓慢，使得人们从巨大的“数据山”里得到的知识非常有限。如何从这大量的数据中利用工程技术自动获取知识越来越受到重视，而这也是解决制约医学智能诊断发展瓶颈的知识获取问题的关键。为此，本文对数据挖掘技术在医学诊断中的应用问题进行了较深入的研究，将数据挖掘的方法应用

2、到了医学诊断领域中。本文首先介绍了医学智能诊断的现状，并简要介绍了数据挖掘的基本思想和分类；然后详细介绍了数据挖掘的系统框架、具体方法及其应用：最后，深入研究了两种重要的数据挖掘方法一决策树归纳学习算法和粗糙集算法，开发出了基于这两种算法的挖掘工具，并对算法作了改进。本文的工作主要有以下几点：（）在详细介绍和研究数据挖掘原型的基础上，提出了在医疗信息系统中进行数据挖掘的系统框架，对系统的构成和各个部分应实现的功能进行了详细介绍；（）本文重点研究了决策树数据挖掘方法。对决策树算法，成功利用十开发出包含多种修剪方法的数据挖掘工具，成功对乳腺疾病进行了数据挖掘，得到了有参考价值的结论，获得简单的决策

3、树和很高的分类准确率；而且对决策树算法进行了改进，提出了利用属性权值法来利用背景知识的决策树算法和引入了反馈过程的反馈决策树算法，利用这两种改进算法，决策树的数据挖掘效果得到了进一步的提高。（）除了决策树算法，本文中还详细介绍了粗糙集算法，详细介绍了粗糙集算法的原理和具体的数据挖掘算法，包括条件属性重要性的定义、粗糙集属性约简方法、粗糙集值约简和规则提取方法，并实现了的基于机器学习思想的局部数据挖掘算法，成功对乳腺疾病数据进行了数据挖掘。本文的研究表明，数据挖掘在医学诊断领域的广泛应用前景。关键词：数据挖掘，医学诊断，决策树算法，粗糙集理论，汀匝，硪，口，：（），（），也（）恤，：，一蔓！兰竺

4、笙第章绪论选题意义随着数据库技术的迅速发展，特别是二十世纪八十年代以来以、和为代表的关系型数据库的日益成熟，加上人们对信息在社会中重要地位的认识的提高，数据库管理系统得到了越来越广泛的应用。目前，数据库管理系统已经成功地应用于传统的事务数据处理，如企业管理、行政管理、科学与工程数据管理以及许多日益增长的其他应用。在医学方面，医学成像与存档系统（，简称）得到了广泛的应用，该系统利用先进的数据库和网络技术，成功实现了医学图像的无胶片化存储和医学信息的高效查询，提高了诊断的效率和效果，节约了成本，很好的实现了医院系统的信息化，并为进一步开发提供了高效的研究平台。其它的医院信息系统，如和，也都获得了广

5、泛的应用。这些系统正在每天以（甚至）的速度产生大量的数据，如商场和证券市场的交易数据、互联网上的巨量信息数据和系统中的诊断病例数据等。从这些海量的、以不同形式存储的数据资料中发现有价值的信息或知识，为决策服务，便成为一个有着巨大研究价值和现实意义的课题。在系统中，每天都有数以千百计的病例添加到数据库中，如果能够从数据库中大量的数据里找到规律性的诊断规则，就可以供医生在诊断时参考，也可以以此为基础建立一个医疗诊断的专家系统，那么这对于提高诊断的效率和效果、更深入的了解疾病的机理都是有很大帮助的。但是，目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，却无法发现数据中存在的关系和规则

6、，无法根据现有的数据预测未来的发展趋势，缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。为了解决这方面的问题，数据挖掘（）方法应运而生，它可以从大量的复杂的数据中提取出有用的规则，发现隐藏在杂乱数据中的有规律的信息，它的出现使得人们最终有能力认识数据里蕴含的信息和知识，认识数据的真正价值。本文的工作正是将数据挖掘的方法应用到医学诊断中上，对医学病例数据进行挖掘。以提取出其中的规则供医生参考。医学智能诊断的发展与现状同其它任何领域一样，自从计算机成为医疗诊断的辅助工具之日起，人们就一直第章绪论试图使这一得力工具具有更多的智能，替代更多的人力。在医疗诊断领域，人们希望计算机能

7、够：（）模仿诊断专家，应用已有的经验和知识；（）模仿诊断专家，学习已有的知识；（）模仿诊断专家，发现潜在的、未知的规律。显然，上述点从应用知识到学习知识，从有指导学习到无指导学习，越来越接近人类行为，难度也越来越大。与之相对应，智能诊断经历了从专家系统到神经网络的发展”。模仿诊断专家，应用已有经验和知识的典型代表是专家系统。专家系统就是一种在相关领域中具有模拟人类专家运用知识进行推理的应用程序。专家系统的知识一般分为数据级、知识库级和控制级。数据级知识是指具体问题所提供的初始事实以及问题求解过程中产生的中间结论、最终结论等；知识库级知识是专家的知识、经验等，是专家系统的基础。这种知识的质量和数

8、量（对问题域的覆盖程度）决定了系统的性能高低；控制级知识是关于如何运用前两种知识的知识，如搜索策略等【】。从年费根鲍姆（）等研制出第一个专家系统以来，专家系统己经广泛应用于医疗、勘探、金融决策等许多领域。医疗诊断领域是专家系统研究非常多的领域，世界上第一个功能较全面的专家系统是一个用于诊断和治疗细菌感染病的专家咨询系统，通过和它的用户（一般是内科医生）的交流，在获取病人的病史和各种可能的化验数据后，该系统可以在化验数据不齐全的情况下进行推理，给出诊断结果。不仅能对传染性疾病做出专家水平的诊断和治疗，而且便于使用、理解、修改和扩充。与同时开发的系统是大学的和等人开发的，用于诊断和治疗青光眼疾病。

9、以后陆续有大量的医疗诊断专家系统被开发出来，国内的医疗专家系统的研究也非常热门，西安电子科技大学的马玉祥等研制出了肺结核诊断治疗专家系统（），它采用三级汉化知识库，二级模糊推理技术，对研制临床医学专家系统作了一定的探索工作”。但随着研究的深入，专家系统面临许多问题。专家系统中知识库级知识般是人工从专家那里提取，归纳总结后用适合机器存储和应用的方式表示出来，“灌输给机器”。因此专家系统只是一个模式匹配系统，知识的获取成为影响专家系统的一个“瓶颈”。此外，不确定性推理问题、自学习困难等，都影响了专家系统在故障诊断领域的应用和发展。在专家系统发展遇到技术障碍的时候，从年代中期开始，由于理论上获得突破

10、，世界上再一次掀起人工神经网络的研究与应用热潮噍”。人工神经网络是指模拟生物神经网络的结构和功能，运用大量处理部件，由人工方式建立起来的网络系统。第章绪论人工神经网络的优点是具有强大的学习能力，能从样例中学习，获取知识：易于实现并行运算，从而可提高运算速度；对带有噪声或缺损的输入信息有很强的适应能力，对于非确定性、不完全或不完全确定的知识也具有很强的处理能力，可以实现分类决策、联想记忆、自组织学习，弥补了专家系统在知识获取等方面的不足峨”。人工神经网络的再度兴起为医疗智能诊断开辟了一条新的途径，神经网络在医学信号处理、医学图像处理、医学诊断等方面都有了广泛的应用”，。但是，人工神经网络也有其不

11、可避免的局限性。人工神经网络的学习及问题求解具有“黑箱”特性，其知识获取过程的可解释性差；人工神经网络学习得到的知识是以权值形式表示的“隐式”知识，可移植性差；发现潜在、未知规律知识的能力较差。目前在医疗诊断领域广泛应用的各类神经网络只具有从输入到输出的映射能力，从训练样本中自动提取特征和规则并将获取的规则、知识呈现出来的能力较差。从知识获取的角度来说，人工神经网络属于模仿诊断专家学习已有的知识这一层次。最近几年，人工神经网络得到广泛研究和应用，实用成果累累。今后对人工智能的研究方向已经不是神经网络算法如何改进，局部极小如何避免的问题，而是寻求更高层次的突破。年代以来，数据挖掘作为种新的知识获

12、取技术从机器学习（，人工智能的一个分支）中脱颖而出，它可以从数据中获取知识和规则，解决专家系统知识获取的瓶颈，而且它得到的知识和规则是显式的，避免了神经网络得到的知识可解释性和可移植性差的问题，所以它一出现就受到广泛的关注，成为当今机器学习领域中一个十分活跃的领域。数据挖掘简介数据挖掘最早于出现，又称“知识抽取”（）、“信息发现”（）、“知识发现”（）、“智能数据分析”（）、“信息收获”（）等等，是从大量数据中发现潜在规律、提取有用知识的方法和技术，其研究对象一般情况下都是数据库中的数据，因为与数据库密切相关，又称为数据库知识发现（，）。从的名称中可以看出，更强调与数据库的联系。另外，在数据库

13、知识发现的过程中实施知识发现这一步骤也称为数据挖掘，因此也有人认为数据挖掘是的一个环节。通常情况下可以将不加区别地使用两者而意义差别不大。数据挖掘不但能够学习已有的知识，而且能够发现未知的知识，而且得到的知识是“显式”的，既能为人所理解，又便于存储和应用，从数据库中挖掘出来的知识可第章绪论以用在信息管理、过程控制、科学研究、决策支持等许多方面，因此数据挖掘一出现就得到广泛的重视。数据挖掘和数据库知识发现定义至今有多种定义，其中得到公认的是：，数据库中的知识发现是从数据中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的高级过程。其中：数据：是指一个有关事实，的集合（如医学病例数据库中有关

14、病人基本信息的各条记录），它是用来描述事物有关方面的信息，是我们进一步发现知识的原材料。新颖：经过数据挖掘提取出的模式必须是新颖的，至少对系统来说应该如此。模式是否新颖可以通过两个途径来衡量；其一是得到的数据，通过对比当前得到的数据和以前的数据或期望得到的数据之间的比较来判断该模式的新颖程度；其二是通过其内部所包含的知识，通过对比发现的模式与已有的模式的关系来判断。通常我们可以用一个函数来表示模式的新颖程度，（，该函数的返回值是逻辑值或是对模式的新颖程度的一个判断数值。利用数据挖掘可以发现新颖的知识和规则，这是它的一个突出优点。潜在有用：提取出的模式应该是有意义的，这可以通过定义某些函数的值来

15、衡量。用”表示模式的有作用程度，”。可被人理解：数据挖掘的一个目标就是将数据库中隐含的模式以容易被人理解的形式表现出来，从而帮助人们更好地了解数据库中所包含的信息。数据挖掘不同于以往知识获取技术的一个特点是发现的知识和规则是显式的，通常用“”的形式表达，可以方便得为人（至少是领域专家）理解和使用。而以往的方法，如人工神经网络，不论是知识发现过程还是知识应用过程，内部都是一个近“黑箱”过程。模式：对于集合中的数据，可以用语言三来描述其中数据的特性。表达式厶所描述的数据是集合的一个子集如。只有当表达式比列举所有而中元素的描述方法更为简单时，我们才可称之为模式。如：“如果成绩在之间，则成绩优良”可称

16、为一个模式，而“如果成绩为、或，则成绩优良”就不能称之为个模式。高级过程：数据挖掘是对数据进行更深层处理的过程，而不是仅仅对数据进行加减求和等简单运算或查询，因此说它是一个高级的过程。数据挖掘发展历史年月在美国底特律召开的第届国际人工智能联合会议的专题讨论会上首次出现数据库知识发现（，）这个术语，标志着数据挖掘和知识发现的正式出现。随后在年、年和年都举行专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多，国际会议发展成为年会。年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论，而且有多家

17、软件公司展示了他们的数据挖掘软件产品，不少软件己在北美、欧洲等国得到应用。在我国，许多高校和科研单位也已开始进行数据挖掘技术的研究。数据挖掘是一门交叉性学科，涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个学科领域。数据挖掘是应用需求推动下多种学科融合的结果，数据库技术、机器学习和统计科学是数据挖掘的三大支柱。首先是数据库技术。随着数据库技术的不断发展及数据库管理系统的广泛应用，大型数据库系统已经在各行各业普及，数据库中存储的数据量急剧增大。在大量的数据背后隐藏着许多重要信息，而这些重要信息可以很好地支持人们的决策。可是目前用于对这些数据进行分析处

18、理的工具却很少。目前人们用到的主要是数据库的存储功能，而隐藏在这些数据之后的更重要的信息则没有充分利用。这些信息是关于数据的整体特征的描述及对发展趋势的预测，在决策生成的过程中具有重要的参考价值。数据库技术的目益成熟和数据仓库的发展为数据挖掘提供了发挥的平台。从下表可以看出数据库发展的各个历史阶段】：进化阶段商业闯题支持技术产品厂家产品特点数据搜集“过去五年中我计算机、磁带和磁，提供历史性（年代）的总收入是多盘的、静态的数少？”据信息“在耨英格兰的关系数据库、在记录级提供数据访问分部去年三月的（），结构、历史性的、动（年代）销售额是多化查询语言、态数据信息少？”（），、￥第章绪论“在新英格兰的

19、联机分析处理、在各种层次上数据仓库，决分部去年三月的（）、多维数、提供回溯的、策支持（年销售额是多少？据库、数据仓库、动态的数据信代波士顿据此可得、息出什么结论？”数据挖掘“下个月波士顿高级算法、多处理、提供预测性的（正在流行）的销售会怎么器计算机、海量数、信息样？为什么？”据库、其他初创公司表数据库技术的发展从上表中可以看出，数据挖掘是在数据库技术的推动下发展出来的，数据库技术为数据挖掘提供了技术支持和现实需求。其次，在数据库技术飞速发展的同时，人工智能自年诞生之后取得了重大进展，经历了博弈时期、自然语言理解、知识工程等阶段，目前在机器学习分支领域的研究也取得很大进展。机器学习是用计算机模拟

20、人类学习的一门科学。自年代开始机器学习的研究以来，先后经历了神经模型和决策理论、概念符号获取及知识加强和论域专用学习三个阶段，根据人类学习的不同模式人们提出了很多机器学习方法，如实例学习、观察和发现学习、神经网络和遗传算法等等，其中某些常用且较成熟的算法（如神经网络和遗传算法）已经被人们运用于实际的应用系统及智能计算机的设计和实现中。数据挖掘中的许多方法就来源于机器学习【”。第三，统计技术的进步也为数据挖掘提供了技术支持。和人工智能一样，统计也致力于模式发现和预测。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度很高，这为数据挖掘的发展提供了扎实的理论基础。但是，统计技术对使

21、用者的要求很高，而随着计算机计算能力的不断增强，我们希望可以利用计算机强大的计算能力通过相对简单和固定的方法完成同样的功能。数据挖掘正是这样一个实现途径，从这个意义上说，它是统计分析方法学的延伸和扩展【“。最后，是应用领域的推动。由于数据存储技术的日渐成熟。数据库和联机事务处理）已经被广泛应用于金融、证券、保险、销售以及天气预报、工业生产、分子生物学、基因工程研究等各行各业【”；在医学领域，各医院的系统和系统上都积累了大量的病例数据，而且正在产生着更多的数据。对于这些数据，人们己经不满足于传统的统计分析手段，而需要发现更深层次的规律，提供更有效的决策支持。专家系统靠人工获取知识这一“瓶颈”在日

22、益膨胀的“数据山”面前显得更加无力。数据挖掘的过程是一个人机交互、多次反复的过程，挖掘对象是某一专业领域中第章绪论积累的数据，挖掘的结果要应用于该领域，因此数据挖掘的整个过程都离不开应用领域的专业知识。目前数据挖掘技术在货篮数据（）分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用“”。一套金融风险预测系统一年可以挽回数千万美元的损失；“深蓝”计算机（）能够战胜人类国际象棋世界冠军，成功的一个重要因素是具有知识发现能力，能从存储了万盘棋谱的数据库中提取有用的知识【；如果通过访问著名的亚马逊网上书店，会发现当选中一本书后

23、，会出现“该书的购买者中有百分之同时购买了书”的推荐。可见，数据挖掘技术已经步入人们日常生活。因此，数据挖掘是跨学科发展的产物，数据挖掘就是利用了统计和人工智能技术并与数据库技术相结合的应用程序，它把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己历要解决的问题。广泛的技术支持和现实的需求将使得它以更快的速度发展。数据挖掘分类目前对数据挖掘的研究非常活跃，每年有大量的研究文献涌现。从数据挖掘的处理过程、功能模型、算法研究、应用等不同层面，可以将数据挖掘按功能模型和挖掘对象两个方面进行如下分类。按照功能模型分类数据挖掘功能模型回答了“数据挖掘能够干什么”

24、的问题。数据挖掘模型按照功能分为预测模型和描述模型。在预测模型中，用来预测的称为独立变量，要预测的称为相关变量或目标变量。预测模型包括分类模型、回归模型和时间序列模型；描述模型包括聚类模型、关联模型和序列模型。前者有时又称为有监督学习，后者称为无监督学习。（）分类模型（）用于提取能代表群体的特征属性。在数据挖掘中，分类模型通过对已知类别的个体进行归纳，找出各类的特征属性，即分类模式。在有些情况下，先由领域专家对个体进行分类，再通过分类模型提取分类模式。回归模型（）用属性的历史数据预测未来趋势。在最简单的情况下，可以用标准统计方法，如线性回归等。但现实中往往非线性问题据多，如股票价格的涨跌、机械

25、系统故障的发生等，由于受许多因索的影响，问题变得非常复杂。回归模型的任务就是找出对这些变化的准确描述。当然，也有些技术既可以用于分类，又可以用于回归，如（）等。（）时间序列模型（）用已有的数据序列预测未来。从这一点上看，与回归模型很相似。但回归模型不强调数据间的先后顺序，而时间序列模型要考虑时间特性，尤其要考虑时间周期的层次，如天、周、月、年等，有时还要考虑日历的影响，如节假日等。这里要注意，时间序列模型和对时间序列数据的挖掘是两个不同的概念。对时间序列数据的挖掘可以用到多种模型和方法，后面将详细介绍。（）聚类模型（）是将一个群体分成多个类，使同类个体尽可能相似而不同类间个体差异尽可能大。与分

26、类模型不同的是，聚类模型从未知开始，既不知道具体的分类标准，也不知道会有些什么类。按照给定的聚类参数（如距离等）进行分解、合并。得到的结果由领域专家进行甄别，如果不满足目标，需要改动聚类参数，重新聚类。一旦达到目标，分类规则也就通过聚类参数得到。（）关联模型（）用于发现事物间的关联规则，或称相关程度。关联规则的一般形式是：如果发生，则有百分之的可能发生；其中称为关联规则的支持度（）。例如，“如果的股票价格上升，有的可能微软的股票价格要下降”和“买榔头的人有同时买钉子”两条关联规则的支持度分别为和。（）序列模型（）与关联模型很相似，不同的是序列模型的对象是在时域分布的，发现的规则也与先后顺序有关

27、。例如关联模型发现的条规则可能是：如果机组发生油膜涡动，那么发生油膜振荡的可能是，而序列模型发现的一条规则可能是：如果机组发生油膜涡动，那么分钟内发生油膜振荡的可能是。按照挖掘对象分类按照不同的数据类型，数据挖掘研究在时间序列数据、空间数据、文本数据、多媒体数据等方面展开。时间序列数据（或）是与时间有关的一系列数据。可以进一步分为时间相关数据和序列相关数据。时间相关数据与数据产生的绝对时间有关，如股票价格、银行帐务、设备运行日志等；序列相关数据与数据产生的绝对时间关系不大，而注重数据间的先后次序。典型的序列相关数据是传感器输出数据，简称传感器数据（）。对时间序列数据的挖掘主要是发现序列中事物出

28、现的周期和规第章绪论律，以及不同时间序列间的同步关系。空间数据（）是与空间位置或地理信息有关的数据，如：二维、三维图像数据，地理信息系统数据、人口普查数据等。文本数据（）就是我们一般的文字，如报刊杂志、设备维护手册、故障描述等的内容。对文本数据的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联系，用于自然语言处理，如机器翻译、语音识别、信息检索等。当前一个十分活跃的研究方向是日志（）的挖掘，目的是有效发现用户访问站点的模式，从而提高服务的针对性。多媒体数据（）是随若多媒体技术而日益涌现的声音、图形、图像、超文本等数据。应用领域例如针对大量图像的存储和查询问题而兴起的基于内容的图像检索

29、（，）题。由于与传统的文本数据不同，因此必须采用新的挖掘手段来发现内容和形式间的内在联系。以上各节中简要介绍了数据挖掘的定义、历史和分类，有关数据挖掘的方法、步骤和应用将在第二章作详细的介绍。系统及其它医疗信息系统简介呻】要对医学数据进行数据挖掘，需要选择合适的数据挖掘平台。近年来日益普及的医疗信息系统，系统、系统和系统，构成了医疗信息数据挖掘的理想平台。下面将分别对它们进行介绍。系统，即医学图像存档与通信系统（），是专注于医疗影像获取、通信、管理、存贮、显示和应用的综合影像业务数字化平台。系统实现了医疗影像的数字化和无胶片化的管理，从根本上改变传统的医学图像存储和管理的模式。从年在加利福尼亚

30、召开第一次系统的国际会议到现在，系统已经有了近年的历史。随着、等数字化成像设备的出现并普及，并在现代通信技术和计算机技术的不断推动下，系统的研究逐渐深入并走向成熟。目前，国内已经有上海静安区中心医院、华山医院、海军总医院、山西省肿瘤医院、江滓市人民医院等多家医院使用了系统。系统的使用可以节省大笔的胶片的费用，具有巨大的经济效益；由于系统和、系统关系密切，它的使用必将对医院信息化建设起到巨大的推动作用，产生重大的社会效益。系统一般包括以下四个系统：图像采集子系统、图像显示处理子系统、数据库和图像归档子系统、图像通信和控制子系统。随着互联网的发展，系统的数据安全变得原来越重要，因此，系统也应当包含

31、信息安全子系统。系统第章绪论的各个子系统的功能如下：子系统功能图像采集子系统图像采集、预处理、数据校核、数据再编码、数据上传图像显示处理子系统图像的检索、查询、表达数据库和图像归档子系统图像中心管理、海量图像存储图像通信和控制子系统图像通信、路由信息安全子系统系统安全和系统数据授权使用表各子系统的功能系统的逻辑结构如下：外部系统（，等）图像采集子系统医用成像设备远端客户远端客态打气孙磊、通信和控制子系统数据传输和交换安全子系统图系统逻辑结构图像显示处理子系统数据库和图像归档子系统除了系统，医院信息系统（）和放射科信息系统（）是两个比较重要的医疗信息系统。在医院信息化研究领域，的主要功能如下：（

32、）患者就诊的医疗、护理业务管理，包括病历、处方、会诊和检验等方面的管理：（）药品和医疗设备、器材的管理，包括药房、病床、耗材等管理；（、医院行政、财务管理，包括门诊、挂号、收费、医疗保险等方面的管理：（医院长期发展、计划的辅助决策，包括科室业务质量控制、业绩评定、费用分析和统计分析等。第章绪论的主要功能如下：（）影像检查患者的基本信息管理，包括维护患者影像纪录，记录监控患者、设备和流程的状态；（）影像检查账单信息管理，包括和系统通信获取所需的患者信息；（）影像检查步骤的计划和具体描述；（）影像检查诊断报告的管理，包括报告及模板的维护，报告的修改轨迹维护，电子签名；（）患者做影像检查的预约、就诊

33、管理和检查室安排。对这三个系统的功能进行比较，可以看出，三个系统各有侧重，都是医院信息化不可或缺的重要组成部分，要真正实现医院的信息化，需要将这三个系统融合成一个总体的集成系统，而这个集成的信息系统为医疗信息数据挖掘提供理想的平台。数据挖掘在医疗信息系统上的应用模型要在对医疗数据进行数据挖掘，应当包括数据获取、数据预处理、数据挖掘、知识评价和知识应用几个部分，结合上述介绍的数据挖掘平台，在医疗信息系统上进行数据挖掘的系统框图为：图医疗信息系统上的数据挖掘系统框图其中，各部分要实现的功能如下：（）数据获取。该步骤的功能主要是从医疗信息系统中获取数据挖掘用的数据，首先，要在理解数据挖掘目标的基础上

34、，明确要获取哪些数据，然后医疗信息系统中获取这些数据。因为、和三个系统的侧重点各有不同，单独一个系统往往不能获得所需的全部数据，要分别到这三个系统中搜索相关的数据，比如说，要对某种乳腺疾病数据进行数据挖掘，就要从系统的数据库和图像归档子系统中搜索并获取该乳腺疾病的钼靶图像，并从系统中找到病人的基本信息、病历和以往病史等数据，然后利用得到的完整的数据进行数据挖掘，否则，挖掘出的结果极可能是不完善的。数据获取可以用数据库技术来实现，医疗诊断系统一般都采用标准接口第章绪论和数据库进行交互，因此可以采用通用的关系数据库（如等）从医疗诊断系统中获取相关的信息。（）数据预处理。该步骤用来对从医疗信息系统中

35、获得的数据进行预处理，预处理主要包括两个方面：一是消除噪声，清除有冲突的数据，对有缺损值的数据进行处理，去掉冗余的数据和数据中冗余的属性等操作；二是对数据进行融合（和转换（），数据降维，数据压缩等，进一步方便数据挖掘的进行；三是结合具体数据挖掘问题的需要，对第一步处理过的数据进一步进行处理，比如，对乳腺疾病进行数据挖掘时，要对得到的图像进行特征提取。这步是数据挖掘的关键，它直接影响到数据挖掘的效果，也是工作量最大的一步，要占整个工作量的以上。（）数据挖掘。针对要挖掘的问题的具体情况和对挖掘算法的具体要求（如效率、准确率和背景知识的多少等），选择合适的数据挖掘工具对预处理后的数据进行数据挖掘。比

36、如，如果数据量很大，对算法的效率要求很高，可以选择效率高的决策树算法，选择收敛速度很慢的遗传算法就不合适：而如果没有多少背景知识的情况下，使用模糊集算法会遇到困难，因为无法根据背景知识确定各元素的隶属度函数，这时可以采用不需任何先验知识的粗糙集算法。（）知识评价。在医学的数据挖掘领域，对于数据挖掘得到的知识或规则，除了要利用测试数据检验其可靠性，更要请本领域的专家进行评价，来确定所得到的规则的适用性。（）知识利用。利用得到的知识规则，可以建立一个医疗诊断的专家系统，作为医生诊断的辅助系统。这样利用数据挖掘，就避免了建立专家系统时的知识获取的瓶颈问题。在本文中，将主要进行数据挖掘算法的研究，也就

37、是上面介绍的第（）步的工作。在以后的工作中，可以进行更深入的研究，直至建立一个成熟完善的医疗诊断专家系统。论文的主要研究内容和结构安排本章中首先介绍了论文选题的意义，介绍了医学智能诊断的发展与现状和数据挖掘的基本思想，然后在简要介绍各类医疗信息系统的基础上，提出了在医疗信息系统上进行数据挖掘的系统模型。在后面的各章中，将主要介绍一下内容；第二章中，将对数据挖掘作一个详细介绍，其中包括数据挖掘的现状、数据挖掘模型、各种数据挖掘技术、数据挖掘与相关学科的区别与联系、数据挖掘未来研究方向等方面的内容。第三章中，介绍数据挖掘的决策树算法，在详细介绍决策树算法的基础上，提出第章绪论了决策树算法的改进算法

38、，开发出基于决策树算法的挖掘软件，并应用到乳腺疾病数据的挖掘中，得到了有参考价值的结果。第四章，针对数据挖掘过程中经常遇到的模糊性和不确定性的问题，讨论了粗糙集算法的原理和实际应用，开发出利用粗糙集算法进行规则提取的数据挖掘软件，并利用该软件对乳腺疾病数据进行了挖掘。第五章，将对本文所作的工作进行总结，并指出下一步研究要努力的方向。第章数据挖掘综述第章数据挖掘综述在上一章中简要介绍了数据挖掘的含义、历史和分类，在本章中将详细介绍数据挖掘的研究现状、挖掘模型、挖掘方法和挖掘过程。数据挖掘模型从工程角度讲，数据挖掘是一个需要经过反复的多次处理过程。如同软件工程在软件开发中的作用，数据挖掘的处理过程

39、模型为数据挖掘提供了宏观指导和工程方法。合理的处理过程模型能将各个处理阶段有机地结合在一起，指导人们更好地开发及使用数据挖掘系统。从数据挖掘进入工程应用领域起，就有人对数据挖掘的过程进行归纳和总结，提出了不同的数据挖掘处理过程模型。其中、等人给出的多处理阶段模型是一种通用模型，也是最广为接受的一种处理模型吲，图所示的模型示意图在数据挖掘领域被多次引用。毪择评价知免原始数据图的数据挖掘多阶段处理过程模型该模型中，各个阶段要完成的工作分别是：（）数据准备，了解相关领域的有关情况，熟悉有关的背景知识，并弄清楚用户的要求；（）数据选择，根据用户的要求从数据库中提取与相关的数据，【将主要从这些数据中进行

40、知识提取，在此过程中，会利用一些数据库操作对数据进行处理；（）数据预处理，主要是对阶段产生的数据进行再加工，检查数据的完整性及数据的一致性，对其中的噪音数据进行处理，对丢失的数据可以利用统计方法进行填补；（）数据缩减，对经过预处理的数据，根据知识发现的任务对数据进行再处理，主要通过投影或数据库中的其他操作减少数据量；（）确定的目标根据用户的要求，确定是发现何种类蟛一猾！：一、一瞬祁；、曰陧、，处，一惫第章数据挖掘综述型的知识，因为对的不同要求会在具体的知识发现过程中采用不同的知识发现算法；（）确定知识发现算法根据阶段所确定的任务，选择合适的知识发现算法，这包括选取合适的模型和参数，并使得知识发

41、现算法与整个的评判标准相一致；（）数据挖掘（）运用选定的知识发现算法，从数据中提取出用户所需要的知识，这些知识可以用一种特定的方式表示或使用些常用的表示方式，如产生式规则等等；（）模式解释对发现的模式进行解释，在此过程中，为了取得更为有效的知识，可能会返回前面处理步骤中的某些步骤以反复提取，从而提取出更有效的知识。（）知识评价将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性的检查，以确信本次发现的知识不与以前发现的知识相抵触。在上述的每个处理阶段系统会提供处理工具完成相应的工作。在对挖掘的知识进行评测后，根据结果可以决定是否重新进行某些处理过程，在处理的任意阶段都可以返回以

42、前的阶段进行再处理。年，和通过对很多数据挖掘用户在实际工作中遇到的问题的了解，发现用户的很大一部分工作量是与数据库的交互上。他们从用户的角度对数据挖掘处理过程进行了分析，认为数据挖掘应该更着重于对用户进行知识发现的整个过程的支持，而不是仅仅限于在数据挖掘的一个阶段上，进而提出了以用户为中心的处理过程模型【。该模型特别注重对用户与数据库交互的支持，用户根据数据库中的数据，提出一种假设模型，然后选择有关数据进行知识的挖掘，并不断对模型的数据进行调整优化。和在他们开发的数据挖掘系统（）中采用了这种以用户为中心的处理过程模型。年斯坦福大学的在其博士论文中给出另外一种数据挖掘处理过程模型【“。该模型强调

43、由数据挖掘人员和领域专家共同参与数据挖掘的全过程。领域专家对该领域内需要解决的问题非常清楚，在问题的定义阶段由领域专家向数据挖掘人员解释，数据挖掘人员将数据挖掘采用的技术和能解决问题的种类介绍给领域专家。双方经过互相了解，对要解决的问题有一致的处理意见，包括问题的定义及数据的处理方式。年中国科学院计算研究所的朱廷绍博士认为前述模型对知识发现过程中的反复学习和多目标学习支持不够，即针对某种知识发现算法确定一批相关数据，使用其他算法时，这批数据即告无效，必须重新进行数据的提取和预处理。为此在他的博士论文中提出支持多数据集多学习目标的数据挖掘处理模型枷，将数据和学习算法尽量分离，使得数据挖掘更适合实

44、际工作的需要并使得最终用户和数据挖掘人员的之间的影响尽量小，以提高学习效率。为了实现数据与学习算法分离的目的，该模型使用第章数据挖掘综述了数据集的概念。数据集是指为了完成某项学习任务而从数据库中提取出的数据的集合。在数据集的描述中包括对数据的描述和训练数据与测试数据的生成方法。数据集并不是针对某一个学习算法，而是针对某类问题而定义的，它给出了问题所涉及的数据。在具体算法进行数据处理时，必须对数据进行简单的筛选和加工以剔除冗余数据。为了实现多学习目标，为数据集定义统一的接口。任何个使用该接口的学习算法都可以在不同的数据集上进行训练和测试，不同的学习算法也可在同一数据集上进行知识提取，从而实现多目

45、标学习。上述种处理模型的共同点是都要经过准备、预处理、算法设计、数据挖掘和后处理等共同的阶段，如图所示。其中准备阶段包括问题定义、对象理解、数据收集等准备工作；预处理包括数据清理、压缩、变换等；后处理包括结果解释、输出、评价、分析、使用等。图四种数据挖掘处理模型公共处理阶段但是上述种处理模型针对的问题不同，侧重点有所不同，因此有不同的处理步骤和应用场合。如果将上述种模型依次称为模型、模型、模型、模型，它们的差异对比见表。模型模型模型模型提出，朱廷绍人等时间通用数据挖掘模以用户为中心，特别注针对专业性很强、针对数据准备侧重型重对用户与数据库交互需要数据挖掘和最耗时的问题，占的支持领域专家共同协提

46、出提高数据作的情况利用率的方法通用性强，各阶段强调对用户的支持，用强调专家参与。由数据与学习算特相对独立，每个处户根据数据提出假设模领域的专业知识法分离，数据理阶段有处理工型，然后选择有关数据指导数据挖掘的次准备，多次应点具完成相应的工进行挖掘，并不断对模各个阶段，并对发用作。型的数据进行调整优化现知识进行评价。表数据挖掘处理模型对比除上述几种处理模型外，还有等公司提出的模型【】和微软公司提出的数据挖掘模型，）等。与前面种处理模型不同的是：后两种数据挖掘模型是为使数据挖掘商品化而提出，是企业或企业集团各自制定的数据挖掘标准的一部分，重点是数据挖掘与数据仓库和其它应用程序间的接第章数据挖掘综述口

47、，其中微软的数据挖掘模型已经集成到新发行的数据库系统种，其他的大公司像、等也都提出了自己的数据挖掘的模式，并添加到各自的产品中以支持数据挖掘。数据挖掘技术在选定了数据挖掘过程模型后，一个需要着重考虑的是挖掘算法的选择。如前所述，数据挖掘是从人工智能领域的一个分支机器学习发展而来的，因此机器学习、模式识别、人工智能领域的常规技术，如聚类（）、决策树（）、统计等方法经过改进，大都可以应用于数据挖掘。表是数据挖掘权威站点对近年数据挖掘产品和工具所采用技术进行的统计。年月年月年月年月决策树规则发现神经网络贝叶斯网络关联规则聚类可视化文本挖掘表数据挖掘常用技术统计从上表中可以看出数据挖掘常用技术的如下特点：（）决策树一直是一个研究的热点；（）近年来神经网络、贝叶斯网络、关联规则和可视化等技术在数据挖掘中的应用发展很快；（）文本和数据的挖掘是一个新兴的研究方向。本节中，将对人工神经网络、粗糙集理论、关联规则、进化计算技术在数据挖掘中的应用分别进行介绍，有关决策

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

数据挖掘及其在医学诊断中的应用

最新文档

相关资源

相关搜索