数据挖掘:聚类分析及其应用

上传人:shug****ng1 文档编号:180452916 上传时间:2023-01-06 格式:DOCX 页数:3 大小:10.79KB
收藏 版权申诉 举报 下载
数据挖掘:聚类分析及其应用_第1页
第1页 / 共3页
数据挖掘:聚类分析及其应用_第2页
第2页 / 共3页
数据挖掘:聚类分析及其应用_第3页
第3页 / 共3页
资源描述:

《数据挖掘:聚类分析及其应用》由会员分享,可在线阅读,更多相关《数据挖掘:聚类分析及其应用(3页珍藏版)》请在装配图网上搜索。

1、聚类分析及其应用摘 要:数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技 术。其中聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品 或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合 理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的 情况下进行的。关键词:数据挖掘,聚类分析,聚类算法,中医临床正 文:挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型,算 法将首先分析您提供的数据,并查找特定类型的模式和趋势。算法使用此分 析的结果来定义用于创建挖掘模型

2、的最佳参数。然后,这些参数应用于整个数据集, 以便提取可行模式和详细统计信息。聚类分析(Clus ter Analysis)又称群分析,是根据“物以类聚”的道理,对样品或 指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理 按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情 况下进行的。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目 的和应用。大体上聚类分析主要的算法可以分为:1)划分方法, 2)层次的方法, 3)基于 密度的方法, 4)基于网格的方法, 5)基于模型的方法。如果聚类分析被用作描述或者探查 的工具

3、,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。划分方法:给定一个包含 n 个数据对象或元组的数据库,一个划分方法构建数据的 c 个划分,每个划分表示一个簇,且cWn。通常会采用一个划分准则(经常称为相似度函数), 例如距离,以便在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。这些聚 类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及 处理复杂形状的聚类,基于划分的方法需要进一步的扩展。层次方法:对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向 下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一

4、旦 一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方 法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚 类。基于密度的方法:提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要 思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声” 孤立点数据,发现任意形状的簇。基于网格的方法:基于网格的聚类方法采用一个多分辨率的网格数据结构。把对象空间 量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。 这种方法的主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化

5、空 间中每一维的单元数目有关。基于模型的方法:基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最 佳拟合。基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种 聚类方法试图优化给定的数据和某些数学模型之间的适应性。聚类分析在数据挖掘中的应用聚类分析在数据挖掘中的应用主要有两个方面:一、聚类分析可以作为其他算法的预处 理步骤,这些算法再在生成的簇上进行处理。可作为特征和分类算法的预处理步骤,也可将 聚类结果用于进一步关联分析。二、可以作为一个独立的工具来获得数据分布的情况,观察 每个簇的特点,集中对特定的某些簇做进一步分析。可用在市场细分、目标顾客定位、业绩 评估、

6、生物群种划分等方面。如在商务上,聚类分析可以帮助市场分析人员从客户基本库中 发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。三、聚类分析可以完成孤 立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可 能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为。聚类分析在中医方面的运用:聚类分析在中医辨证客观化、定量化、标准化的研究中,多用于疾病的中医证候分类, 为中医临床辨证论治依据提供分型的方法学。由于采集的中医证候信息数据为属性变量,这 种变量的特点给聚类分析方法的选择带来一定的局限性。因此在病例的聚类过程中,需进行 多种聚类方法的探索性分析。如欧爱华

7、等在SARS与急性上呼吸道感染中医证候分型及指标 数量化方法的研究中,运用组间均联法(Between-groupslinkage)和最小方差法(WardsMet hod)的同时也进行了其他的聚类方法的探索性分析。目前,常用于中医证候聚类分型的 方法有:最小方差法、组间均联法,所选择的测度(距离)有:欧几里德距离、形状测度(Shape) 等。由于对聚类分析方法优劣的评价至今尚无系统的检验理论,因此在样品聚类分析中,最 重要的是根据病人四诊指标的变量类型,进行多种聚类方法下的探索性分析,并且对每次聚 类的结果结合专业知识进行判断,最后选取较为符合专业特征的分类结果并给予临床较为合 理的证候名称。参

8、考文献:1、 范明,孟小峰译 数据挖掘:概念与技术一一聚类分析M.北京:机械工业出版社,2001.223-2582、边肇祺 张学工等 模式识别(第二版)。北京:清华大学出版社, 2002.273-2833、钱锋等,知识发现中的聚类分析及其应用J杭州师范学院学报2001 (2) 34-374、张世筠,沈明秀,王先春,等中医肝证的变量聚类分析J.中国中西医结合杂 志,2004,24(1): 75-765、李建生,胡金亮,余学庆,等.基于聚类分析的径向基神经网络用于证候诊断的研究J.中 国中医基础医学杂志,2005,11(9): 685-6876、刘罡,伍金林,段俊国,等.聚类分析在糖尿病视网膜病变中医证候特征研究中的运用J. 四川中医,2007,25(11): 24-25

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!