人工智能聚类方法

上传人:s****a 文档编号:181548124 上传时间:2023-01-14 格式:DOCX 页数:3 大小:14.40KB
收藏 版权申诉 举报 下载
人工智能聚类方法_第1页
第1页 / 共3页
人工智能聚类方法_第2页
第2页 / 共3页
人工智能聚类方法_第3页
第3页 / 共3页
资源描述:

《人工智能聚类方法》由会员分享,可在线阅读,更多相关《人工智能聚类方法(3页珍藏版)》请在装配图网上搜索。

1、聚类方法摘要:聚类方法是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程被成为聚类。由聚类所组成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此类似,与其他簇中的对象相异。在许多应用中,可以将一些簇中的数据对象作为一个整体来对待。关键词:聚类方法聚类过程聚类是研究数据间逻辑上或物理上的相互关系的技术,其分析结果不仅可以揭示数据间的内在联系与区别,还可以为进一步的数据分析与知识发现提供重要依据。它是数据挖掘技术中的重要组成部分。作为统计学的重要研究内容之一,聚类分析具有坚实的理论基础,并形成了系统的方法学体系。数据挖掘中聚类算法的应用很广泛。在商务上,聚类能帮助市场分析人员从客户

2、基本库中发现不同的客户群,并且用不同的购买模式来刻画不同的消费群体的特征。在生物学上,聚类能用于帮助推导植物和动物的种类,基因和蛋白质的分类,获得对种群中固定结构的认识。聚类在地球观测数据中相似地区的确定,根据房屋的类型、价值和位置对一个城市中房屋的分类发挥作用。聚类也能用来对web上的文档进行分类,以发现有用的信息。聚类分析能作为一种独立的工具来获得数据分布的情况,观察每个簇的特点,并对某些特定的节点进一步分析。此外,聚类还可以作为其他方法的预处理步骤。数据聚类正在蓬勃的发展,有贡献的领域包括数据挖掘,统计学,机器学习,空间数据库技术,生物学以及市场营销。现在数据聚类分析已经成为一个非常活跃

3、的研究课题。作为统计学的一个分支,聚类分析已经被广泛地研究若干年,主要集中在基于距离的聚类分析。基于k-means(k-平均值)、k-medoids(k-中心点)和其他一些的聚类分析工具已经被加入到许多统计分析的软件中,例如S-Plus、SPSS和SAS。在机器学习领域,聚类分析是无指导学习的例子。与分类不同,聚类不需要依赖事先定义的类和带符号的训练实践。所以聚类分析是观察式学习,而不是示例式学习。在数据挖掘领域,研究工作已经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。活跃的研究课题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据

4、库中混合数值和分类数据的聚类方法。由于研究的需要,现在将重点放在数据挖掘中聚类方法的应用上。数据挖掘中对聚类的典型要求如下:(1) 可伸缩性。一般的聚类算法使用鱼规模小于200的数据集合上,而现在很多大型数据库的数据量达到百万个,这就要求聚类有好的可伸缩性。(2) 处理不同类型属性的能力。应用的多元化,可能要求一个聚类能处理多种数据类型,像二元类型、分类/标称类型、序数型数据,或者这些类型的混合。(3) 发现任意形状的聚类。基于距离的聚类算法趋向于发现相近尺度和密度的球状簇。但一个簇的形状是任意的,所以就要求聚类能发现这些被忽略的聚类。(4) 用于决定输入参数的领域知识的最小化。由于聚类结果对

5、输入参数的要求很敏感,但参数通常很难确定,特别是对于高维对象的数据来说。所以输入参数的质量直接影聚类的结果,这就加重了用户的负担。(5) 处理噪声数据的能力。绝大多数数据集中存在很多孤立点、空缺、未知数据或错误数据。一些聚类算法对于这样的数据敏感,导致低质量聚类结果。(6) 对输入数据的顺序不敏感。(7)高维性。一个数据库或是数据仓库可能只包含若干维,很多聚类算法只涉及两到三维。人类对于三维以内的数据有判断性,高于三维的数据聚类的挑战性很高,数据可能很稀疏,也可能高度偏斜。(8)基于约束的聚类。现实世界可能要在约束条件下进行聚类,这就要求既要满足客户特定的约束,又具有良好聚类特性的数据分组。(

6、9)可理解行和可用性。用户希望聚类结果是可解释的,可理解的,并且是可用的。也就是,聚类与最后的应用相联系。应用目标对聚类方法的影响也是一个重要的课题。2.1聚类过程简述聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。聚类问题的关键是把相似的事物聚集在一起。聚类的一般步骤的细节如下:(1)特征选择。必须适当地选择特征,尽可能多的包含任务关心的信息。在特征中,信息多余减少和最小化是主要目的。(2)相似性度量。用于定量度量两个特征向量之间如何“相似”或“不相似”。一个简单的度量如欧氏距离经常被用来反应两个特征向量之间的非相似性。(3

7、)聚类算法。已经选择了合适的相似性度量,这步涉及到选择特定的聚类算法,用于揭示数据集中的聚类结构。(4)结果验证。一旦用聚类算法得到结果,就需要验证其正确性。(5)结果判定。在许多情况下,应用领域的专家必须用其他实验数据和分析判定聚类结果,最后做出正确的结论。聚类分析有很多种算法,每种算法都是优化了某一方面或某几方面的特征。聚类算法的优劣标准本身就是一个值得研究的问题,对于聚类的评价有不同的标准。现在通用的聚类算法都是从几个方面来衡量的,而没有完全使用量化的客观标准。下面给出六条关于聚类的主要标准:(1)处理大的数据集的能力。(2)处理任意形状,包括有间隙的嵌套的数据的能力。(3)算法处理的结

8、果与数据输入的顺序是否相关,也就是说算法是否独立于数据输入顺序。(4)处理数据噪声的能力。(5)是否需要预先知道聚类个数,是否需要用户给出领域知识。(6)算法处理有很多属性数据的能力,也就是对数据维数是否敏感。可以看出,聚类算法是一项重要的技术,我们一定要努力将其提高到另一个境界。1 李小展.基于半监督的K-means聚类改进算法J.东莞理工学院学报,2011,(01).2 谷波,张永奎.文本聚类算法的分析与比较J.电脑开发与应用,2003,(11).王忠强,李贵,韩子扬,郑新录.基于K-medoids聚类算法的研究与实现J.硅谷,2011,(02).4贾丙静,吴长勤,葛华.Web文本聚类的研

9、究与实现J.长春师范学院学报,2011,(06).杨昕,彭玉青.结合蚂蚁算法的K-Means聚类分析J.河北工业大学学报,2007,(03).朱贵良,赵凯,赵锋.基于组合优化方法的K-means聚类算法实现J.华北水利水电学院学报,2007,(05).蒋庆丰,李梓,程晓旭.K-Means聚类算法研究及图形演示的实现J.信息技术,2010,(03).8孙祥,赵勇.基于就业吸引力的大学生区域流向分类研究J.黄冈师范学院学报,2010,(03).赵锋,薛惠锋,王伟.基于复合形遗传算法的K-means优化聚类方法J.航空计算技术,2006,(05).10 龚静,李英杰.文本聚类算法的分析与比较J.湖南环境生物职业技术学院学报2006,(03).

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!