各种聚类方法在规划分区中的应用

上传人:d****1 文档编号:181931723 上传时间:2023-01-18 格式:DOCX 页数:5 大小:18.91KB
收藏 版权申诉 举报 下载
各种聚类方法在规划分区中的应用_第1页
第1页 / 共5页
各种聚类方法在规划分区中的应用_第2页
第2页 / 共5页
各种聚类方法在规划分区中的应用_第3页
第3页 / 共5页
资源描述:

《各种聚类方法在规划分区中的应用》由会员分享,可在线阅读,更多相关《各种聚类方法在规划分区中的应用(5页珍藏版)》请在装配图网上搜索。

1、聚类方法在规划分区中的应用以模糊聚类为例摘要关键词引言1.聚类分析聚类分析可以看做是一种非监督的分类方法,在分类时只依赖对象自身所具有的属性来区分对象之间的相似程度。将总体中的个体分类以发现数据中的结构,希望一个类中的个体彼此接近或相似,而与其它类中的个体相异,这样就可以对划分出来的每一类进行深入的分析从而概括出每一类的特点1利用聚类结果,我们能够提取数据集中隐藏的信息,对未来数据进行预测和分类。目前聚类算法主要分为层次化聚类方法,划分式聚类方法,基于密度的聚类方法,基于网格的聚类方法,基于核的聚类算法,基于谱的聚类方法,基于模型的聚类方法,基于遗传算法的聚类方法,基于SVM的聚类方法,基于神

2、经网络的聚类方法等2。通常聚类分析算法一般包含四个部分:(1)特征获取与选择;(2)计算相似度;(3)分组;(4)聚类结果展示;(5)聚类结果评价。相似度一般用距离函数表示,包括形态、语义、状态、密度、时间等产生的差距,用来度量模式之间的相似程度。常见的距离函数有欧式距离,马氏距离,夹角余弦距离,Pearson相关系数,Tanimoto测度等。在进行聚类分析时一般根据应用的场合来设计不同的距离函数,目前还没有一个可以通用的距离函2。各种聚类方法1.1层次聚类方法层次聚类算法又称为树聚类算法或系统聚类算法,层次的方法按数据分层建立簇,形成一棵以簇为节点的树。这种算法的基本思路是首先将所有对象看成

3、独立的个体类,通过计算类间的距离来选择最小距离的两个类合并成一个新类,再重新计算新类和其它类之间的距离选择最小距离的两个类合并,依次迭代合并直到没有合并为止。有基于聚集和基于分割的聚类两种,分别是基于数据的最小距离和最大距离原理。层次聚类算法可以在不同粒度水平上对数据进行探测,而且很容易实现相似度量或距离度量,对于圆形和球形分布的数据具有较好的效果。但是层次聚类算法由于合并或分裂簇的操作不可逆,也给聚类结果带来不准确31.2划分式聚类方法划分式聚类方法的主要思想为,对于一个给定的n个数据对象的数据集,需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时

4、,得到最终聚类结果。14与层次聚类算法得到树形图相似,划分方法通过得到关于数据集的单一的划分来呈现数据的内在结构。最典型的划分式聚类算法就是k-means算法和k-medoids算法以及它们的变种。划分式聚类方法也是对于圆形和球形分布的数据模式具有较好的识别效果。对于中小规模比较均匀的数据聚类,划分方法就可以得到局部最优。划分方法在易理解性、易实施性和通用性等方面优于其他的聚类方法3但是与层次方法相比,划分方法能处理一些构建树形图很耗时而使操作变得几乎不可能的大数据集,而与之相伴的关于聚类类别数的选择是它不得不面对的一个很难解决的问题1。1.3基于密度的聚类方法基于密度的聚类算法采用局部数据的

5、密度作为标准来划分数据。算法的主要思想就是将空间中的数据按照聚集密度的高低来划分成不同的分组,密度相近的划分成一个2。与前面的方法不同的是,这类方法将簇看作是数据空间中的高密度对象区域。通常情况下有两个参数需要被指定,一个是能确定“容积”的参数,另一个则是最小数据对象/模式数。一个密度阈值通过这两个参数而得到(最小数据数除以“容积”)。1只要临近区域的数据对象或点的数目超过一定阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定半径内必须至少包含某个数目的点数。这样的方法可以消除“噪声”数据,以及帮助发现任意形状的聚类。4基于密度的聚类方法。这类方法将簇看作是数据空间被低密度区域分割

6、开的高密度区域。该类算法除了可以发现任意形状的类,还能够有效去除噪31.4基于网格的聚类方法基于网格和密度的聚类方法是一类重要的聚类方法,它们在以空间信息处理为代表的众多领域有着广泛应用.特别是伴随着新近处理大规模数据集、可伸缩的聚类方法的开发,其在空间数据挖掘研究子域日趋活跃.基于网格的聚类算法从输入对象中构建一个网格结构,围绕模式组织由矩形块划分的值空间,每个对象分类到一个单元或网格。基于网格的聚类算法常常与其他方法相结合,特别是与基于密度的聚类方法相2它的缺点是只能发现边界是水平或垂直的聚类,而不能检测到斜边界。它也不适用于处理高维数据集,因为网格单元的数目随维数的增加而呈指数级增长。1

7、基于网格的聚类方法采用一个多分辨率的网格数据结构,将对点的处理转化成对空间的处理,再通过对空间的划分以达到数据聚类的目4。这种方法的主要优点是处理速度快,处理时间独立于数据对象的数目,只与量化空间中每维的单元数目有关通过对网格的处理达到对分布于网格内部个体的处理聚类算法的选取与应用领域具有很强的相关性,需要根据实际情况来进行恰当的选择。2. 模糊聚类方法上面提到的聚类方法都是对个体的硬性划分,明确个体应该属于聚类结果中的哪一类个体对于类只有两种情况:属于和不属于。而模糊聚类则给出个体对于某一类的隶属度,个体对于类有不完全属于的情况和含义。除FCM算法,还有一些其它的模糊聚类算法,如文献115给

8、出的迭代贝叶斯模糊聚类(IterativeBayesianfuzzyclustering);文献116的模糊子空间聚类(fuzzysubspaceclustering,FSC);文献117结合FCM和最大期望估计使算法能够有效的分析簇间对象个数,密度,形状变化较大的情况;文献118提出一种活跃半监督模糊聚类算法;其它还有模糊自组织映射聚类算法119等2。模糊聚类在规划分区中的应用目前现存的大部分的聚类标准或是目标函数可以归结为以下几类80:(1)以紧密性为目标的聚类分析,即簇内对象联系紧密,簇间关系疏远,这类聚类算法代表性的算法有下面小节将介绍的划分式方法中k-means算法,层次聚类算法等。

9、这类算法对球形分布的数据或者是本身可分性就很强的数据有很好的聚类效果,但是对复杂结构的数据或分布就无能为力;(2)以连通性为目标的聚类分析,这类算法的基本思路就是相互邻接的数据应该有相同的模式,例如基于密度的聚类,基于路径的聚类等;(3)以空间隔离为标准进行聚类分析,单纯的以空间隔离性作为标准难以获得很好的有意义的聚类分析结果,通常和其它标准相结2模糊聚类分析在土地定级估价商服中心类型划分中的应用模糊聚类分析一般有两大类,应用较广泛的是基于模糊等价关系的动态聚类5。通过构建具有自反、对称、传递性的模糊相似关系矩阵,自定01之间的某个数作为分类界线。随着入在0和1之间动态取值,得到相对应的分类结

10、果。当入从1逐渐减小时,分类将由细变粗。试用模糊聚类分析划分均质地域模糊聚类分析是把对象归类,属于分类性质的问题,是要对一大批对象,按它们各自的特性进行合理的分类,没有任何模式可供参考,是一种无模式的分类问题,模糊聚类分析常利用最大树方法、模糊等价关系等方法来进行分类6最大树法,是将界值从1依次变小,不同取值时看是否有元素相似度达到要求,有则连接;最后形成一棵树,将所有节点连接模糊聚类方法在地质灾害分区中的应用用C+语言编程实现铁法煤田大隆矿区的地质灾害分区7,模糊相似矩阵画出最大树,并依此最大树进行聚类基于层次聚类方法的区域土地用途分区研究以安徽省天长市为例层次聚类分析方法是统计学中多元统计

11、分析的常用工具,应用较广泛,但是研究发现层次聚类分析的方法在指标过多的情况下会导致单元间差异弱化,不能很好地体现区域差异性。因此,应用该方法,需要先将指标按一定的准则归类处理,然后再在处理的基础上,进行层次聚类分析8。进行土地利用分区的方法有多种,主要有叠置法、聚类分析法和判别分析法等。常用的聚类分析有层次(系统)聚类分析法、K均值聚类分析法。用层次聚类分析法,得到层次分析树形图(模糊数学作业中常画的图),将天长市按土地用途分为中心城镇建设区、东南部优化利用区、东北部开发潜力区、南部林业生态区、中西部农业生产区共五个区域8聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标

12、准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。聚类方法评价聚类分析简单、直观。聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。研究者在使用聚类分析时应特别注意可能影响结果的各个因素。异常值和特殊的变量对聚类有较大影响当分类变量的测量尺度不一致时,需要事

13、先做标准化处理。当然,聚类分析不能做的事情是:自动发现和告诉你应该分成多少个类属于非监督类分析方法期望能很清楚的找到大致相等的类或细分市场是不现实的;样本聚类,变量之间的关系需要研究者决定;不会自动给出一个最佳聚类结果;基于模糊聚类技术的区域生态功能区划研究以三峡库区万州为例传统的聚类分析法是一种硬聚类,隶属度不是1就是0,而生态系统本身具有复杂性、模糊性和不确定性,硬聚类并不能真正地反应区划对象和类别的实际关系.方法的局限对区划结果的精确度造成影响,制约了生态功能区划实践的开展9模糊聚类分析通过建立模糊相似关系,对给定对象进行分类,在地理分区和土地分级领域有广泛应用对三峡库区环境研究,用模糊

14、C均值聚类方法在GIS平台上分出3个一级、9个二级生态功能区。通过调整所有个体对该组的隶属度,使组内个体到组中心距离平方和隶属度的乘积和最小的方法确定聚类。预先定义分组个数9模糊-动态聚类法在河北省农业节水区划中的应用模糊一动态聚类是将模糊聚类与动态聚类相结合的一种聚类方法,其基本原理是计算各个基本单元的相似性程度,合并测度最小的单元为一类,选取其中代表样本作为聚类中心,再按某种聚类原则(例如最小距离准则等)使其余样本向各中心聚类,从而得到初始分类;然后判断初始分类是否合理,若不合理就修改分类,如此反复迭代,直到获得合理的分类。10用模糊动态聚类法,给出河北省农业节水区划,将最开始的以行政区和

15、河流流域确定的38个区分成七个不同区域。先由模糊聚类得出分类结果,通过计算个体到各个组中心的欧式距离使之最小,调整个体到其它组,计算组中心;重复,最终使分类结果不用再调整,类似K均值法io基于主成分分析和模糊聚类方法的全国节水灌溉分区研究分区常用的经验法、指标法、类型法、重叠法、聚类法11FCM是一种动态聚类法,其基本思想是先选择若干样本作为聚类中心,再按某种聚类准则(例如最小距离准则等)使其余样本向各中心聚类,从而得到初始分类;然后判断初始分类是否合理,若不合理就修改分类,如此反复迭代,直到获得合理的分类。11通过主成分分析,降低影响因子个数,再用模糊C均值聚类算法分析。模糊C均值聚类分析,

16、是直接确定若干聚类中心,通过计算个体到各个聚类中心距离调整个体对各类隶属度。最终至不再调整。模糊矩阵由个体对各类别的隶属度表示,不是两个体间的相似性模糊聚类法有较严格的理论基础和计算方法,能够揭示因素间的内在本质差别和联系,消除了定性分析的主观性和任意性12。对福建省农村能源区划,进行模糊聚类(模糊等价聚类),将全省分为五类区域13对安塞县的水土保持区划,模糊聚类,模糊等价矩阵,分为三个13模糊等价聚类的一般步骤1、选择分类对象2、选取分类指标3、4、搜集数据5、6、数据标准化7、8、建立模糊相似关系矩阵9、10、构建模糊等价关系矩阵11、12、选取水平截集分类13、14、对聚类结果评估1969年,Ruspini首次将模糊集理论应用到聚类分析中,提出了模糊聚类算法(fuzzyc-means,简称FCM).i4模糊等价聚类:相似矩阵;不用预先确定类别数模糊C均值聚类:隶属度矩阵;需要预先确定类别模糊动态聚类:相似矩阵;按照等价聚类结果确定类别数,随便选择各类别中心,通过计算个体到各个组中心的欧式距离使之最小,调整个体到其它组,计算组中心;重复,最终使分类结果不用再调整,类似K均值法;也有说法将由不同入值确定不同类别数,动态取入动态获得分类结果称为动态聚类13

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!