聚类分析的方法

上传人:d**** 文档编号:130835505 上传时间:2022-08-05 格式:DOCX 页数:20 大小:175.98KB
收藏 版权申诉 举报 下载
聚类分析的方法_第1页
第1页 / 共20页
聚类分析的方法_第2页
第2页 / 共20页
聚类分析的方法_第3页
第3页 / 共20页
资源描述:

《聚类分析的方法》由会员分享,可在线阅读,更多相关《聚类分析的方法(20页珍藏版)》请在装配图网上搜索。

1、聚类分析的方法一、系统聚类法系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的 类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别 之间的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的自然谱 系,它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类目的不同,系统聚 类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型 分析。系统聚类分析法基本步骤如下(许志友, 1988)。(一)数据的正规化和标准化由于监测时所得到的数值各变量之间相差较大,或因各变量所取的度量单位不同,使数 值差

2、别增大,如果不对原始数据进行变换处理,势必会突出监测数据中数值较大的一些变量 的作用,而消弱数值较小的另一些变量的作用,克服这种弊病的办法是对原始数据正规化或 标准化,得到的数据均与监测时所取的度量单位无关。设原始监测数据为Xij (i=1, 2,,n; j = 1, 2,,m; n为样品个数,m为变量个数), 正规化或标准化处理后的数据为Zij (=1, 2,,n; j = 1, 2,,m)。1. 正规化计算公式如下:7-32)i=1, 2, , n; j=1, 2, , m)2. 标准化计算公式如下:7-33)i=1, 2, , n; j=1, 2, , m)其中:二)数据分类尺度计算为了

3、对数据 Zij进行分类,须对该数据进一步处理,以便从中确定出分类的尺度,下列 出分类尺度计算的四种方法。1.相关系数 R两两变量间简单相关系数定义为:HL_乞(乙-矗SRR.二 目 伍(7-34)(i, j = 1, 2,,m)其中一般用于变量的分类(R型)。有一 1ij1且愈接近1时,则此两变量愈亲近,兔 愈接近 -1 ,则关系愈疏远。2相似系数丙相似系数的意义是,把每个样品看做m维空间中的一个向量,n个样品相当于m维空间 中的n个向量。第i个样品与第j个样品之间的相似系数是用两个向量之间的夹角余弦来定 义,即:(i, j = 1, 2,,m)常用于样品间的分类愈亲近。(Q型)。有一仁第G,

4、且色的值愈大,愈接近I,两个样品关系3欧氏距离。力对每个样品,把它的m个因素(变量)的值看做m维空间中的一欧氏距离。力含义为,个点,贝2个样品就是7n维系空间中n个点,则第i个样品与第j个样品之间的距离h-lDij =为:( 7-36)(i, j = 1, 2,,m)一般用做样品间的分类。显然有0ij1,距离。力愈小,表示两个样品愈亲密,反之则疏远。4斜交空间距离。功由于变量间往往存在程度不同的相关关系,以欧氏距离计算距离,会使结果发生偏差因而对样品 i, j 之间的距离可用更广义的斜交空间距离作为分类尺度。7-37)(i, j = 1, 2,,n)其中EX-矗 CZiL-zD騷二:护冷护冷(

5、k, L=1, 2,,m)一般用于样品的分类。有0lij1,且距离D】ij愈小表示两个样品愈亲密。(三)分类树形图的绘制绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集中在一起,用较 短的线联结起来,而相似程度低的样本或类之间用较长的线联结。绘制分类树形图可采用两 种方法。1. 一次形成分类法首先选出相关系数最大的元素对(或距离矩阵中最小的元素对),然后选出次大的元素 对(或距离矩阵中次小的元素对),依次类推。选出元素对后,将各元素对按下列准则连接 成群:若两个元素在已形成的群中没有出现过,则形成一个独立的新群;若两个元素中有一个是在已经分好的群中出现过,则另一个加入该群;若两个

6、元素都在已分好的两群中,则把两群连一起;若两个元素都在同一群中,则这对元素就不再作处理。这样反复进行,直到所有的元素都分群完毕为止,形成一个树形图。2. 逐步形成分类法假设分类是对样品进行的,且采用的分类尺度是距离。从距离矩阵中选出最小的元素Dlij, 这说明第k个样品与第L个样品距离最近(关系最亲密)应首先归入一组,然后按下面方 法进行计算:首先,把第五个样品与第L个样品的相应的各个变量取平均值,用它代替第k个样品, 并取消第 j 个样品,形成新的样品数据,它比归并前的样品数目减少一个(当为组合变量时 应取加权平均值)。其次,根据新的样品数据,重新计算距离矩阵。再从新的距离矩阵中选出最小的D

7、h,说明新的样品数据中第心个样品与第U个样品距 离最近(关系最密切),应将它们归为一组,然后重复进行上述(1)、(2)、(3)步工 作。以上各步重复进行n-1次则全部样品最后归并为一组,最后按归组的先后顺序及相应的 距离大小作出分类树形图。(四)类别的划分对于已建立的相似性矩阵,即可根据不同的且置信水平进行分类。分类时应先求出R的 入截矩阵。7-38)其中:显然Rrij=1时,i与j应归为同一类,否则为不同类。对于不同的又,可得到不同的分类方案,看01,则毘所分出的每一类必是兔的某一类的子类。图7-3分类树形图左边的每一个分支代表一个成员,而右边的“根”则代表全部成员的总体。 由分支向根移动时

8、,成员聚合成点群的程度愈来愈高。以图7-3 为例,有5个原始成员,可能的点群有:五个点群,每个点群中成员之间的相 似程度最高(只有一个成员);4个点群,即成员(1、2)合并为一个点群,再加上余3 个成员;3个点群,即(1、2),(3、4),(5);两个点群,即(1、2),(3、4、5) 最后为一个点群,包括所有5 个成员。点群愈少,则点群中成员之间的相似程度愈差,这 就可以根据所研究问题的需要而选取。运用Q式分类树形图进行地下水化学污染综合分类时,还应结合地区的水文地质条件分 析判断,才能达到较好的效果。分H2 J :根4 J_L:划分点髀的朵相5 I似性水平图 7-3 分类树形图二、灰色聚类

9、法灰色聚类是将聚类对象对于不同聚类指数所拥有的白化数,按n个灰类进行归纳,判断该聚类对象属于哪一类。灰色聚类可按下述步骤计算(邓聚龙, 1987):一)确定灰类白化系数若记I、II、III,为聚类对象(即样品),1*、2*、3*,为聚类指示(即评价因 子),1、2、3,为聚类灰数(即等级划分),第i类聚类对象对第j个聚类指标所拥有 的白化数为(实测值),白化系数可按下式计算:7-39)(k 1, 2,n; j = 1,2,m)二)求标定聚类权7-40)三)求聚类系数第j个聚类对象对于第j个灰类的聚类系数为:(7-41)同理可得是个取样点几种污染因子的k个聚类系数矩阵。(四)灰色聚类取最大值为所

10、对应的水质级别为该评价水体的水质级数。三、模糊数学法在评价地下水污染时,通常是按照污染物质的单项污染值及综合污染值来区分水质属于轻度 污染或严重污染。这样用一个污染指数值来判定污染程度,不能客观地反映出污染状况。按 模糊数学的观点,地下水污染评价中“污染程度”的界线是模糊的,对于这样的模糊问题应用 模糊数学方法把许多资料、判断及各种定性描述转化为模糊语言,对地下水污染进行综合识 别和判断,将会得到更为合理的解决。(一)模糊聚类分析法模糊聚类分析法就是根据各项污染指数得到的模糊矩阵作复合运算,得到模糊等价关系矩 阵,然后再进行模糊关系的分类。其基本步骤如下(蔡贻谟等,1987):设分项污染值为禺

11、(i=l, 2,1. 数据的标准化和正规化n; j = 1, 2,,m; n为样品数,m为监测的污染物个数),则聚类因子值构成了一组nxm的原始数据阵叼)。对原始数据的标准化和正规化处理方法可采用式7-32和式7-33。2. 模糊相容系数的计算根据规一化数据计算出模糊相容系数矩阵,其作用在于找到样品间的相容性或差异性,以 便进行分类,相当于一般的聚类分析中确定分类尺度。计算的方法如第三节所述,可采用计 算相关系数R、相似系数S或计算欧氏距离D,以及计算斜交空间距离D1等,亦可按下式 计算距离关系补充定义的相容关系:7-42)第j个样品的第k个因子的值;第i个样品与第j个样品的相容关系。相容关系

12、令越大,表示i, j两个样品污染状况越相似,反之差异越大。当衍=1时,说明 i, j 两个样品取样点的污染状况相同,属于同一类。将计算得到的相容关系中作为矩阵元素,贝I得到相容系数矩阵歇唧。3. 模糊矩阵复合运算由以上具有模糊关系得到相容系数矩阵R, 般是满足反身性和对称性,不满足传递性, 不是模糊等价关系,直接由R不能有效地进行分类,需要对只作复合运算,得到模糊等价 关系矩阵。设R是一个模糊关系(矩阵)。其具有反身性是指帀=1 (i、j = 1, 2,,n);其具有对称性是指$ = ;其具有传递性是指对R进行复合运算,记只。只=丈,当取若在某一步有心聲二疋,则应*便是一个模糊等价关系矩阵。模

13、糊矩阵复合运算是指:当取RR = R 衍),则7-43)i, j = 1 , 2, , n)式中:V 并运算,如皿=血盹劫即a, b两数中取大者;A 交运算产八即a, 两数中取小者。4. 绘制模糊聚类图及分类评价对于已建立的模糊等价关系矩阵R*,可绘制模糊聚类图(方法同前),并选取不同的置 信度进行分类。然后再结合定性研究资料,对所设环境问题进行评价。(二)模糊综合评判法模糊综合评判法是以隶属度来描述模糊的水质分级界线的。1. 隶属度的确定假设地下水水质一般可分为m个等级:卩=(I级,11级,m级)设x表示某一样品一种污染因子的浓度,则x对于等级V的隶属关系可按下式计算:m-1级7-45)&

14、”g爲一1)埠-爲-1 (知1 x-即心弗(7-46)(i=l, 2,,n; j = l, 2,,m)式中:n污染因子数;m 水质级别数;爲一一某一样品第i种污染因子第j级国家标准浓度。由此得到某一样品的几种污染因子的隶属度矩阵务(讥(忑)S)吧严农3U血EUK1Ux).-UKK(x)( 7-47)同理可得k个取样点的几种污染因子的k个隶属度矩阵2.权重的确定根据这n种污染因子所产生的污染作用不同,可按下式计算,得到权重系数矩阵A:7-48)其中:3. 模糊矩阵复合运算综合评判结果是通过权重矩阵A和模糊关系矩阵R的复合运算得到的,因此有矩阵:小疇B 二 二:屯血-一7-49)这里运算符号“。”

15、可以有两种处理方法:一是模糊矩阵合成算法;二是普通矩阵的算法。 按模糊矩阵合成法则,即按最大、最小运算法则进行,与普通矩阵算法相比较,运算过程- 样,只不过是将实数加法改为逻辑加“V”,将实数乘法改为逻辑乘“八”。由于最大“V”、最 小“八”运算法则只突出了隶属度很大和很小项的作用,所得运算结果B中的值有时相等, 评价不出优劣,这在实际问题中是不合理的。4. 模糊综合评判以上结果是对应于集合V上的各项隶属度,取其中最大者所对应的水质级数为该评价水 体的水质级数。四、 人工神经网络分析法人工神经网络是对人脑或自然的神经网络若干基本特性的抽象和模拟,是一种非线性的动 力学系统。其特点为:具有大规模

16、的并行处理和分布式的信息存储能力;良好的自适应性、 自组织性;很强的学习、联想、容错及抗干扰能力。人工神经网络形式较多,其中前馈式BP网络属于多层状型的人工神经网络,由输入层、 若干隐层和输出层组成。各层的作用为:输入层接受外界的信息,并向前传播;输出层对输 人层传来的信息进行判别和决策;隐层用来处理信息或存储知识。其网络拓扑结构如图7-6 所示。图 7-6 BP 网络拓扑结构示意图网络中每一层都包含若干个神经元(节点),同层的神经元之间没有联系,层与层之间通 过连接权重互连,权重可通过学习调节。每层神经元的状态都将影响下一层的神经元状态 每层神经元状态都对应着一个作用函数f (x)和阈值&。

17、BP网络的各个处理单元量输入与 输出之间为非线性关系,其激活函数为Sigmoid函数,即:7-50)设神经网络共有m层,输入层s个节点,输出层n个节点。输入向量尸啦占若有L个样本,则有L组输入向量尸。;k-1层第j个处理单元与k设k层上第i个处理单元连接输入的总和为,其输出为呼层第i个处理单元的连接权为,阈值为。各个处理单元的输入与输出之间传递函数为则下列关系成立:7-51)(7-52)当给定网络的一个输入模式时,它由输入层单元传递到隐层单元,逐层处理后再送到输出 层单元,由输出层单元处理后产生一个输出模式,这个过程称为前向传播。如果输出响应与 期望输出模式有误差而不满足要求时,就转入误差后向

18、传播,将误差值沿连接通路逐层传送 并修正各层连续权值和阈值。这样不断重复前向传播和误差后向传播过程,直到各个训练模 式都满足要求时,便结束BP网络的学习。这个完整过程称为训练式学习过程。BP网络训 练学习框图见图7-7。图 7-7 BP 网络训练学习程序框图(一) BP网络算法1. 选取初始权值和闹值 取0,1)之间的随机数作为初始权值和阈值。2. 重复学习过程直到网络收敛 首先,由输入层一隐层一输出层正向过程计算各隐层、输出层节点的输出值 其次,计算输出节点输出值与期望输出值的误差。设m层网络的实际输出为耳:希望输出为儿,定义误差函数:(7-53) 当 F 不满足所给精度要求时,则进行到下一

19、步。 再反向计算各级误差(即由输出层一隐层一输入层),修正各层权值、阈值。利用梯度最下降求误差函数的极小值,则输出层(m层)的误差信号:心仰(此时i=n)( 7-54)丄一门咛打不是输出层(即k层)的误差信号:( 7-55)J呼)1-了呼)送气列修正各层权值、阈值。7-56)蛍= - 角( 7-57)&吗二-材于( 7-58)A $ = 一谚7-59)式中:碣尼 当前层(k层)第i个处理单元与前一层(k1层)第j个处理单元之间的连接权值、第 i 个处理单元阈值;更新后的权值、阈值;当前层(k层)第i个处理单元的误差;前一层(k1层)第j个处理单元的输出值;耳学习步长,其值大于零,一般选卯=0.

20、10.4。最后求均方误差,并与所给定精度比较。反复学习修正各层权值、阈值,当输出值与期望输出值误差正满足所给精度时,如果共有L 个学习样本,则随机选取输入下一样本,直至样本全部输入学习,并计算全局误差函数。-兀)( 7-60)3. 当全局误差函数也满足所给精度时,网络收敛,学习结束(二)评价步骤运用BP人工神经网络方法对地下水水质进行评价,将筛选的水质评价指标(即评价参数) 用网络的输入节点表达,水质等级则由网络输出节点表达。根据待判点的输出结与所给标准 值(即期望输出)的贴近程度来判断其隶属等级。1.建立模型时,先将水质评价标准中的水质因子作为该网络的输入参数,每个分级标准就 是一个标准学习样本。在0, 1区间上随机赋予隐层和输出层的初始权值和阈值,对每个学 习样本进行反复学习,直到输出层输出值均方误差小于给定精度,学习结束,并输出调整后 的权值和阈值。2用调整权值和阈值后的BP网络评价该区的地下水水质现状,即将各监测点的各个指标 监测数据作为输入值输入模型,以输出值与所给标准值(即期望输出)的贴近程度来判断其 隶属的等级。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!