模糊聚类分析的理论

上传人:油*** 文档编号:171519115 上传时间:2022-11-27 格式:DOCX 页数:19 大小:101.90KB
收藏 版权申诉 举报 下载
模糊聚类分析的理论_第1页
第1页 / 共19页
模糊聚类分析的理论_第2页
第2页 / 共19页
模糊聚类分析的理论_第3页
第3页 / 共19页
资源描述:

《模糊聚类分析的理论》由会员分享,可在线阅读,更多相关《模糊聚类分析的理论(19页珍藏版)》请在装配图网上搜索。

1、模糊分析的理论、方法与应用研究摘要:二十世纪六十年代,产生了模糊数学这门新兴学科。模糊数学作为 一个新兴的数学分支,使过去那些与数学毫不相关或关系不大的学科(如生物学、 心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从 而显示了强大的生命力和渗透力,使数学的应用范围大大扩展。模糊数学自身的 理论研究进展迅速;模糊数学目前在自动控制技术领域仍然得到最广泛的应用, 并在计算机仿真技术、多媒体辨识等领域的应用取得突破性进展;模糊聚类分析 理论和模糊综合评判原理等更多地被应用于经济管理、环境科学以及医药、生物、 农业、文体等领域,并取得很好效果。关键词:模糊数学;应用;模糊评判;

2、模糊聚类。前言:聚类就是把具有相似性质的事物区分开加以分类。聚类分析就是用 数学方法研究和处理给定对象的分类,“人以群分,物以类聚”,聚类问题是一 个古老的问题,是伴随着人类产生和发展不断深化的一个问题。人类要认识世界 就必须要区分不同的事物并认识事物间的,聚类就是把具有相似性质的事物区分 开加以分类。经典分类学往往是从单因素或有限的几个因素出发,凭经验和专业 对事物分类。这种分类具有非此即彼的特性,同一事物归属且仅归属所划定类别 中的一类,这种分类的类别界限是清晰的。随着着人们认识的深入,发现这种分 类越来越不适用于具有模糊性的分类间题,如把人按身高分为“高个子的人, “矮个子的人”,“不高

3、不矮的人”。如何判别特定的一个人的类别便产生了经 典分类学解决不了的困难。模糊数学的产生为上述软分类提供了数学基础,由此 产生了模糊聚类分析。我们把应用普通数学方法进行分类的聚类方法称为普通聚 类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。1965 年L. A. Zadeh创立了模糊集合论不久,E. H. Ruspinid于1969年引人了模糊 划分的概念进行模糊聚类分析。I. Git man和M. D. Levine提出了单峰模糊集 方法用于处理大数据集和复杂分布的聚类。1974年J. C. Bezdek和J. C. Dunn 提出了模糊ISODATA聚类方法。随着模糊数学

4、传人我国,模糊聚类分析也传人了 我国。其应用领域已包括了天气预报、气象分析、模式识别、生物、医学、化学 等诸多领域。1. 模糊理论的产生1.1模糊数学1.1.1模糊数学的背景精确数学是建立在经典集合论的基础之上,一个研究的对象对于某个给定的 经典集合的关系要么是属于(记为“”),要么是不属于(记为“”),二者必 居其一。19世纪,由于英国数学家布尔(Bool)等人的研究,这种基于二值逻 辑的绝对思维方法抽象后成为布尔代数,它的出现促使数理逻辑成为一门很有适 用价值的学科,同时也成为计算机科学的基础。但是,二值逻辑无法解决一些逻 辑悖论,如著名的罗素(Russell) “理发师悖论”、“秃头悖论

5、”、“克利特 岛人说谎悖论”等等悖论问题。传统数学所赖以存在的基石是普通集合论,是二值逻辑,而它是抛弃了事物 的模糊性而抽象出来的,将人脑思维过程绝对化了,数学中普通集合描述的是 “非此即彼”的清晰对象,而人脑还要识别那些“亦此亦彼”的模糊现象。日常 生活中各种“模糊性”现象比比皆是,逻辑悖论的发现以及海森堡(Heisenberg) 测不准原理的提出导致了多值逻辑在 20世纪二三十年代的诞生。罗素在说到 “所有的二值都习惯上假定使用精确符号,因此它仅适用于虚幻的存在,而不适 用于现实生活,逻辑比其他学科使我们更接近于天堂”时就认识到了二值逻辑的 不足。波兰逻辑学家卢卡塞维克兹(Lukasiew

6、icz)首次正式提出了三值逻辑体 系,把逻辑真值的值域由0,1二值扩展到0,1/2,1三值,其中1/2表示不确定, 后来他又把真值范围从0,1/2,1进一步扩展到0,1之间的有理数,并最终扩展 为0,1区间。1.1.2模糊数学的发展1965年,美国控制论专家、数学家查德发表了论文模糊集合,标志着 模糊数学这门学科的诞生。模糊数学的研究内容主要有以下三个方面:第一,研究模糊数学的理论,以及它和精确数学、随机数学的关系。察德以 精确数学集合论为基础,并考虑到对数学的集合概念进行修改和推广。他提出用 “模糊集合”作为表现模糊事物的数学模型。并在“模糊集合”上逐步建立运 算、变换规律,开展有关的理论研

7、究,就有可能构造出研究现实世界中的大量模 糊的数学基础,能够对看来相当复杂的模糊系统进行定量的描述和处理的数学方 法。在模糊集合中,给定范围内元素对它的隶属关系不一定只有“是”或“否” 两种情况,而是用介于 0和 1 之间的实数来表示隶属程度,还存在中间过渡状态。 比如“老人”是个模糊概念,70 岁的肯定属于老人,它的从属程度是 1,40 岁 的人肯定不算老人,它的从属程度为 0,按照查德给出的公式,55 岁属于“老” 的程度为0.5,即“半老”,60岁属于“老”的程度 0.8。查德认为,指明各个 元素的隶属集合,就等于指定了一个集合。当隶属于0 和 1 之间值时,就是模糊 集合。第二,研究模

8、糊语言学和模糊逻辑。人类自然语言具有模糊性,人们经常接 受模糊语言与模糊信息,并能做出正确的识别和判断。为了实现用自然语言跟计算机进行直接对话,就必须把人类的语言和思维过 程提炼成数学模型,才能给计算机输入指令,建立和是的模糊数学模型,这是运 用数学方法的关键。查德采用模糊集合理论来建立模糊语言的数学模型,使人类 语言数量化、形式化。如果我们把合乎语法的标准句子的从属函数值定为 1,那么,其他文法稍有 错误,但尚能表达相仿的思想的句子,就可以用以 0 到 1之间的连续数来表征它 从属于“正确句子”的隶属程度。这样,就把模糊语言进行定量描述,并定出一 套运算、变换规则。目前,模糊语言还很不成熟,

9、语言学家正在深入研究。人们的思维活动常常要求概念的确定性和精确性,采用形式逻辑的排中律, 既非真既假,然后进行判断和推理,得出结论。现有的计算机都是建立在二值逻 辑基础上的,它在处理客观事物的确定性方面,发挥了巨大的作用,但是却不具 备处理事物和概念的不确定性或模糊性的能力。为了使计算机能够模拟人脑高级智能的特点,就必须把计算机转到多值逻辑 基础上,研究模糊逻辑。目前,模糊罗基还很不成熟,尚需继续研究。第三,研究模糊数学的应用。模糊数学是以不确定性的事物为其研究对象的。 模糊集合的出现是数学适应描述复杂事物的需要,查德的功绩在于用模糊集合的 理论找到解决模糊性对象加以确切化,从而使研究确定性对

10、象的数学与不确定性 对象的数学沟通起来,过去精确数学、随机数学描述感到不足之处,就能得到弥 补。在模糊数学中,目前已有模糊拓扑学、模糊群论、模糊图论、模糊概率、模 糊语言学、模糊逻辑学等分支。1.1.3模糊数学的应用模糊数学是一门新兴学科,它已初步应用于模糊控制、模糊识别、模糊聚类 分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面。 在气象、结构力学、控制、心理学等方面已有具体的研究成果。然而模糊数学最 重要的应用领域是计算机职能,不少人认为它与新一代计算机的研制有密切的联 系。目前,世界上发达国家正积极研究、试制具有智能化的模糊计算机,1986年日本山川烈博士首次试制成功

11、模糊推理机,它的推理速度是 1000 万次/秒。1988 年,我国汪培庄教授指导的几位博士也研制成功一台模糊推理机分立元件样机,它的推理速度为 1500 万次/秒。这表明我国在突破模糊信息处理难关 方面迈出了重要的一步。2. 模糊理论的基本概念2.1模糊数学以数学手段分析与处理模糊性事物的学科。模糊数学是研究和处理模糊性现 象的数额学。所谓模糊性,意指客观事物的差异在中介过度时所呈现的“亦此亦 彼”的特性。模糊数学中,归属度是建立模糊集合的基础,归属函数是描述模糊 性的关键。22模糊集合(Fuzzy Set)表示界限或边界不明确的特定集合,以特征函数来表示元素与集合间之归属 程度,一般特征函数

12、又称为归属函数(membership function),其值界于(0,1) 区间。在自然和社会现象中,绝对性、两极化的突变是不存在的,两极化间的差 异往往要经由一个“中介过度形式”來表征,即具“亦此亦彼”性。需要定义集合与集合之间的基本运算和关系,以便日后将模糊集合应用于 各种领域之中,所不同的只是因為,绝大多数的事物是无法以明确的二分逻辑法 加以切割的。2.3 模糊关系在人们的实际生活与工作中,模糊性是无法避免的,现实世界存在元素间的 关系,并非是简单的“是与否”或“有与无”的关系,而是有着不同程度的关系 存在。例如某家庭子女与父母外貌得相似关系,就很难以绝对地“像”与“不 像”来表明或定

13、义,只能评论他们“相像”的程度。3. 模糊理论的应用模糊理论一产生就在数学领域本身及其他领域得到了广泛的应用到世纪年 代,已经形成了具有完整体系和鲜明特点的“模糊拓扑学”,框架日趋成熟的 “模糊随机数学”,“模糊分析学”,“模糊逻辑理论”以及专著虽少但相关论 文却非常丰富的“ 模糊代数理论”等。这些理论的形成与发展极大地丰富和完 善了模糊数学的内容。模糊逻辑是模糊理论中的重要研究方向,它的最大成功是 其在控制论中的应用。但是,模糊逻辑在理论上的研究还远远不够深人,也没有形 成自身独有的理论体系,其研究的思路基本上还是沿着二值逻辑的体系来展开的, 所以难免要受到一些学者的怀疑或疑惑。展开这类讨论

14、无论是对模糊逻辑还是对 模糊数学本身的发展都是非常有益的,这是模糊逻辑强大生命力的表现,同时也 进一步促进这一领域学者从理论上更深人系统地研究相关的论题。模糊技术已渗 透到自然科学、社会科学及工程技术的几乎全部领域,像电力、电子、核物理、 石油、化工、机械、冶金、能源、材料、交通、医疗、卫生、林业、农业、地质 地理、地震、建筑、水文、气象、环保、管理、法律、教育、心理、体育、军事 和历史等领域,都有其成功应用的范例。模糊技术将成为 21世纪的核心技术。4. 模糊聚类分析在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行 分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质

15、可对土壤分类 等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统 计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不 分明,因此采用模糊聚类方法通常比较符合实际。41模糊聚类分析的般步骤第一步:数据标准化A数据矩阵设论域U = x , x,,x 为被分类对象,每个对象又有m个指标表示其性状,12n即x = xi, x , , x i 1i 2im(i =1 ,,n ,,于是,得到原始数据矩阵为(xx.x 、1 1 1 2m1xx2 1 2 2xm 2。xxn 1n 2x丿nm其中x表示第n个分类对象的第m个指标的原始数据nmB 数据标准化在实际问题中,不

16、同的数据一般有不同的量纲,为了使不同的量纲也能进行 比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在 区间0,1 上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间 0,1 上。通常有以下几种变换: 平移标准差变换其中xikx _ xrkk(i = 1 ,,n ,,2 mni=1xiks = (x _ x )2 。kik kik经过变换后,每个变量的均值为 0,标准差为 1,且消除了量纲的影响。但是,再用得到的x还不一定在区间0,1上。ik 平移极差变换ffxikx _m inxi k 一 . .i k1 / n,(k = 1,2,m) m a xx

17、f _m xi n 1inik1i0,否则也要做适当变换。ij 数量积法1 , i = j ,r.眾1中j 乙 xDx, i H j,M ik jk其中M =m ax( x Dxi k j kk =1 相关系数法ikx 一 xjk j其中rij(x 一 x )2 D 乙(x 一 x )2ikk =1k =1x=i1 mmk =1xikx=j1 mmk=1xjk 指数相似系数法rijexp - D43 ( x - x )2s2k其中ni=1( x - x )2 ,ik ikni=1x k = (1,2,m)。 ikB鹿离法 直接距离法rijc d( x , x,)ijij其中c为适当选取的参数,

18、使得0 r 1,d (x , x )表示他们之间的距离。经常ij用的距离有海明距离x =为|jx-ikjkk =1欧几里得距离x )= jk =1切比雪夫距离x ik 倒数距离法1, i = j ,r = M。j, i 丰 j,d (x , x )ij其中M为适当选取的参数,使得0 r 1。ij 指数距离法r = ex p-d X X 。)i ji j第三步:聚类(求动态聚类图)A 基于模糊等价矩阵聚类方法 传递闭包法根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵R *。用二次方法求R的传递闭包,即t ( R ) = R *。再让九由大变小,就可形成动态聚类图。 布尔矩阵法 10布尔矩阵法

19、的理论依据是下面的定理:定理2.2.1设R是U = X , X , X 上的一个相似的布尔矩阵,则R具有传1 2 n递性(当R是等价布尔矩阵时)o矩阵R在任一排列下的矩阵都没有形如仃 1)(1 1)1 0, 0 1)的特殊子矩阵10 J0 1丿I1 1丿1 1J布尔矩阵法的具体步骤如下: 求模糊相似矩阵的九-截矩阵R .入 若R按定理2.2.1判定为等价的,则由R可得U在九水平上的分类,入入若 R 判定为不等价,则 R 在某一排列下有上述形式的特殊子矩阵,此时只要将入入其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到 的R*为等价矩阵。因此,由R*可得九水平上的分类B 直

20、接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包t(R),也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下: 取九=1 (最大值),对每个x作相似类x ,且1 i i Rx =x I r = 1,i R j ij即将满足r = 1的x与x放在一类,构成相似类。相似类与等价类的不同之处是,ij i j不同的相似类可能有公共元素,即可出现x =x / ,x = x , x , x C x H0 -i R i k i R j k i j此时只要将有公共元素的相似类合并,即可得九=1水平上的等价分类。1 取九为次大值,从R中直接找出相似度为九的元素对(x , x )

21、(即2 2 i jr =X),将对应于九=1的等价分类中x所在的类与x所在的类合并,将所有的 ij 2 1 i j这些情况合并后,即得到对应于九的等价分类。2 取九为第三大值,从R中直接找出相似度为九的元素对(x , x )(即3 3 i jr =X),将对应于九的等价分类中x所在的类与x所在的类合并,将所有的这 ij 3 2 i j些情况合并后,即得到对应于九的等价分类。3 以此类推,直到合并到U成为一类为止。4.2最佳阈值九的确定在模糊聚类分析中对于各个不同的Xe 0,1,可得到不同的分类,许多实际 问题需要选择某个阈值X,确定样本的一个具体分类,这就提出了如何确定阈值 X 的问题。一般有

22、以下两个方法: 按实际需要,在动态聚类图中,调整X的值以得到适当的分类,而不需 要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专 业知识确定阈值X,从而得出在X水平上的等价分类 用F统计量确定X最佳值。11设论域U = x , x ,x 为样本空间(样本总数为n),而每个样本x有m个12 ni特征:x = x ,x,,x ,(i = 1,2,n)。于是得到原始数据矩阵,如下表所示,ii 1 i 2 im其中x = 1 x (k = 1,2,,m),x称为总体样本的中心向量。i=1k nik样本指标12.kmx1x11x12 x1 k x1 mx2x21x22 x2 k x

23、2 mxixi 1xi 2 xik ximxnxn 1xn 2 xnk xnmx(x1x2xk x )m设对应于九值的分类数为r,第j类的样本数为n,第j类的样本记为:jx(j), x(j),x(j),第j类的聚类中心为向量x( j)= (x( j), x( j),,x( j),其中x( j)为第 12n j112mkk 个特征的平均值,即作F统计量其中(k = 1,2,m),x(j )=卫 x j(,)k n ik j i =1F乙(x j( - x )kk2|x(j )- xk =1为x(j)与x间的距离,|x (j) - x(j)|为第j类中第i个样本x(j)与其中心x(j)间的距 i离

24、。称为F统计量,它是遵从自由度为r - 1,n - r的F分布。它的分子表征类 与类之间的距离,分母表征类内样本间的距离。因此,F值越大,说明类与类之 间的距离越大;类与类间的差异越大,分类就越好。5 基于模糊聚类分析的多属性决策方法的实际应用聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。 由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊 性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有 无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自 然,因此称为模糊聚类分析。51雨量站问题511问题的提出某地区设置有 1

25、1个雨量站,其分布图见图 1,10年来各雨量站所测得的年 降雨量列入表 1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站, 而不会太多的减少降雨信息?x1011x2X 7X 4图 1 雨量站分布图表 1 各雨量站 10 年间测得的降雨量年序号X1X2X3X4X5X6X7X8X9X10X111276324159413292258311303175243320225128734934431045428545140230747031924332905634795022212203204112324246232243281267310273315285327352529131150238833

26、0410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371512问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多 因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就 10 年来各 雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤

27、去“同类” (所获降雨信息十分相似)的雨量站中“多余”的站。问题求解 假设为使问题简化,特作如下假设 每个观测站具有同等规模及仪器设备; 每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分 析,原始数据如上。513问题的解决求解步骤:A、数据的收集原始数据如表 1所示。B、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵 ( r) ,其中a” 11 xiirij乙 I (x 一 x ) II (x 一 x )1ik i jk jk =1n乙(xikk=1一 x )2 .乙(xijkk 一 11一 x j)22其中 x = 1

28、为 x ,i =1,2,11。 i 10 ikk = 1j=1, 2,,11。1 yx .乙 x ,j n jk取i = 2, j = 1,代入公式得r =0.839,由于运算量巨大用C语言编程计算出21其余数值,得模糊相似关系矩阵 (r ) ,具体程序如下#include#includedouble r1111;double x11;void main() int i,j,k; double fenzi=0,fenmu1=0,fenmu2=0,fenmu=0;int year1011=276,324,159,413, 292 ,258,311,303,175,243,320,251 ,287

29、,349,344,310,454,285,451,402,307,470,192 ,433,290,563,479,502,221,220,320,411,232,246 ,232,243,281,267,310,273,315,285,327,352,291,311,502,388 ,330,410,352,267,603,290,292,466 ,158,224,178,164,203,502,320,240,278,350,258,327,432 ,401,361,381,301,413,402,199,421,453,365,357 ,452,384,420,482,228,360,3

30、16,252,158 ,271,410,308,283,410,201,179,430,342,185,324,406,235,520 ,442,520,358,343,251,282,371;for(i=0;i11;i+) for(k=0;k10;k+) xi=xi+yearki;xi=xi/10;for(i=0;i11;i+)for(j=0;j11;j+) for(k=0;k10;k+) fenzi=fenzi+fabs(yearki-xi)*(yearkj-xj);fenmu1=fenmu1+(yearki-xi)*(yearki-xi);fenmu2=fenmu2+(yearkj-xj

31、)*(yearkj-xj);fenmu=sqrt(fenmu1)*sqrt(fenmu2); rij=fenzi/fenmu; fenmu=fenmu1=fenmu2=fenzi=0; for(i=0;i11;i+) for(j=0;j R 4 : R 4即 t (R) = R 4 = R *。C、聚类注:R是对称矩阵,故只写出它的下三角矩阵1.0000.86110.6970.69710.8610.9960.69710.8610.9960.6970.99210.8610.9950.6970.9220.92210.9940.8610.6970.8610.8610.86110.7190.7190.

32、6970.7190.7190.7190.71910.6970.6970.9620.6970.6970.6970.6970.6760.6880.6880.6880.6880.6880.6880.6880.6880.7190.7190.6970.7190.7190.7190.7190.68810.6970.697R*10 .688 1取九=0.996,R*0.996x ,x ,x在置信水平为0.996的阈值九下相似度为1,245,x4,x 同属一类,所以5此时可以将观测站分为 9 类 x , x , x2 4 5, x , x 13 x ,6, x 8x9, x , x 。10 11降低置信水平九,对不同的九作同样分析,得到:入=0. 995时,可分为8类,即 x ,X2 x ,3, x 8x9, x , x 。10 11九=0.994时,可分为7类 x , x24x8, x , x 。10 11九=0.962时,可分为6类 x , x24x310x11九x ,x , x ,x , x 。3 9 8 11 10

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!