[教育学]第7章-聚类分析

上传人:仙*** 文档编号:216514339 上传时间:2023-06-06 格式:PPT 页数:47 大小:471KB
收藏 版权申诉 举报 下载
[教育学]第7章-聚类分析_第1页
第1页 / 共47页
[教育学]第7章-聚类分析_第2页
第2页 / 共47页
[教育学]第7章-聚类分析_第3页
第3页 / 共47页
资源描述:

《[教育学]第7章-聚类分析》由会员分享,可在线阅读,更多相关《[教育学]第7章-聚类分析(47页珍藏版)》请在装配图网上搜索。

1、 教育学教育学 第第7 7章章-聚类分析聚类分析多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.x21x12x22x11二、二、最短距离法(最短距离法(single linkage method)3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.例例7.3.1 设有五个样品,每个只测量了一个指标,指标值分设有五个样品,每个只测量了一个指标,指标值分别是别是1,2,6,8,11.在用最短距离法对这五个样品进行聚在用最短距离法对这五个样品进行聚类时,样品间采用绝对值距离,现已得到样品间初始距离类时,样品间采用绝对值距离,现已

2、得到样品间初始距离矩阵矩阵 如下如下G1G2G3G4G5G10G210G3540G47620G5109530试根据以上结果完成下面的聚类过程,将五个样品聚为一类。试根据以上结果完成下面的聚类过程,将五个样品聚为一类。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.data exam7_3_1_1;input v$x;cards;x1 1x2 2x3 6x4 8x5 11;proc cluster method=sin;var x;id v;proc tree horizontal=1;id v;run;SAS程序程序1 13/4/2022多元统计分

3、析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.data exam7_3_1_2(type=distance);array x(5)x1-x5;input v$x1-x5;cards;x1 0 .x2 1 0 .x3 5 4 0 .x4 7 6 2 0 .x5 10 9 5 3 0;proc cluster method=sin;var x1-x5;id v;proc tree horizontal;id v;run;SAS程序程序2 23/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.聚类树形(谱系)图聚类树形(谱系)图3/4/

4、2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.x11x21三、三、最长距离法(最长距离法(Complete linkage method)3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.例例7.3.2 对对305名女中学生测量八个体型指标:名女中学生测量八个体型指标:x1 1=身高,身高,x5 5=体重,体重,x2 2=手臂长,手臂长,x6 6=颈围,颈围,x3 3=上肢长,上肢长,x7 7=胸围,胸围,x4 4=下肢长,下肢长,x8 8=胸宽,胸宽,相关矩阵列于下表相关矩阵列于下表x1x2x3x4x5x6x

5、7x8x11.000.x20.8461.000.x30.8050.8811.000.x40.8590.8260.8011.000.x50.4730.3760.3800.4361.000.x60.3980.3260.3190.3290.7621.000.x70.3010.2770.2370.3270.7300.5831.000.x80.3820.4150.3450.3650.6290.5770.5391.0003/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.应用最长距离法进行聚类,即类与类之间的相似系数定义应用最长距离法进行聚类,即类与类之间的相似系

6、数定义为两类变量之间的最小相关系数。每次聚类时合并两个相为两类变量之间的最小相关系数。每次聚类时合并两个相关系数最大的类。关系数最大的类。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.data examp7_3_2(type=distance);array x(8)x1-x8;input v$x1-x8;do i=1 to 8;x(i)=1-x(i);end;drop i;cards;x1 1.000 .x2 .846 1.000 .x3 .805 .881 1.000 .x4 .859 .826 .801 1.000 .x5 .473 .376

7、 .380 .436 1.000 .x6 .398 .326 .319 .329 .762 1.000 .x7 .301 .277 .237 .327 .730 .583 1.000 .x8 .382 .415 .345 .365 .629 .577 .539 1.000;proc print data=examp7_3_2;run;proc cluster data=examp7_3_2 method=com;var x1-x8;id v;proc tree horizontal;id v;run;SAS程序程序3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科

8、技大学数学系.四、四、中间距离法(中间距离法(median method)DKJDLJ中间距离3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.用上式作为递推公式的系统聚类法称为用上式作为递推公式的系统聚类法称为可变法可变法。五、五、可变法可变法 如果让中间距离法的递推公式三项的系数依赖于参数如果让中间距离法的递推公式三项的系数依赖于参数,即递推公式为:,即递推公式为:3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.类类平平均均法法定定义义类类间间的的距距离离是是两两类类间间所所有有样样品品对对之之间间的

9、的距离的平均值,即距离的平均值,即 六六、类平均法(、类平均法(Average linkage method)定义距离:定义距离:递推公式:递推公式:注:类平均法利用了所有样品的信息,在很多情况下被认注:类平均法利用了所有样品的信息,在很多情况下被认 为是一种比较好的系统聚类法为是一种比较好的系统聚类法3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.类类平平均均法法的的递递推推公公式式中中,没没有有反反映映GK类类和和GL类类的的距距离离有有多多大大,进进一一步步将将其其改改进进,加加入入D2KL,并并给给定定系系数数 1,则则类类平平均均法的法的

10、递递推公式改推公式改为为:用此递推公式进行聚类就是可变类平均法。用此递推公式进行聚类就是可变类平均法。递推公式由:递推公式由:K类和类和L类与类与J类的距离的加权平均数类的距离的加权平均数 K类和类和L类的距离类的距离两项的加权和构成,两项的加权和构成,的大小根据哪项更重要而定。的大小根据哪项更重要而定。七七、可变类平均法(、可变类平均法(Flexible-Beta method)3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.分分别别为为GK和和GL的的重重心心,类类与与类类之之间间的的平平方方距距离离定定义义为为两两个个类重心(类内样品平均值)

11、间的平方距离,即类重心(类内样品平均值)间的平方距离,即重心法,也称为样品的均值法。设重心法,也称为样品的均值法。设GK和和GL 为两个类为两个类 八八、重心法、重心法(Centroid hierarchical method)3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.设设某某一一步步GK和和GL的的类类内内的的样样品品数数分分别别为为nK和和nL,如如果果要要把把GK和和GL合合并并为为GM类类,则则GM类类的的样样品品数数nM=nK+nL,GM类类的的重心为重心为 和和 的加权算术平均数:的加权算术平均数:距离递推公式为距离递推公式为3/

12、4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.类似于方差分析的想法,如果类分得恰当,同类内的样品类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。之间的离差平方和应较小,而类间的离差平方和应当较大。离离差差平平方方和和法法的的思思路路是是,先先让让n n个个样样品品各各自自成成一一类类,然然后后缩缩小小一一类类,每每缩缩小小一一类类离离差差平平方方和和就就要要增增大大,选选择择使使S S2 2增增加加最最小小的的两两类类合合并并,直直到到所所有有的的样样品品归归为为一一类类为为止止。离离差差平平方和

13、法定义类间的平方距离为方和法定义类间的平方距离为 九九、离差平方和法、离差平方和法(Wards minimum variance method)3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.设类设类GK和和GL合并成新类合并成新类GM,三类的类内离差平方和分别,三类的类内离差平方和分别记为记为定义定义类类GK和和GL之间的平方距离为:之间的平方距离为:3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.可以证明离差平方和法的聚类递推公式为:可以证明离差平方和法的聚类递推公式为:3/4/2022多元统计分析

14、多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.例例7.3.3 下表列出了下表列出了1999年全国年全国31个省、市和自治区的城镇居个省、市和自治区的城镇居民家庭平均全年消费性支出的八个主要变量数据,这民家庭平均全年消费性支出的八个主要变量数据,这8个变量个变量是是 x1=食品,食品,x5=交通和通讯,交通和通讯,x2=衣着,衣着,x6=娱乐教育文化服务,娱乐教育文化服务,x3=家庭设备用品及服务,家庭设备用品及服务,x7=居住,居住,x4=医疗保健,医疗保健,x8=杂项商品和服务,杂项商品和服务,试分别用最短距离法、重心法和试分别用最短距离法、重心法和Ward方法对各地区作

15、聚类分方法对各地区作聚类分析。析。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.Obs region x1 x2 x3 x4 x5 x6 x7 x8 1 北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 2 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 3 河北 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63 4 山西 1406.33 4

16、77.77 290.15 208.57 201.50 414.72 281.84 212.10 5 内蒙古 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 6 辽宁 1730.84 553.90 246.91 279.81 239.18 445.20 330.24 163.86 7 吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 8 黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 9

17、上海 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.03 10 江苏 2207.58 449.37 572.40 211.92 302.09 585.23 429.77 252.54 11 浙江 2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36 12 安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.39 13 福建 2709.46 428.11 334.12 160.77 405.14 461.67 5

18、35.13 232.29 14 江西 1563.78 303.65 233.81 107.90 209.70 393.99 509.39 160.12 15 山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84 16 河南 1427.65 431.79 288.55 208.14 217.00 337.76 421.31 165.32 17 湖北 1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.52 18 湖南 1942.23 512.27 401.39 206.06

19、321.29 697.22 492.60 226.45 19 广东 3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 20 广西 2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 21 海南 2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 22 重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80 23 四川 1974.28 507.7

20、6 344.79 203.21 240.24 575.10 430.36 223.46 24 贵州 1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 25 云南 2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.95 26 西藏 2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.33 27 陕西 1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.34 28 甘

21、肃 1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.19 29 青海 1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.51 30 宁夏 1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.93 31 新疆 1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.403/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.data e

22、xam7_3_3;input xuhao region$x1-x8;cards;1 北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 2 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 3 河北 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63 4 山西 1406.33 477.77 290.15 208.57 201.50 414.72 281.84 212.10 5 内蒙古 1303.

23、97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 6 辽宁 1730.84 553.90 246.91 279.81 239.18 445.20 330.24 163.86 7 吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 8 黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 9 上海 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.0

24、310 江苏 2207.58 449.37 572.40 211.92 302.09 585.23 429.77 252.5411 浙江 2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.3612 安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.3913 福建 2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.2914 江西 1563.78 303.65 233.81 107.90 209.70 393.99 50

25、9.39 160.1215 山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.8416 河南 1427.65 431.79 288.55 208.14 217.00 337.76 421.31 165.3217 湖北 1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.5218 湖南 1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.4519 广东 3055.17 353.23 564.56 356.27 811.88

26、 873.06 1082.82 420.8120 广西 2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.2721 海南 2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.1922 重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8023 四川 1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.4624 贵州 1673.82 437.75 461.61 15

27、3.32 254.66 445.59 346.11 191.4825 云南 2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.9526 西藏 2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.3327 陕西 1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.3428 甘肃 1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.1929 青海 1654.69 437.77

28、 258.78 303.00 244.93 479.53 288.56 236.5130 宁夏 1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.9331 新疆 1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.40;proc cluster data=exam7_3_3 method=sin std pseudo;var x1-x8;id region;proc tree horizontal;id region;proc cluster data=exam7_3_3 meth

29、od=cen std pseudo;var x1-x8;id region;proc tree horizontal;id region;proc cluster data=exam7_3_3 method=war std notie pseudo;var x1-x8;id region;proc tree horizontal;id region;run;SAS程序程序3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.3/4/2022多元统计分析多元统计分

30、析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.通通过过观观测测聚聚类类图图,给给出出一一个个合合适适的的阈阈值值T T。要要求求类类与与类类之之间间的的距距离离不不要要超超过过T T值值。例例如如我我们们给给定定T=0.35T=0.35,当当聚聚类类时时,类类间间的的距离已经超过了距离已经超过了0.350.35,则聚类结束。,则聚类结束。在聚类分析过程中类的个数如何来确定才合适呢?这是一在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是个

31、十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。这个问题又是不可回避的。下面我们介绍几种方法。十十、确定类的个数、确定类的个数 1.阈值法阈值法3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.若若样样品品只只涉涉及及2个个或或3个个变变量量,则则可可以以通通过过观观测测数数据据的的散散点点图图来来确确定定类类的的个个数数。如如果果变变量量个个数数超超过过3个个,则则可可以以将将原原始始变变量量综综合合成成2个个或或3个个综综合合变变量量,然然后后再再观观测测这这些些综综合合变变量量的的散散点图。点图

32、。2.观测样品的散点图观测样品的散点图3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.3.R2统计量统计量 总离差平方和的分解总离差平方和的分解总离差平方和总离差平方和类内离差平方和类内离差平方和类间离差平方和类间离差平方和令令3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.R2的的取取值值在在01之之间间,若若R2比比较较大大,说说明明分分k个个类类时时类类内内的的离离差差平平方方和和Pk 比比较较小小,也也就就是是说说分分k类类是是合合适适的的。但但是是,分分类类越越多多,每每个个类类的的类类内内的

33、的离离差差平平方方和和就就越越小小,R2 也也就就越越大大;所所以以我我们们只只能能取取合合适适的的k,使使得得R2 足足够够大大。比比如如,假假定定分分4类类时时,R2=0.8;下下一一次次合合并并分分3类类时时,下下降降了了许许多多,R2=0.32,则则分分4 类是合适的。类是合适的。构造统计量构造统计量3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.4.半偏半偏R2统计量统计量 其中其中可以看出半偏可以看出半偏R2 是上一步是上一步R2 与该步与该步R2 值之差,因此值之差,因此半偏半偏R2 值越大,说明上一次聚类的效果越好。值越大,说明上一

34、次聚类的效果越好。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.5.伪伪F 统计量统计量 伪伪F 统计量用于评价聚为统计量用于评价聚为k类的效果。如果聚类的效果好,类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该类间的离差平方和相对于类内的离差平方和大,所以应该取伪取伪F 统计量较大而类数较小的聚类水平。统计量较大而类数较小的聚类水平。伪伪F 统计量统计量 不不具有具有F 分布。分布。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.6.伪伪t 2 统计量统计量 伪伪t2

35、值大表示值大表示GK 和和GL 合并成新类合并成新类GM 后,类内离差平方和后,类内离差平方和的增量相对于原的增量相对于原GK 和和GL 两类的类内的离差平方和是大的,两类的类内的离差平方和是大的,这说明原这说明原GK 和和GL 两类是很分开的,即上一次聚类的效果是两类是很分开的,即上一次聚类的效果是好的。好的。伪伪 t 2 统计量不具有随机变量统计量不具有随机变量 t 2 那样的分布。那样的分布。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.十一十一、系统聚类法的基本性质、系统聚类法的基本性质1.单调性单调性 在在聚聚类类分分析析过过程程中中,

36、并并类类距距离离分分别别为为Dk(k=1,2,3,)若若满满足足 ,则则称称该该聚聚类类方方法法具具有有单单调调性性。可可以以证证明明除除了了重重心心法法和和中中间间距距离离法法之之外外,其其他的系统聚类法均满足单调性的条件。他的系统聚类法均满足单调性的条件。2.空间的浓缩与扩张空间的浓缩与扩张3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.十二十二、小结、小结 系系统统聚聚类类法法是是一一种种比比较较成成功功的的聚聚类类方方法法。然然而而当当样样本本点点数数量量十十分分庞庞大大时时,则则是是一一件件非非常常繁繁重重的的工工作作,且且聚聚类类的的计

37、计算算速速度度也也比比较较慢慢。比比如如在在市市场场抽抽样样调调查查中中,有有4万万人人就就其其对对衣衣着着的的偏偏好好作作了了回回答答,希希望望能能迅迅速速将将他他们们分分为为几几类类。这这时时,采采用用系系统统聚聚类类法法就就很很困困难难,而而动动态态聚聚类类法法就就会会显显得得方便,适用。方便,适用。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.第四节第四节 动态聚类法动态聚类法一、基本思想一、基本思想选选择择凝凝聚聚点点分分 类类修修改改分分类类分分类类是是否否合合理理分分类类结结束束YesNo3/4/2022多元统计分析多元统计分析 谢

38、中华谢中华,天津科技大学数学系天津科技大学数学系.用一个简单的例子来说明动态聚类法的工作过用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。程。例如我们要把图中的点分成两类。快速聚类的快速聚类的步骤:步骤:1、随机选取两个点、随机选取两个点 和和 作为聚核。作为聚核。2、对于任何点、对于任何点 ,分别计算,分别计算 3、若、若 ,则将,则将 划为第一类,否划为第一类,否则划给第二类。于是得图(则划给第二类。于是得图(b)的两个类。)的两个类。4 4、分分别别计计算算两两个个类类的的重重心心,则则得得 和和 ,以以其其为为新新的的聚聚核核,对对空空间间中中的的点点进进行行

39、重重新新分分类类,得得到到新新分分类。类。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.(a)空间的群点 (b)任取两个聚核 (c)第一次分类 (d)求各类中心3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.(e)第二次分类3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.1.1.人为选择人为选择,当人们对所欲分类的问题有一定了解时,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选根据经验,预先确定分类个数和初始分类,

40、并从每一类中选择一个有代表性的样品作为凝聚点。择一个有代表性的样品作为凝聚点。2.2.将数据人为地分为将数据人为地分为A A类,计算类,计算每一类的重心每一类的重心,就将这,就将这些重心作为凝聚点。些重心作为凝聚点。二、选择凝聚点和确定初始分类二、选择凝聚点和确定初始分类 凝聚点就是一批有代表性的点,是欲形成类的中心。凝凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大的影响,聚点的选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点的不同选择,其最终分类结果也将出现不同。故由于凝聚点的不同选择,其最终分类结果也将出现不同。故选择时要慎重通常选

41、择凝聚点的方法有:选择时要慎重通常选择凝聚点的方法有:3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.3.用密度法选择凝聚点用密度法选择凝聚点。以某个正数。以某个正数d为半径,以每个为半径,以每个样品为球心,落在这个球内的样品数样品为球心,落在这个球内的样品数(不包括作为球心的样品不包括作为球心的样品)就叫做这个样品的密度。计算所有样品点的密度后,首先选就叫做这个样品的密度。计算所有样品点的密度后,首先选择密度最大的样品作为第一凝聚点,并且人为地确定一个正择密度最大的样品作为第一凝聚点,并且人为地确定一个正数数D(一般一般D d,常取,常取D2d)

42、。然后选出次大密度的样品点,。然后选出次大密度的样品点,若它与第一个凝聚点的距离大于若它与第一个凝聚点的距离大于D,则将其作为第二个凝聚,则将其作为第二个凝聚点;否则舍去这点,再选密度次于它的样品。这样,按密度点;否则舍去这点,再选密度次于它的样品。这样,按密度大小依次考查,直至全部样品考查完毕为止此方法中,大小依次考查,直至全部样品考查完毕为止此方法中,d要要给的合适,太大了使凝聚点个数太少,太小了使凝聚点个数给的合适,太大了使凝聚点个数太少,太小了使凝聚点个数太多。太多。3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.5.随机地选择随机地选择,

43、如果对样品的性质毫无所知,可采用随,如果对样品的性质毫无所知,可采用随机数表来选择,打算分几类就选几个凝聚点。或者就用前机数表来选择,打算分几类就选几个凝聚点。或者就用前A个样品作为凝聚点个样品作为凝聚点(假设分假设分A类类)。这方法一般不提倡使用。这方法一般不提倡使用。4.人为地选择一正数人为地选择一正数d,首先以所有样品的均值作为第,首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品,若某样品与已选定的凝一凝聚点。然后依次考察每个样品,若某样品与已选定的凝聚点的距离均大于聚点的距离均大于d,该样品作为新的凝聚点,否则考察下一,该样品作为新的凝聚点,否则考察下一个样品。个样品。3/4/

44、2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.1.1.选择选择k k个样品作为初始凝聚点,或者将所有样品分成个样品作为初始凝聚点,或者将所有样品分成k k个初始类,然后将这个初始类,然后将这k k个类的重心(均值)作为初始凝聚点。个类的重心(均值)作为初始凝聚点。2.2.对除凝聚点之外的所有样品逐个归类,将每个样品归对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧式距离),该类的入凝聚点离它最近的那个类(通常采用欧式距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。凝聚点更新为这一类目前的均值,直至所有样

45、品都归了类。3.3.重复步骤重复步骤2 2,直至所有的样品都不能再分配为止。,直至所有的样品都不能再分配为止。三、三、k k均值法聚类的步骤均值法聚类的步骤3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.例例7.4.1 对例对例7.3.3使用使用k均值法进行聚类,聚类前对各变量作均值法进行聚类,聚类前对各变量作标准化变换。标准化变换。data exam7_4_1;input xuhao region$x1-x8;cards;1 北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64

46、2 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 3 河北 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63 4 山西 1406.33 477.77 290.15 208.57 201.50 414.72 281.84 212.10 5 内蒙古 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 6 辽宁 1730.84 553.90 246.91 279.81 239.18 445.20 330

47、.24 163.86 7 吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 8 黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 9 上海 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.0310 江苏 2207.58 449.37 572.40 211.92 302.09 585.23 429.77 252.5411 浙江 2629.16 557.32 689.73 435.69 514.6

48、6 795.87 575.76 323.3612 安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.3913 福建 2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.2914 江西 1563.78 303.65 233.81 107.90 209.70 393.99 509.39 160.1215 山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.8416 河南 1427.65 431.79 288.55 20

49、8.14 217.00 337.76 421.31 165.3217 湖北 1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.5218 湖南 1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.4519 广东 3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.8120 广西 2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.2721 海南 2057.86 186.4

50、4 202.72 171.79 329.65 477.17 312.93 279.1922 重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8023 四川 1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.4624 贵州 1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.4825 云南 2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.9526 西藏 264

51、6.61 839.70 204.44 209.11 379.30 371.04 269.59 389.3327 陕西 1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.3428 甘肃 1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.1929 青海 1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.5130 宁夏 1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.9

52、331 新疆 1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.40;proc standand mean=0 std=1 out=stan;proc fastclus data=stan maxc=5 drift list;var x1-x8;id region;run;SAS程序程序1 13/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.data exam741_1;input xuhao region$x1-x8;cards;1 北京 2959.19 730.79 749.41 513.

53、34 467.87 1141.82 478.42 457.64 2 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 3 河北 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63 4 山西 1406.33 477.77 290.15 208.57 201.50 414.72 281.84 212.10 5 内蒙古 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 6 辽宁 1730.84 553.90

54、 246.91 279.81 239.18 445.20 330.24 163.86 7 吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 8 黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 9 上海 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.0310 江苏 2207.58 449.37 572.40 211.92 302.09 585.23 429.77 252.5411 浙江 26

55、29.16 557.32 689.73 435.69 514.66 795.87 575.76 323.3612 安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.3913 福建 2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.2914 江西 1563.78 303.65 233.81 107.90 209.70 393.99 509.39 160.1215 山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.

56、8416 河南 1427.65 431.79 288.55 208.14 217.00 337.76 421.31 165.3217 湖北 1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.5218 湖南 1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.4519 广东 3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.8120 广西 2033.87 300.82 338.65 157.78 329.06 621.74

57、587.02 218.2721 海南 2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.1922 重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8023 四川 1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.4624 贵州 1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.4825 云南 2194.25 537.01 369.07 249.54 290.

58、84 561.91 407.70 330.9526 西藏 2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.3327 陕西 1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.3428 甘肃 1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.1929 青海 1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.5130 宁夏 1375.46 480.89 273.84 3

59、17.32 251.08 424.75 228.73 195.9331 新疆 1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.40;data exam741_2;input xuhao region$x1-x8;cards;1 北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 2 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 3 辽宁 1730.84 553.90 246.91 279.81

60、 239.18 445.20 330.24 163.86;proc standand data=exam741_1 mean=0 std=1 out=stan1;proc standand data=exam741_2 mean=0 std=1 out=stan2;proc fastclus data=stan1 seed=stan2 maxc=5 drift list;var x1-x8;id region;run;SAS程序程序2 23/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.例例7.4.2 利用利用k均值法进行灰度图像标注与染色。均值法进

61、行灰度图像标注与染色。对下图中各区域进行染色,灰度值相近的区域染上同一种颜色。对下图中各区域进行染色,灰度值相近的区域染上同一种颜色。原图原图染色图染色图3/4/2022多元统计分析多元统计分析 谢中华谢中华,天津科技大学数学系天津科技大学数学系.load xiaolanhua.txtimshow(xiaolanhua)m,n=size(xiaolanhua);IDX=kmeans(xiaolanhua(:),6,start,0.2 0.4 0.6 0.8 0.9 1);map=1 0 0 0 1 0 0 0 1 0.2 0.5 0.9 0.6 0.3 0.6 0.4 0.9 0.5;RGB=label2rgb(reshape(IDX,m,n),map,c,noshuffle);figureimshow(RGB)Matlab程程序序3/4/2022结束结束

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!