R语言聚类分析:k

上传人:z**** 文档编号:122655962 上传时间:2022-07-21 格式:DOC 页数:10 大小:477.50KB
收藏 版权申诉 举报 下载
R语言聚类分析:k_第1页
第1页 / 共10页
R语言聚类分析:k_第2页
第2页 / 共10页
R语言聚类分析:k_第3页
第3页 / 共10页
资源描述:

《R语言聚类分析:k》由会员分享,可在线阅读,更多相关《R语言聚类分析:k(10页珍藏版)》请在装配图网上搜索。

1、机器学习算法主要都是分类和回归,这两类的应用场景都很清晰,就是对分类型变量或者数值型变量的预测。聚类分析是一 种根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使 同一个簇内部的样本相似度高,不同簇之间差异性高。有人不理解分类和聚类的差别,其实这个很简单:分类是一个已知具体有几种情况的变量,预测它到底是哪种情况;聚类 则是尽量把类似的样本聚在一起,不同的样本分开。举个例子,一个人你判断他是男是女这是分类,让男人站一排女人 站一排这是聚类。聚类分析算法很多,比较经典的有k-means和层次聚类法k-means聚类分析算法k-means的k就是最

2、终聚集的簇数,这个要你事先自己指定。k-means在常见的机器学习算法中算是相当简单的,基本过 程如下:首先任取(你没看错,就是任取)k个样本点作为k个簇的初始中心;对每一个样本点,计算它们与k个中心的距离,把它归入距离最小的中心所在的簇;等到所有的样本点归类完毕,重新计算k个簇的中心;重复以上过程直至样本点归入的簇不再变动。k-means的聚类过程演示如下:Heration 1 Step 2aIteration 1, Step 2bHeration 2, Step 2aIdFinal Results【原创】附代码数据有问题到淘宝找“大数据部落”就可以了Datak-means聚类过程k-mea

3、ns聚类分析的原理虽然简单,但缺点也比较明显:首先聚成几类这个k值你要自己定,但在对数据一无所知的情况下你自己也不知道k应该定多少;初始质心也要自己选,而这个初始质心直接决定最终的聚类效果;每一次迭代都要重新计算各个点与质心的距离,然后排序,时间成本较高。值得一提的是,计算距离的方式有很多种,不一定非得是笛卡尔距离;计算距离前要归一化。层次聚类法尽管k-means的原理很简单,然而层次聚类法的原理更简单。它的基本过程如下:每一个样本点视为一个簇;计算各个簇之间的距离,最近的两个簇聚合成一个新簇;重复以上过程直至最后只有一簇。层次聚类不指定具体的簇数,而只关注簇之间的远近,最终会形成一个树形图。

4、通过这张树形图,无论想划分成几个簇都可以很快地划出。以下以癌细胞细据为例,演示K-means和层次聚类法的过程。 library(ISLR) nci.labels = NCI60$labs nci.data = NCI60$data sd.data = scale(nci.data) data.dist = dist(sd.data) plot(hclust(data.dist),labels =nci.labels, main = Complete Linkage, xlab = , sub = , ylab = ) # 默认按最长距离聚类 plot(hclust(data.dist,met

5、hod=average),labels = nci.labels, main = Average Linkage, xlab = , sub = , ylab = ) # 类平均法 plot(hclust(data.dist),labels = nci.labels, main = Single Linkage, xlab = , sub = , ylab = ) #最短距离法Complete LinkN3a1N3aN山E vs0z1 山乏 or_owzOWNO1OSN cmsz 山Ilso(rdI ?s0 1 ZOJOONcnoo I zE0 O1OSZ zs0 zs0sozrisJVM姑A

6、verage Linh二 -dr- r- - - .1z501 zs0J zs0IAIOZ1 山至I乏 0N1山乏 Id *壬 0z山芒n乏QN3山芝r sozsHsxm r 1 Z5S|运 0z1山乏rlz山x1 zooo ioo_ZO1QO1- ls山IYCO Qd$fu_on OIOSMls山霁 CGOSNWZLLJX| 0d塞變EdMmrJgsyl n rI 1乏山乂 n山1 r _乏山芳山1| vs山养出J_壬山vin山丄兰乏山刍山1Single LinkaO N 一 noI szorz20 d NAAOENnMN 山 M II JN 山世乏 0N乏 O1OSNI j OJOWZI|

7、 O1OSNr I 山 B/JLSQirdz50zodo INOICO 1 z50 O1OSZN正O乏 0z1 山乏 1N山吃 I oowz ISV山需 1N 山trwzoLI ls山鲁1 ls#指定聚类数 hc.out = hclust(dist(sd.data) hc.clusters = cutree(hc.out,4) table(hc.clusters,nci.labels)nci.labelshc.clusters BREAST CNS COLON K562A-repro K562B-repro LEUKEMIA MCF7A-repro1 23200002 3200000原创】附代码数据Cluster DendrogramioznHdist(sd.data)hclust complete)层次聚类划分成4类图中一条红线将簇划分成4类,很容易看出哪些样本各属于哪一簇。以上是层次聚类法的结果,但如果用k-means聚类的话,结果很可能就不一样了。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!