数据挖掘知识点整理

上传人:suij****uang 文档编号:162479465 上传时间:2022-10-18 格式:DOCX 页数:14 大小:143.51KB
收藏 版权申诉 举报 下载
数据挖掘知识点整理_第1页
第1页 / 共14页
数据挖掘知识点整理_第2页
第2页 / 共14页
数据挖掘知识点整理_第3页
第3页 / 共14页
资源描述:

《数据挖掘知识点整理》由会员分享,可在线阅读,更多相关《数据挖掘知识点整理(14页珍藏版)》请在装配图网上搜索。

1、1、2、3、4、5、6、3、数据挖掘的体制结构。第一早1、数据挖掘的概念及其特点数据挖掘概念:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘(从数据中发现知识)特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的 模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)2、数据挖掘的核心(KDD)是什么? 知识挖掘(KDD)数据挖掘与知识发现从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理:(这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识

2、表示图形用户界面模式评估数据挖掘引擎数据库或数据仓库服务器知识库数据清洗数据集成数据库过谑数据仓库4、数据挖掘的主要方法(能够区分)常用模式数据挖掘的主要方法概念/类描述:特性化和区分口归纳,总结和对比数据的特性.比如:对每个月来网站购物超过 5000元的顾客的描述:40-50岁,有正常职业,信用程度良好关联分析5、6、7、分类和预测口通过构造模型(或函数)用来捋述和区别类或概念,月来预测类型标 志未知的对象类。土七:按气候将卫氮分奕,按汽油消耗定孰待汽手分尖导出模型的表示:判定树“分类规则“神经网络二可以耳来预报某匕未知的或丢失的数宇t6数据挖掘的主要方法(2)聚类分析将矣以的数据匸类到一起

3、,於成一个苛妁类别址行分析.口最大化类内的相似性和最小化类间的相似性孤立点分析孤亿反一吐&数拥的-般行为或模皇干一致的孤工数据口通常孤立点被作为“噪音“或异常被丢弃.但在欺骗检测中却 可次迢T:对干见玉赴进:二孤辽点分祈而得到结论。趋势和演变分折描述行为随时匠文化的对象比发展规律或垣势己虫和偏至:耳归分析 序列慎弍匹配:周期三2斫耳于类似性封分析乩他定向模式或统讣分析分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值聚类分析的说明:例:对WEB日志的数据进行聚类,以发现相同的用户访问模式 孤立点分析的说

4、明 (应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常)- Vr.第二章1、数据仓库的概念(特点就在概念里) 数据仓库是一个(1)面向主题的、(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集 合,支持管理部门的决策过程.2、OLAP (联机分析处理)和OLTP (联机事务处理)的区别1、用户和系统的面向性:面向顾客(事务)VS.面向市场(分析)2、数据内容:当前的、详细的数据(事务)VS.历史的、汇总的数据(分析)3、数据库设计:实体一联系模型(ER)和面向应用的数据库设计(事务)VS.星型/雪花模 型和面向主题的数据库设计(分析)4、数据视图:当前的、企业内部的数

5、据(事务)VS.经过演化的、集成的数据(分析)5、访问模式:事务操作(事务)VS.只读查询(但很多是复杂的查询)(分析)6、任务单位:简短的事务 VS. 复杂的查询7、访问数据量:数十个VS.数百万个8、用户数:数千个VS.数百个9、数据库规模:100M-数GB VS. 1OOGB-数TB10、设计优先性:高性能、高可用性VS.高灵活性、端点用户自治11、度量:事务吞吐量VS.查询吞吐量、响应时间3、多维数据模型在多维数据模型中,数据以数据立方体(da ta cube)的形式存在 数据立方体允许以多维数据建模和观察。它由维和事实定义 维是关于一个组织想要记录的视角或观点。 每个维都有一个表与之

6、相关联,称为维表。多维数据模型围绕中心主题组织,该主题用事实表表示 事实表包括事实的名称或度量以及每个相关维表的关键字 事实指的是一些数字度量一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格, 每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存 放最高层的汇总,称作顶点方体:而存放最底层汇总的方体则称为基本方体。3、几种常见的概念模型星型模式(Star schema):事实表在中心,周围围绕地连接着维表(每维一个).事实表含 有大量数据,没有冗余。雪花模式(Snowflake schema):是星型模式的变种,其中某些维表是规范化的,

7、因而把 数据进一步分解到附加表中。结果.模式图形成类似于雪花的形状。事实星座(Fact constellations):多个事实表共享维表.这种模式可以看作星型模式集, 因此称为星系模式(galaxy schema),或者事实星座(fact constellation)4、一种数据挖掘查询语言 DMQL一种是立方体定义,一种是维定义立方体定义 (事实表)define cube :维定义 (维表)define dimension as ()5、概念分层的概念 一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念 多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分

8、层则提 供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:6、多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为 给定数据添加更多细节)7、数据仓库设计的三种方法 (自顶向下法、自底向上法或者两者的混合方法) 自顶向下法:由总体设计和规划开始 在技术成熟、商业理解透彻的情况

9、下使用 自底向上法:以实验和原型开始 常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险 混合方法:上述两者的结合8、元数据的概念,可以分为哪几类?元数据就是定义数据仓库对象的数据1、数据仓库结构的描述 仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容2、操作元数据包括数据血统(da ta lineage)、数据类别(currency of da ta),以及监视信息3、汇总用的算法4、由操作环境到数据仓库的映射5、关于系统性能的数据索引,profiles,数据刷新、更新或复制事件的调度和定时6、商务元数据 商务术语和定义、数据拥有者信息、收费政策

10、等(技术元数据、业务元数据)- Vr.第三章1、什么是数据预处理?为什么进行?预处理的主要方法和内容。 概念:数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据,并归约待 分析的数据,将在决策过程中得到高回报。进行的原因:现实世界的数据是“肮脏的”数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成主要方法和内容: 数据清理:填写空缺的值,平滑噪声数据,识别、删除孤立点

11、,解决不一致性 数据集成:集成多个数据库、数据立方体或文件数据变换:规范化和聚集 数据归约:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化:数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据 特别重要所占工作量最多的过程:数据清理2、如何处理空缺值?最理想的是哪个方法? 忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少 值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-8使用属性的平均值填充空缺值:使用与给定元组属同一类的所有样本的平均值使用最可

12、能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法(最理 想)3、什么是噪声,引起噪声的原因。 噪声:一个测量变量中的随机错误或偏差 引起噪声数据的原因:数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命 名规则的不一致。4、数据平滑地分箱分箱(binning):首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等方法:price 的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34 划分为(等深的)箱:箱 1:4,8,15箱 2:21,21,24箱 3:25,28,34用箱平均值平滑:箱 1:9

13、,9,9箱 2: 22, 22, 22 箱 3: 29, 29, 29用箱边界平滑:箱 1: 4, 4, 15箱 2: 21, 21, 24箱 3: 25, 25, 345、数据变换(规范化、最小最大要求掌握,计算),并解释为什么要做这样的变换。 规范化:将数据按比例缩放,使之落入一个小的特定区间(最小一最大规范化、z-score规范化、小数定标规范化) 最小一最大规范化t V - min .、v =A (new _ max - new _ min ) + new _ minmax - minAAAAA例3.1般定屈性income的戢小用大值分别为$ 12,000和$9& 000 我ffjfi

14、映射income刊区间 OK 0.1 4粮据最小塢丸规范化,淑眈他戏600将变换为:73,600 12,000 (l-0)=0J16o二 98,000-12.000数据规范化的一种方法是“最小一最大规范化”,即假设数据的取值区间为 old_min, old_max, “最小一最大规范化”即把这个区间映射到新的取值区间new_min, new_max。 对于任意一个在原来区间中的变量,在新的区间中都有一个值和它对应,计算公式为:.x - old_min/.、.x = :(new_max- new_mm ) + new_mmold_max - old_min_现假设“客户基本情况”表中的客户月收入

15、属性的实际值范围为2100, 8300,要把这个属 性值规范到0,1,对月收入属性值5600请应用上述公式将其进行规范,并解释为什么要 进行这样的数据变换才是适于挖掘的形式。5600-21008300 2100(1 - 0) + 0 = 0.5645练习:假设数据集D是某公司每月利润增长数据,数据单位为元,取值范围-13000-32000 之间,5%点为-9000,95%点在280000,根据3-4-5规则划分区间。规范化对于基于距离的分类算法(如聚类)和神经网络算法是非常重要的,可以保证输入值 在一个相对小的范围内,加快训练速度;另外,不会发生因为输入值的范围过大而使权重过 大的情况。参考:

16、运算空间量小,处理小数总比大数方便,对于计算效率和速度都有好处6、345规划(例子要求掌握)自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 规则的划分步骤:1、如果一个区间最高有效位上包含3, 6, 7或9个不同的值,就将该区间划分为3个等宽 子区间;(7-2,3,2)2、如果一个区间最高有效位上包含2, 4,或8个不同的值,就将该区间划分为4个等宽子 区间;3、如果一个区间最高有效位上包含1, 5,或10个不同的值,就将该区间划分为5个等宽子区间;4、将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;5、对于数据集中出现的最大值和最小值的极端分布,为了避

17、免上述方法出现的结果扭曲, 可以在顶层分段时,选用一个大部分的概率空间e.g. 5%-95%例子如下图(参考书上P9091):Me第二歩Uw (is, 5张皿)第三歩(&4W第四步(-150C-(42C0-51C0)傀泓两弹嗣-(51.0-ILO)(S2.WW-g耐1,40)阳厲豔-54MG)tm-m(-5LC:-(51-血醯 儿恥協7、关于属性值的类型(名称、序数连续、区间)8、离散化中的三种类型的属性值: 名称型e.g.无序集合中的值; 序数e.g.有序集合中的值; 连续值(区间).g.实数第四章1、四种兴趣度量单位 常用的四种兴趣度的客观度量: 简单性:模式是否容易被人所理解 模式结构的

18、函数(模式的长度、属性的个数、操作符个数)。e.g.规则长度或者判定树的节点个数。 确定性:表示一个模式在多少概率下是有效的。置信度(A二B) = (包含A和B的元组值)/(包含A的元组值),e.g. buys(X, “computer)=buys(X, “software”) 30%, 80% 100%置信度:准确的。实用性:可以用支持度来进行度量:支持度(A=b)二(包含A和B的元组数)/(元组总数)e.g. buys(X, “computer)=buys(X, “software”) 30%, 80% 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。 新颖性:提供新信

19、息或提高给定模式集性能的模式通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵) Location(X, “Canada”)=buys(X, “Sony_TV”) 8%, 70%Location(X,“Vancouver”)=buys(X,“Sony_TV”) 2%, 70%2、特征化单词、关联、分类。 数据挖掘语言,指定挖掘知识类型特征化 mine characteristics 数据区分 mine comparison as pattern_name关联 mine associations 分类 mine classification as pattern_name第四章1、数

20、据挖掘可以分为描述性挖掘和预测性挖掘,概念描述属于描述性挖掘。2、面向属性归纳的基本思想 面向属性归纳的基本思想:1)、使用关系数据库查询收集任务相关的数据2)、通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属 性概化3)、通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作4)、通过与用户交互,将广义关系以图表或规则等形式,提交给用户3、数据概化的两种常用方法,属性删除和属性概化 数据概化的两种常用方法:属性删除和属性概化1、属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使 用属性删除: 在此属性上没有概化操作符(比如该属

21、性没有定义相关的概念分层) 该属性的较高层概念用其他属性表示2、属性概化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存 在概化操作符,则使用该概化操作符对该属性进行数据概化操作-j-* Vr.第五章 1、哪些属性可以删掉,如 phone#,namename :删除属性gender :保留该属性,不概化major :根据概念分层向上攀升文,理,工 birth_place:根据概念分层location向上攀升 birth_date:概化为 age,再概化为 age_range residence:根据概念分层location向上攀升 phone# :删除属性gpa:根据GPA

22、的分级作为概念分层2、信息增益(计算)书上有个例子P1313、特征化 target 充分、必要条件,量化规则。写出一个规则能够理解并说出它的意思。 量化特征化规则V X, target_cla ss(X) n condition( X) t: t_weight必要条件量化区分规则V X, target_class(X) u condition(X) d: d_weight充分条件量化描述规则V X, target_cla ss(X) ocondition (X) t: W,d : w: v. v condition n(X) t: wn,d : w;充要条件给出 VX, Europe(X) o

23、(item(X) =TV )t: 25%,d: 40% v (item(X) =computer) t: 75%,d: 30%表明对99年AllElec tronics公司的TV和计算机销售,如果一商品在欧洲售出,则其为TV 的概率为25%该公司40%的TV在欧洲售出4、对四分位的理解和四分位的极差。 最常用度量:五数概括(基于四分位数)、中间四分位数区间和标准差 四分位数、孤立点和盒图百分位数:第k个百分位数是具有如下性质的值x:数据项的k%在x上或低于x四分位数:Q1 (25th percentile), Q3 (75th percentile)中间四分位数区间(IQR): IQR二Q3

24、- Q1对倾斜分布的描述,除了 IQR还常需两个四分位数Q1和Q3,以及中位数M, 个识别孤立点的常用规则是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5XIQR处的 值四分位,四分位数极差是多少?Ppt上的:百分位数(percentile):第k个百分位数是具有如下性质的值x:数据项的k%在x 上或低于x四分位数:Q1 (25th percentile), Q3 (75th percentile)中间四分位数区间(IQR): IQR = Q3 - Q1对倾斜分布的描述,除了 IQR还常需两个四分位数Q1和Q3,以及中位数M, 个识别孤 立点的常用规则是:挑出落在至少高于第三个四分

25、位数或低于第一个四分位数1.5XIQR处 的值百度的:四分位差(quartile deviation),也称为内距或四分间距(inter-quartile range),它是 上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示。计算公式为:Qd =QL-QU四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其 数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据 的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。 四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适 合分类数据

26、。四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4 等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1 (第一四分位数)、Q2 (第二四分位数,即中位数)、Q3 (第三四分位数)。其中,Q3到Q1之间的距离的差又称 为四分位差,记为Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味 着中间部分的数据越分散。具体的:1.极差、四分位数和四分位数极差开始,让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极 差。设x1,x2,,xN是某数值属性X上的观测的集合。该集合的极差(range)是最大值(max() 与最小值(min(

27、)之差。假设属性X的数据以数值递增序排列。想象我们可以挑选某些数据点,以便把数据分布划 分成大小相等的连贯集,如图2.2所示。这些数据点称做分位数。分位数quantile)是取自 数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(我们说“基 本上”因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值。为简单起见, 我们将称它们相等。)给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为 k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得Ovkvq。我们有q-1个q-分位数。图2某属性X的魏据分布囹。这里第制的和电数是 皿分位数.1卜的朴洁教加严

28、屮泸g陽母.等的部井口第?牛四分feEZfciifcJxbrn2-分位数是一个数据点,它把数据分布划分成高低两半。2-分位数对应于中位数。4-分位数 是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之 一。通常称它们为四分位数(quartile)。100-分位数通常称做百分位数(percentile),它们把 数据分布划分成100个大小相等的连贯集。中位数、四分位数和百分位数是使用最广泛的分 位数。四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作Q1,是第25个百 分位数,它砍掉数据的最低的25%。第3个四分位数记作Q3,是第75个百分位数,它砍

29、掉数据的最低的75% (或最高的25%)。第2个四分位数是第50个百分位数,作为中位数, 它给出数据分布的中心。第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆 盖的范围。该距离称为四分位数极差(IQR),定义为IQR=Q3-Q1(2.5)例2.10四分位数极差。四分位数是3个值,把排序的数据集划分成4个相等的部分。例 2.6的数据包含12个观测,已经按递增序排序。这样,该数据集的四分位数分别是该有序表 的第3、第6和第9个值。因此,Q1=47000美元,而Q3=63000美元。于是,四分位数极 差为IQR=63000-47000=16000美元。(注意,第6个

30、值是中位数52000美元,尽管这个数据 集因为数据值的个数为偶数有两个中位数。)1什么是关联规则挖掘?及常见应用?概念:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频 繁出现的模式、关联和相关性。应用:“尿布与啤酒”购物篮分析、分类设计、捆绑销售等购物篮分析中support = 2%. confidence 60%支持 度/r.s IT.I =iA 乜 qh汀 3、置信度2关联规则的两个兴趣度度量对所有满足最小支持度和置信度的关联规则支持度s是指事务集D中包 含TuE的百分比 support(A 今百=P(A u置信度匚是指D中包含A的事 务同时也包含B的百分比co

31、nfides AP(B A) = PA 5) /3.Apriori算法求频繁项集Apriori算法步骤:Apr iori算法由逹銅d勇炭两个步骤组成的集合,该候魯顼集记为S口匸站中的两个元素和L2可以执行连接操作k 条件是缶卩=I21J) a(/J2 = /32) a . a氏-2 = l2k-2)1 讖跻隅翅跆繁臨勰 过扫描数据库,通过#算每个k项集的支持度来得到-蘇赞黑朋使舲隣龍矍糜的埔髓 接如必删除.第七章1分类vs预测概念 典型应用分类:预测分类标号(或离葩值)根拐训练数据集和类标号属性,构建模型来分类现有埶据 并用来分类新数摒预测:建立连续函埶值模型,比如预刪空缺值典型应用信誉证实目

32、标市场=医疗诊断性能预测预测是构造和使用模型评估无祥本类,或评估给定样 本可能具有的属性或值空间。预测和分类的异同相同点两者都霍要枸翟檯型都用檯型来估计未知值勺测当申至要的佶计方法直叵同労折结性匡归和寧亡回日不同点分类法主要是用来预11类标号分类属性值)预测达主要是用来估计连烦值重化属性值)2. 训练数据集和训练样本的概念。训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组)3. 什么是判定树(决策树)?如何应用它分类?用判定树归纳分类什么是判定树7类佩于流程园的树结构每个内部节点表示在一个屈性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布利定树

33、的生成由两个阶段组成判定树构建.开凿时所电的门的斗都在.帳节点-1S商的ifiif选走的屈性来划分槽本f血颔是爲螢直1 榊剪枝许聂甘悝氏釀的显训缘敌楣申曲回言和缸立占拥剪程试田检 洌和茎去址种分拒判定树的便用;对未知样本进行分类通过将样本的属性值与判定树相比较priori算法示例Database TDB10A, C,D20B, C,E30A; B; C. E40B;E1st SC&51Itemset占upA2回3C3何13Item setsupA2B323何3最小支持计数:25ItemsetItem setsupI AnC22Bn E3I GE2Item setsupA,B1A C2A月1B,

34、 C2B月3心E27 nd+SCEiilA, CS月Kccl4.| 出 G E |ItemsetsupI B, C3 E |Item setpriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。4多层关联致支持度一致支持度:对所有层都使用一致的最小支持度优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不 用搜索缺点:最小支持度值设置困难太高:将丢掉出现在较低抽象层中有意义的关联规则太低:会在较高层产生太多的无兴趣的规则多层关联一一递减支持度使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难递减支持度:在较低层使用递减的最小支持度 每一层都有自己的一个独立的最小支持度 抽象层越低,对应的最小支持度越小第八章1、什么是聚类分析?聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类编号2、聚类分析的数据通常分为哪五个? 二元变量、标称变量、序数型变量、比例标度变量、混合类型的变量 3.划分方法-簇的表示(1) k-平均算法由簇的平均值来代表整个簇k-平均算法 当邻近度函数采用曼哈顿距离的时候,合适的质心事簇中各个点的中位数 ( 2) k 中心点算法由处于簇的中心区域的某个值代表整个簇

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!