数据离散化和概念分层产生
《数据离散化和概念分层产生》由会员分享,可在线阅读,更多相关《数据离散化和概念分层产生(1页珍藏版)》请在装配图网上搜索。
1、数据离散化和概念分层产生通过将属性值域划分为区间,数 据离散化技术可以用来减少给定连续属性值的个数。 区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化 了 原来的数据。这导致挖掘结果的简洁、易于使用的、知识层面的表示。离散化技术可以 根据如何进行离散化加以分类,如根据是否使用类信息或根据进行方向(即自 顶向下或自 底向上)分类。如果离散化过程使用类信息,则称它为监督离散化(supervisediscretization);否则是非监督的(unsupervised)。如果首先找出一点或几个点(称作 分裂点或割点)来划分整个属性区间,然后在 结果区间上递归地重复这一
2、过程,则称它为 自顶向下离散化或分裂。自底向上离散化或合并正好相反,首先将所有的连续值看作可能的 分裂点,通过合并相邻域的值 形成区间,然后递归地应用这一过程于结果区间。可以对一 个属性递归地进行离散化,产生属性值的分层或多分辨率划分,称作概念分层。概念分层对 于多个抽象层 的挖掘是有用的。对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念 (如青年、中年或老年)并用它们替换较低层的概念(如年龄的数值),概念分层可以用来 归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。这有助于通常需要的多种挖掘任务的数据挖掘结果的一致表示。此外,与对大
3、型未泛 化的数据集挖掘相比,对归约的数据进行挖掘所需的I/O操作更少,并且更有效。正因为 如此,离散化技术和概念分层作为预处理步骤,在数据挖掘之前而不是在挖掘 过程进行。 属性price的概念分层例子在图2-22给出。对于同一个属性可以定义多个概念分层,以适 合不同用户的需要。属性price的一个概念分层,其中区间($X.$Y表示从$X (不包括)到$丫 (包括)的 区间对于用户或领域专家,人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而 可以使用一些离散化方法来自动地产生或动态地提炼数值属性 的概念分层。此外,许多分 类属性的分层结构蕴涵在数据库模式中,可以在模式定义级自动地定义。我们来看看数值和分类数据的概念分层的产生。
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。