UNIT8数据挖掘的概念ppt课件

上传人:无*** 文档编号:145270963 上传时间:2022-08-29 格式:PPT 页数:62 大小:273.50KB
收藏 版权申诉 举报 下载
UNIT8数据挖掘的概念ppt课件_第1页
第1页 / 共62页
UNIT8数据挖掘的概念ppt课件_第2页
第2页 / 共62页
UNIT8数据挖掘的概念ppt课件_第3页
第3页 / 共62页
资源描述:

《UNIT8数据挖掘的概念ppt课件》由会员分享,可在线阅读,更多相关《UNIT8数据挖掘的概念ppt课件(62页珍藏版)》请在装配图网上搜索。

1、学完本讲后,他应该可以了解:数据发掘是一门交叉学科;数据发掘是从大量的、不完全的、有噪声的、模糊的、随机的实践运用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据发掘产生的内容(或知识)包括广义知识、关联知识、分类知识、预测型知识、偏向型知识等发掘的数据对象是多样的,可以是关系数据库、数据仓库、高级数据库、flat文件和WWW等数据发掘的常用技术包括人工神经网络、决策树、遗传算法、近邻算法、规那么推导等一数据发掘技术的由来一数据发掘技术的由来二数据发掘的定义二数据发掘的定义三数据发掘研讨内容和本质三数据发掘研讨内容和本质四在何种数据上进展数据发掘四在何种数据上

2、进展数据发掘五五.数据发掘的功能数据发掘的功能六六.一切方式都是有用的吗一切方式都是有用的吗?七七.数据发掘系统的分类数据发掘系统的分类八八.数据发掘常用技术数据发掘常用技术九九.数据发掘工具数据发掘工具十十.数据发掘的热点和主要问题数据发掘的热点和主要问题数据发掘技术数据发掘技术的由来的由来l信息技术的下一个技术热点l大量信息在给人们带来方便的同时也带来了一大堆问题:l第一是信息过量,难以消化;l第二是信息真假难以辨识;l第三是信息平安难以保证;l第四是信息方式不一致,难以一致处置。u信息技术的下一个技术热点u人们开场提出一个新的口号:“要学会丢弃信息u人们开场思索:“如何才干不被信息淹没,

3、而是从中及时发现有用的知识、提高信息利用率?u面对这一挑战,数据发掘和知识发现Data Mining and Knowledge Discovery技术应运而生,并显示出强大的生命力 l数据爆炸但知识贫乏l随着数据库技术的迅速开展以及数据库管理系统的广泛运用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望可以对其进展更高层次的分析,以便更好地利用这些数据。l数据的丰富带来了对强有力的数据分析工具的需求,快速增长的海量数据、存放在大型和大量数据库中,没有强有力的工具,了解这些数据已远远超出了人的才干l数据爆炸但知识贫乏u数据爆炸但知识贫乏u目前的数据库系统可以高效地实现数据

4、的录入、查询、统计等功能,但无法发现数据中存在的关系和规那么,无法根据现有的数据预测未来的开展趋势。缺乏发掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏的景象。数据发掘数据发掘数据库越来越大数据库越来越大可怕的数据可怕的数据有价值的知识有价值的知识l支持数据发掘技术的根底l数据发掘技术是人们长期对数据库技术进展研讨和开发的结果。l如今数据发掘技术在商业运用中曾经可以马上投入运用,由于对这种技术进展支持的三种根底技术曾经开展成熟:l海量数据搜集l强大的多处置器计算机l数据发掘算法 l数据发掘的演化过程l数据发掘其实是一个逐渐演化的过程,电子数据处置的初期,人们就试图经过某些方法来实现自动

5、决策支持。l当机器学习成为人们关怀的焦点.机器学习的过程就是将一些知的并已被胜利处理的问题作为范例输入计算机,机器经过学习这些范例总结并生成相应的规那么,这些规那么具有通用性,运用它们可以处理某一类的问题.l随着神经网络技术的构成和开展,人们的留意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规那么,而是直接给计算机输入已被代码化的规那么,而计算机是经过运用这些规那么来处理某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等缺乏。l数据发掘的演化过程l80年代又在新的神经网络实际的指点下,重新回到机器学习的方法上,并将其成果运用于处置大型商业数据库。

6、随着在80年代末一个新的术语,即数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指一切从源数据中开掘方式或联络的方法,人们接受了这个术语,并用KDD来描画整个数据开掘的过程,包括最开场的制定业务目的到最终的结果分析,而用数据发掘data mining来描画运用发掘算法进展数据发掘的子过程。l数据发掘的演化过程l最近人们却逐渐开场运用数据发掘中有许多任务可以由统计方法来完成,并以为最好的战略是将统计方法与数据发掘有机的结合起来。l数据仓库技术的开展与数据发掘有着亲密的关系。数据仓库的开展是促进数据发掘越来越热的缘由之一。但是,数据仓库并不是数

7、据发掘的先决条件,由于有很多数据发掘可直接从操作数据源中发掘信息 数据发掘数据发掘的定义的定义l技术上的定义及含义l简单地说,数据发掘是从大量数据中提取或发掘知识。l数据发掘就是从大量的、不完全的、有噪声的、模糊的、随机的实践运用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。l与数据发掘相近的同义词有数据交融、数据分析和决策支持等。这个定义包括好几层含义:数据源必需是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可了解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。l技术上的定义及含义l何为知识?从广义上了解,数据、信息

8、也是知识的表现方式,但是人们更把概念、规那么、方式、规律和约束等看作知识。人们把数据看作是构成知识的源泉,好似从矿石中采矿或淘金一样。l原始数据可以是构造化的,如关系数据库中的数据;可以是半构造化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。l发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。l技术上的定义及含义l发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据本身的维护。l因此,数据发掘是一门交叉学科,它把人们对数据的运用从低层次的简单查询,提升到从数据中发掘知识,提供决策支持。在这种需求牵引下,会聚了不同领域的研讨者,尤其

9、是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据发掘这一新兴的研讨领域,构成新的技术热点。l技术上的定义及含义l这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。l实践上,一切发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要可以易于被用户了解。最好能用自然言语表达所发现的结果l l知识发现的过程l确定业务对象l数据预备l数据发掘l结果分析l知识同化 u知识发现的过程u知识发现过程中各步骤的大体内容如下:uA.确定业务对象u明晰地定义出业务问题,认清数据

10、发掘的目的是数据发掘的重要一步.发掘的最后构造是不可预测的,但要探求的问题应是有预见的,为了数据发掘而数据发掘那么带有盲目性,是不会胜利的.l知识发现的过程lB.数据预备l数据的选择:搜索一切与业务对象有关的内部和外部数据信息,并从中选择出适用于数据发掘运用的数据.l数据的预处置包括数据清理和数据集成:研讨数据的质量,为进一步的分析作预备.并确定将要进展的发掘操作的类型.l数据的转换:将数据转换成一个分析模型.这个分析模型是针对发掘算法建立的.建立一个真正适宜发掘算法的分析模型是数据发掘胜利的关键.l知识发现的过程lC 数据发掘:对所得到的经过转换的数据进展发掘.除了完善从选择适宜的发掘算法外

11、,其他一切任务都能自动地完成.lD 结果分析:解释并评价结果.其运用的分析方法普通应作数据发掘操作而定,通常会用到可视化技术.lE 知识的同化:将分析所得到的知识集成到业务信息系统的组织构造中去 l数据发掘与传统分析方法的区别数据发掘与传统分析方法的区别l数据发掘与传统的数据分析数据发掘与传统的数据分析(如查询、报如查询、报表、联机运用分析表、联机运用分析)的本质区别是数据发的本质区别是数据发掘是在没有明确假设的前提下去发掘信掘是在没有明确假设的前提下去发掘信息、发现知识息、发现知识.数据发掘所得到的信息应数据发掘所得到的信息应具有先未知具有先未知,有效和可适用三个特征有效和可适用三个特征.l

12、先前未知的信息是指该信息是预先未曾先前未知的信息是指该信息是预先未曾预料到的预料到的,既数据发掘是要发现那些不能既数据发掘是要发现那些不能靠直觉发现的信息或知识靠直觉发现的信息或知识,甚至是违背直甚至是违背直觉的信息或知识觉的信息或知识,发掘出的信息越是出乎发掘出的信息越是出乎预料预料,就能够越有价值就能够越有价值.l在商业运用中最典型的例子就是一家连在商业运用中最典型的例子就是一家连锁店经过数据发掘发现了小孩尿布和啤锁店经过数据发掘发现了小孩尿布和啤酒之间有着惊人的联络酒之间有着惊人的联络.数据发掘的数据发掘的研讨内容和本质研讨内容和本质随着随着DMKDDMKD研讨逐渐走向深化,数据发掘研讨

13、逐渐走向深化,数据发掘和知识发现的研讨曾经构成了三根强大和知识发现的研讨曾经构成了三根强大的技术支柱:数据库、人工智能和数理的技术支柱:数据库、人工智能和数理统计。目前统计。目前DMKDDMKD的主要研讨内容包括根的主要研讨内容包括根底实际、发现算法、数据仓库、可视化底实际、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半构造法、发现知识的维护和再利用、半构造化和非构造化数据中的知识发现以及网化和非构造化数据中的知识发现以及网上数据发掘等。上数据发掘等。u数据发掘所发现的知识最常见的有以下数据发掘所发现的知识最常见的有

14、以下几类:几类:u广义知识广义知识GeneralizationGeneralizationu关联知识关联知识AssociationAssociationu分类知识分类知识(Classification(ClassificationClustering)Clustering)u预测型知识预测型知识PredictionPredictionu偏向型知识偏向型知识(Deviation)(Deviation)l广义知识l广义知识指类别特征的概括性描画知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和笼统。l关联知识l它反映一

15、个事件和其他事件之间依赖或关联的知识。假设两项或多项属性之间存在关联,那么其中一项的属性值就可以根据其他属性值进展预测。l分类知识分类知识l它反映同类事物共同性质的特征型知识和不它反映同类事物共同性质的特征型知识和不同事物之间的差别型特征知识。最为典型的分同事物之间的差别型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指点的学习方法。集中构造决策树,是一种有指点的学习方法。该方法先根据训练子集又称为窗口构成决该方法先根据训练子集又称为窗口构成决策树。假设该树不能对一切对象给出正确的分策树。假设该树不能对一切对象给出

16、正确的分类,那么选择一些例外参与到窗口中,反复该类,那么选择一些例外参与到窗口中,反复该过程不断到构成正确的决策集。最终结果是一过程不断到构成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一能够值。的属性,该分枝对应该属性的某一能够值。l预测型知识预测型知识l根据时间序列型数据,由历史根据时间序列型数据,由历史的和当前的数据去推测未来的数的和当前的数据去推测未来的数据,也可以以为是以时间为关键据,也可以以为是以时间为关键属性的关联知识。属性的关联知识。l偏向型知识(Deviation)l它是对差别和极端特例

17、的描画,提示事物偏离常规的异常景象,如规范类外的特例,数据聚类外的离群值等。一切这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需求l孤立点数据分析、欺骗检测等在何种数据上在何种数据上进展数据发掘进展数据发掘原那么上讲,DM可以在任何类型的信息存储上进展.包括:关系数据库数据仓库高级数据库面向对象的数据库对象-关系数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库和遗产数据库flat文件WWW数据发掘数据发掘的功能的功能数据发掘功能用于指定数据发掘义务中要找的方式类数据发掘功能用于指定数据发掘义务中要找的

18、方式类型。数据发掘义务有两类:描画和预测型。数据发掘义务有两类:描画和预测.描画性发掘义描画性发掘义务描写数据库中数据的普通特性;预测性数据发掘义务描写数据库中数据的普通特性;预测性数据发掘义务在当前数据上进展推断、预测务在当前数据上进展推断、预测.概念描画概念描画关联分析关联分析自动预测趋势和行为自动预测趋势和行为聚类聚类偏向检测偏向检测l概念描画l概念描画就是对某类对象的内涵进展描画,并概括这类对象的有关特征。l概念描画分为特征性描画和区别性描画,前者描画某类对象的共同特征,后者描画不同类对象之间的区别。l生成一个类的特征性描画只涉及该类对象中一切对象的共性。l生成区别性描画的方法很多,如

19、决策树方法、遗传算法等 l关联分析l数据关联是数据库中存在的一类重要的可被发现的知识。假设两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规那么带有可信度。l关联分析发现关联规那么,这些规那么展现属性值频繁地在给定数据集中一同出现的条件。l自动预测趋势和行动l数据发掘自动在大型数据库中寻觅预测性信息,以往需求进展大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据发掘运用过去有关促销的数据来寻觅未来

20、投资中报答最大的用户,其它可预测的问题包括预告破产以及认定对指定事件最能够作出反响的群体。l聚类聚类l数据库中的记录可被化分为一系列有意数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类加强了人们对义的子集,即聚类。聚类加强了人们对客观现实的认识,是概念描画和偏向分客观现实的认识,是概念描画和偏向分析的先决条件。聚类技术主要包括传统析的先决条件。聚类技术主要包括传统的方式识别方法和数学分类学。的方式识别方法和数学分类学。l聚类分析与分类和预测的区别:聚类分聚类分析与分类和预测的区别:聚类分析数据对象,而不思索知的类标志。析数据对象,而不思索知的类标志。l聚类l偏向检测l数据库中的数据常有

21、一些异常记录,从数据库中检测这些偏向很有意义。偏向包括很多潜在的知识,如分类中的反常实例、不满足规那么的特例、观测结果与模型预测值的偏向、量值随时间的变化等。偏向检测的根本方法是,寻觅观测结果与参照值之间有意义的差别。一切方式都是一切方式都是有用的吗有用的吗?一切的方式都是有趣的吗?一切的方式都是有趣的吗?什么样的方式是有趣的?什么样的方式是有趣的?数据发掘系统能产生一切有趣的方式吗?数据发掘系统能产生一切有趣的方式吗?数据发掘系统能仅产生有趣方式吗?数据发掘系统能仅产生有趣方式吗?数据发掘系统数据发掘系统的分类的分类数据发掘系统是一个多学科交叉交融领域 正由于源于多学科,数据发掘研讨产生了大

22、量的、各种不同类型的数据发掘系统,按不同的规范,数据发掘系统可分为根据发掘的数据库类型分类根据发掘的知识类型分类根据所用的发掘技术分类根据运用分类数据发掘数据发掘常用技术常用技术u人工神经网络人工神经网络u仿照生理神经网络构造的非线形预测模型,经仿照生理神经网络构造的非线形预测模型,经过学习进展方式识别。过学习进展方式识别。u决策树决策树:代表着决策集的树形构造。代表着决策集的树形构造。u遗传算法遗传算法u基于进化实际,并采用遗传结合、遗传变异、基于进化实际,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。以及自然选择等设计方法的优化技术。u近邻算法近邻算法u将数据集合中每一个记录

23、进展分类的方法。将数据集合中每一个记录进展分类的方法。u规那么推导规那么推导u从统计意义上对数据中的从统计意义上对数据中的“假设假设-那么规那么那么规那么进展寻觅和推导。进展寻觅和推导。采用上述技术的某些专门的分析工具曾采用上述技术的某些专门的分析工具曾经开展了大约十年的历史,不过这些工经开展了大约十年的历史,不过这些工具所面对的数据量通常较小。而如今这具所面对的数据量通常较小。而如今这些技术曾经被直接集成到许多大型的工些技术曾经被直接集成到许多大型的工业规范的数据仓库和联机分析系统中去业规范的数据仓库和联机分析系统中去了。了。数据发掘数据发掘工具工具常用的数据发掘工具包括常用的数据发掘工具包

24、括:基于神经网络的工具基于神经网络的工具基于规那么和决策树的工具基于规那么和决策树的工具基于模糊逻辑的工具基于模糊逻辑的工具综合多方法工具综合多方法工具u基于神经网络的工具基于神经网络的工具u由于对非线性数据的快速建模才干,由于对非线性数据的快速建模才干,基于神经网络的数据发掘工具如今越来基于神经网络的数据发掘工具如今越来越流行。其开采过程根本上是将数据聚越流行。其开采过程根本上是将数据聚类,然后分类计算权值。神经网络很适类,然后分类计算权值。神经网络很适宜非线性数据和含噪声数据,所以在市宜非线性数据和含噪声数据,所以在市场数据库的分析和建模方面运用广泛。场数据库的分析和建模方面运用广泛。u基

25、于规那么和决策树的工具基于规那么和决策树的工具u大部分数据发掘工具采用规那么发大部分数据发掘工具采用规那么发现或决策树分类技术来发现数据方式和现或决策树分类技术来发现数据方式和规那么,其中心是某种归纳算法。这类规那么,其中心是某种归纳算法。这类工具通常是对数据库的数据进展开采,工具通常是对数据库的数据进展开采,消费规那么和决策树,然后对新数据进消费规那么和决策树,然后对新数据进展分析和预测。这类工具的主要优点是,展分析和预测。这类工具的主要优点是,规那么和决策树都是可读的。规那么和决策树都是可读的。u基于模糊逻辑的工具基于模糊逻辑的工具u其发现方法是运用模糊逻辑进展数其发现方法是运用模糊逻辑进

26、展数据查询、排序等。该工具运用模糊概念据查询、排序等。该工具运用模糊概念和和“最近搜索技术的数据查询工具,它最近搜索技术的数据查询工具,它可以让用户指定目的,然后对数据库进可以让用户指定目的,然后对数据库进展搜索,找出接近目的的一切记录,并展搜索,找出接近目的的一切记录,并对结果进展评价。对结果进展评价。u综合多方法工具综合多方法工具u 不少数据发掘工具采用了多种开采不少数据发掘工具采用了多种开采方法,这类工具普通规模较大,适于大方法,这类工具普通规模较大,适于大型数据库包括并行数据库。这类工具开型数据库包括并行数据库。这类工具开采才干很强,但价钱昂贵,并要花很长采才干很强,但价钱昂贵,并要花

27、很长时间进展学习。时间进展学习。数据发掘数据发掘的热点和主要问题的热点和主要问题就目前来看,未来的几个热点包括就目前来看,未来的几个热点包括:网站的数据发掘网站的数据发掘miningmining生物信息或基因的数据发掘生物信息或基因的数据发掘文本的数据发掘文本的数据发掘u网站的数据发掘网站的数据发掘Web site data miningWeb site data miningu需求需求:随着随着WebWeb技术的开展,各类电子商务网站技术的开展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要困难的是

28、如何让您的电子商务网站有效益。要想有效益就必需吸引客户,添加能带来效益的想有效益就必需吸引客户,添加能带来效益的客户忠实度。电子商务业务的竞争比传统的业客户忠实度。电子商务业务的竞争比传统的业务竞争更加猛烈,缘由有很多方面,其中一个务竞争更加猛烈,缘由有很多方面,其中一个要素是客户从一个电子商务网站转换到竞争对要素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、效力等任何和层次、用词、标题、奖励方案、效力等任何一个地方都有能够成为吸引客户、同时也能够一个地方都有能够成为吸引客户、同时也能够成为失去

29、客户的要素。而同时电子商务网站每成为失去客户的要素。而同时电子商务网站每天都能够有上百万次的在线买卖,生成大量的天都能够有上百万次的在线买卖,生成大量的记录文件记录文件LogfilesLogfiles和登记表,如何对这些和登记表,如何对这些数据进展分析和发掘,充分了解客户的喜好、数据进展分析和发掘,充分了解客户的喜好、购买方式,甚至是客户一时的激动,设计出满购买方式,甚至是客户一时的激动,设计出满足于不同客户群体需求的个性化网站,进而添足于不同客户群体需求的个性化网站,进而添加其竞争力,几乎变得势在必行。假想象在竞加其竞争力,几乎变得势在必行。假想象在竞争中生存进而获胜,就要比您的竞争对手更了

30、争中生存进而获胜,就要比您的竞争对手更了解客户。解客户。u电子商务网站数据发掘电子商务网站数据发掘u 在对网站进展数据发掘时,所需求的数据在对网站进展数据发掘时,所需求的数据主要来自于两个方面:一方面是客户的背景信主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自阅读者的点击流另外一部分数据主要来自阅读者的点击流Click-streamClick-stream,此部分数据主要用于调查,此部分数据主要用于调查客户的行为表现。但有的时候,客户对本人的客户的行为表现。但有的时候,客户对本人的背景信息非常珍重,

31、不肯把这部分信息填写在背景信息非常珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和发掘带来不便。登记表上,这就会给数据分析和发掘带来不便。在这种情况之下,就不得不从阅读者的表现数在这种情况之下,就不得不从阅读者的表现数据中来推测客户的背景信息,进而再加以利用。据中来推测客户的背景信息,进而再加以利用。u 就分析和建立模型的技术和算法就分析和建立模型的技术和算法而言,网站的数据发掘和原来的数据发掘差别而言,网站的数据发掘和原来的数据发掘差别并不是特别大,很多方法和分析思想都可以运并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分用。所不同的是网站的数据格式有

32、很大一部分来自于点击流,和传统的数据库格式有区别。来自于点击流,和传统的数据库格式有区别。因此对电子商务网站进展数据发掘所做的主要因此对电子商务网站进展数据发掘所做的主要任务是数据预备。目前,有很多厂商正在努力任务是数据预备。目前,有很多厂商正在努力于开发专门用于网站发掘的软件。于开发专门用于网站发掘的软件。u生物信息或基因的数据发掘生物信息或基因的数据发掘u 生物信息或基因数据发掘那么完全属生物信息或基因数据发掘那么完全属于另外一个领域,在商业上很难讲有多大的价于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受害非浅。例如,基因的组值,但对于人类却受害非浅。例如,基因的组合千变万化,

33、得某种病的人的基因和正常人的合千变万化,得某种病的人的基因和正常人的基因究竟差别多大?能否找出其中不同的地方,基因究竟差别多大?能否找出其中不同的地方,进而对其不同之处加以改动,使之成为正常基进而对其不同之处加以改动,使之成为正常基因?这都需求数据发掘技术的支持。因?这都需求数据发掘技术的支持。u 对于生物信息或基因的数据发掘对于生物信息或基因的数据发掘和通常的数据发掘相比,无论在数据的复杂程和通常的数据发掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需求一些都要复杂得多。从分析算法上讲,更需求一些新的

34、和好的算法。如今很多厂商正在努力于这新的和好的算法。如今很多厂商正在努力于这方面的研讨。但就技术和软件而言,还远没有方面的研讨。但就技术和软件而言,还远没有到达成熟的地步。到达成熟的地步。u文本的数据发掘文本的数据发掘Textual miningTextual miningu 人们很关怀的另外一个话题是文本数据人们很关怀的另外一个话题是文本数据发掘。举个例子,在客户效力中心,把同客户发掘。举个例子,在客户效力中心,把同客户的说话转化为文本数据,再对这些数据进展发的说话转化为文本数据,再对这些数据进展发掘,进而了解客户对效力的称心程度和客户的掘,进而了解客户对效力的称心程度和客户的需求以及客户之

35、间的相互关系等信息。从这个需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据构造还是在分析例子可以看出,无论是在数据构造还是在分析处置方法方面,文本数据发掘和前面谈到的数处置方法方面,文本数据发掘和前面谈到的数据发掘相差很大。文本数据发掘并不是一件容据发掘相差很大。文本数据发掘并不是一件容易的事情,尤其是在分析方法方面,还有很多易的事情,尤其是在分析方法方面,还有很多需求研讨的专题。目前市场上有一些类似的软需求研讨的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真单地计算一下某

36、些词汇的出现频率,并没有真正的分析功能。正的分析功能。u 随着计算机计算才干的开展和业务复杂随着计算机计算才干的开展和业务复杂性的提高,数据的类型会越来越多、越来越复性的提高,数据的类型会越来越多、越来越复杂,数据发掘将发扬出越来越大的作用。杂,数据发掘将发扬出越来越大的作用。学完本讲后,他应该可以了解:数据发掘是一门交叉学科;数据发掘是从大量的、不完全的、有噪声的、模糊的、随机的实践运用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据发掘产生的内容(或知识)包括广义知识、关联知识、分类知识、预测型知识、偏向型知识等发掘的数据对象是多样的,可以是关系数据库、数据仓库、高级数据库、flat文件和WWW等数据发掘的常用技术包括人工神经网络、决策树、遗传算法、近邻算法、规那么推导等

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!