文本数据挖掘综述

上传人:suij****uang 文档编号:140778863 上传时间:2022-08-23 格式:DOCX 页数:8 大小:77.42KB
收藏 版权申诉 举报 下载
文本数据挖掘综述_第1页
第1页 / 共8页
文本数据挖掘综述_第2页
第2页 / 共8页
文本数据挖掘综述_第3页
第3页 / 共8页
资源描述:

《文本数据挖掘综述》由会员分享,可在线阅读,更多相关《文本数据挖掘综述(8页珍藏版)》请在装配图网上搜索。

1、文本数据挖掘综述也有陈光磊(专业:模式识别与智能系统)摘要: 作为从浩瀚的信息资源中发现潜在的、有价值知识的一种有效技术, 文本挖掘已悄然兴起,倍受关注。目前,文本挖掘的研究正处于发展阶段,尚无 统一的结论,需要国内外学者在理论上开展更多的讨论。本文首先引出文本挖掘 出现的缘由,再对文本挖掘的的概念、组成及其具体实现过程。着重分析了文本 挖掘的预处理、工作流程与关键技术。关键词: web 挖掘,文本挖掘1 引 言面对今天浩如烟海的文本信息,如何帮助人们有效地收集和选择所感兴趣的 信息,如何帮助用户在日益增多的信息中自动发现新的概念,并自动分析它们之 间的关系,使之能够真正做到信息处理的自动化,

2、这已经成为信息技术领域的热 点问题。有数据表明,一个组织80%的信息是以文本的形式存放的,包括WEB页面、 技术文档、电子邮件等。由于整个文本集合不能被方便地阅读和分析,而且由于 文本经常改变,要跟上变化的节奏,就要不停地回顾文本的内容,处理数量巨大 的文本变得越来越来困难。人们迫切需要能够从大量文本集合中快速、有效地发 现资源和知识的工具。在这样的需求驱动下,文本挖掘的概念产生了。2 文本挖掘的概述2.1 文本挖掘的定义文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值 知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发 展规划首批实施项目中明确指出,文

3、本挖掘是“图像、语言、自然语言理解与知 识挖掘”中的重要内容。文本挖掘是数据挖掘的一个研究分支,用于基于文本信息的知识发现。文本 挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字 处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问 题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档 进行分类,获取有用的知识和信息。文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、 信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、 线性几何、概率理论甚至还有图论。文本挖掘(Text Mining)是一个从非结构化

4、文本信息中获取用户感兴趣或者 有用的模式的过程,文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言 处理和数据挖掘技术。它的主要用途是从原本未经使用的文本中提取出未知的知 识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而 且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本 分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等 技术 。2.2 文本挖掘的组成文本挖掘可以通过下图有个大致理解。它由三部分组成:底层是文本挖掘的 基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本挖掘的 基本技术,有五大类,包括文本信息抽取

5、、文本分类、文本聚类、文本数据压缩、 文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现, 信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分 析、数据预测。如图 2.1。图 2.1 文本挖掘的组成2.3 文本挖掘技术的发展数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更 短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重 要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新 闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大

6、的具有异构性、 开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结 合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两 类新兴的数据挖掘研究领域:网络挖掘和文本挖掘。网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统 计(最终形成用户网络导航)。一个网页中包含了多种不同的数据类型,因此网 络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。文本挖掘作为一个新的数据挖掘领域,其目的在于把文本信息转化为人可利 用的知识。3 文本挖掘的实现与技术3.1 文本挖掘预处理文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用 到大量文

7、本的集合上就可以实现文本挖掘,还需要做很多准备工作。文本挖掘的 准备工作由文本收集、文本分析和特征修剪三个步骤组成,如图 3.1。(1) 文本收集需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和 检索那些所有被认为可能与当前工作相关的文本。一般地,系统用户都可以定义 文本集,但是仍需要一个用来过滤相关文本的系统。(2) 文本分析与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构; 此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本数据源 的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分 析,抽取代表其特征的元数据,这些特征可

8、以用结构化的形式保存,作为文档的 中间表示形式。其目的在于从文本中扫描并抽取所需要的事实(3) 特征修剪特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以 改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向 投影是指按照挖掘目标选取有用的特征,通过特征修剪,就可以得到代表文档集 合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。3.2 文本挖掘的关键技术经特征修剪之后,可以开展数据文本挖掘工作。文本挖掘工作流程见图3.2 所示。文本源分词处理图 3.2 文本挖掘工作流程图从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还 很

9、少,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要 抽取。(1) 文档聚类首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相 关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集 合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档 间的相似度;减轻浏览相关、相似信息的过程。聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻 参照聚类法、分级聚类法、基于概念的文本聚类等。(2) 文档分类分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分

10、类表,只是基于文档之间的相似度。由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以 在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自 己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其 中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引 擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类 的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与 自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户, 则显然会

11、减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。文档自动分类一般采用统计方法或机器学习来实现。常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。(3) 自动文摘互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度 增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与 其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要 求用户付出很多劳动,而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈 现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单

12、地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档 中心内容的简单连贯的短文。自动文摘具有以下特点:1) 自动文摘应能将原文的主题思想或中心内容自动提取出来。2) 文摘应具有概况性、客观性、可理解性和可读性。3) 可适用于任意领域。按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原 文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的 功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现 产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。4文本挖掘系统的评估办法评估文本挖掘系统是至关重要的,目前已有许多方法来衡量在

13、这一领域的进 展状况,几种比较公认的评估办法和标准如下:(1) 分类正确率:通过计算文本样本与待分类文本的概率来得出分类正确率;(2) 查准率:查准率是指正确分类的对象所占对象集的大小;(3) 查全率:查全率是指集合中所含指定类别的对象数占实际目标类中对象 数的比例;(4) 支持度:支持度表示规则的频度;(5) 置信度:置信度表示规则的强度。5文本挖掘的应用前景利用文本挖掘技术处理大量的文本数据,无疑将给企业带来巨大的商业价 值。文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都 有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历 评审,搜索引擎等等。因此,

14、目前对于文本挖掘的需求非常强烈,文本挖掘技术 应用前景广阔。参考文献:1 蒋良孝,蔡之华. 文本挖掘及其应用. 现代计算机 , 2003, (02)2 鹿小明. 文本挖掘及其在信息检索中的应用. 情报资料工作 , 2004, (06)3 梅馨,邢桂芬. 文本挖掘技术综述. 江苏大学学报(自然科学版) , 2003, (05)4 黄燚. 数据挖掘初探. 福建电脑 , 2005, (03)5 徐爱华. 面向文本分类的中文文本挖掘技术研究及实现. 武汉理工大学 , 20046 李健. 聚类分析及其在文本挖掘中的应用. 西安电子科技大学 , 20057 王晓华. 基于检索的中文文本挖掘技术研究与设计. 重庆大学 , 2004

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!