语言信息处理文本分类报告

上传人:ren****ao 文档编号:157489455 上传时间:2022-09-29 格式:DOC 页数:10 大小:365.52KB
收藏 版权申诉 举报 下载
语言信息处理文本分类报告_第1页
第1页 / 共10页
语言信息处理文本分类报告_第2页
第2页 / 共10页
语言信息处理文本分类报告_第3页
第3页 / 共10页
资源描述:

《语言信息处理文本分类报告》由会员分享,可在线阅读,更多相关《语言信息处理文本分类报告(10页珍藏版)》请在装配图网上搜索。

1、语言信息处理项目作业名 称: 文本分类的研究与应用 学 院: 计算机 专 业: 计算机科学与技术 班 级: 2010级4班 小组成员: 谢宝娣 2120101205 王怡鸥 2120101202 万德鹏 2120101193指导教师: 鉴萍二 一 一 年 一 月摘 要本文简要分析并介绍了文本分类问题的相关知识。首先,介绍了文本分类的整体框架;然后,详细分析了两种常用的文本分析方法KNN方法和朴素Bayes方法的基本原理与适应场合;之后,通过实验结果验证了这两种分类方法在文本分类问题中的可行性;最后,对未来文本分类的发展方向提出有益的展望。关键词:文本分类;文本特征提取;kNN分类方法;朴素Ba

2、yes分类方法AbstractThe thesis analyzes and introduces the problem of text classification knowledge briefly. First, it describes the overall framework of text classification. Then, it analyzes the basic principles and the suitable situations of two common text analysis methods which are KNN method and Na

3、ive Bayes method. In addition, it proves the feasibility of the two classification methods in the research of text classification by the result of experiments. Finally, it makes a meaningful outlook on the future direction of text classification.Key words: Text Classification; Text Feature Extractio

4、n; kNN classification; Naive Bayes classification1 引言Internet技术的发展与成熟,使得人们可获得的信息越来越多。面对海量信息,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源。文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法,它作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息的杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义。现在,文本分类问题已成为数据挖掘领域中一个重要的研究方向。国外文本数据分类的研究始于20世纪50年代末,H.P.Luhn在

5、这一领域进行了开创性的研究,他首先将词频统计的思想用于文本数据分类中1。1960年Maron、Kuhn在Joumal of ACM上发表了有关文本数据分类的第一篇论文“On Relevance, Probabilistic Indexing and Information Retrieval”2。 1963年Borko等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究。目前,文本分类方面的文献也非常丰富,常见于信息检索、机器学习、知识挖掘与发现、模式识别、人工智能、计算机科学与应用等各种国际会议及相关的期刊或杂志。国内文本数据分类研究起步较晚,始于20世纪8

6、0年代初期。我国文本分类的研究大体上经历了可行性探讨、辅助分类、自动分类系统三个发展阶段。本次项目作业的任务目标就是按照文本分类的一般过程和整体框架实现对文本的自动分类, 本系统使用的语料库是搜狗语料库。2 文本分类的整体框架文本自动分类是分析待定文本的特征,并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。3 文本分类的一般包括了文本预处理、文本特征提取、分类算法的选择、分类结果的评价与反馈等过程,本节主要介绍文本分类的整体框架,如图2-1所示。图2-1 文本分类的整体框架2.1 文本预处理任何原始数据在计算机中都必须采用特定的数学模型来表示

7、,目前存在众多的文本表示模型,如:布尔模型,向量空间模型,聚类模型,基于知识的模型和概率模型等4。其中向量空间模型(VSM)具有较强的可计算性和可操作性,本节的文本预处理就是基于向量空间模型实现的。对于基于向量空间模型的文本预处理,主要由以下几个步骤来完成:1.中心分词;2.去除停用词;3.文本特征提取。下面主要针对这三个方面介绍如下。1.中文分词中文分词是对中文文本进行分析的第一个步骤,是文本分析的基础。自然语言处理技术在不断的发展中,现在的中文分词技术主要有以下几种:基于字符串匹配的分词技术、基于理解的分词技术和基于统计的分词技术。在本系统中,采用中国科学院计算机技术研究所研制出的基于多层

8、隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology , Chinese Lexical Analysis System)进行中文分词。2.去除停留词所谓停用词是指汉语中常用到的“的”、“了”、“我们”、“怎样”等,这些词在文本中分布较广,出现频率较高,且大部分为虚词、助词、连词等,这些词对分类的效果影响不大。文本经中文分词之后,得到大量词语,而其中包含了一些频度高但不含语义的词语,比如助词。这时可以利用停用词表将其过滤,以便于文本分类的后续操作。3.文本特征提取文本经过中文分词、去除停留词后得到的词语量特别大,由此构造的文本表示维数也非

9、常大。并且,不同的词语对文本分类的贡献也是不同的。因此,有必要进行特征项选择以及计算特征项的权重。(1)特征项的选择目前,存在多种筛选特征项的算法:文档频率(DF,Document Frequency)、信息获取(IG,Information Gain)、互信息(MI,Mutual Information)、开方拟合检验(CHI,x2-test)、术语强度(TS,Term Strength)。提取效率的高低为:CHI,MIDFTSIG5作为特征选择算法。CHI算法的主要思想是认为词汇与类别之间符合统计,统计量的值越高,词汇与类别之间的独立性就越小。统计量计算公式如下: 公式(2-1)其中,表示

10、训练集中的文档总数,表示属于主题且包含特征项的文档个数,表示属于主题但不包含特征项的文档个数,表示包含特征项但不属于主题的文档个数,表示不包含特征项且不属于主题的文档个数。特征项对主题的统计值越高,与该主题之间的相关性就越大。具体特征项的选择根据特征项的CHI值来判断。当CHI不低于某一阈值时,选择该特征项。(2)特征项权重的计算为了更好的反映词语对文本内容类别的贡献程度,而选择词语包含的信息来实现特征项加权。词包含的信息称为加权因子,一般常用的加权因子有:1)词频因子;2)词的位置因子;3)词性因子;4)词的长度因子;5)词的集合频率因子等6。本系统采用以下公式作为词语权重的计算方法。 公式

11、(2-2)其中表示词语在文本中的权重;表示词语在文本中的频率;表示文本中词频最大的词语的频率;为词语的词长;表示分析的文本集合包含的文本数;表示在分析的文本集中包含词语的文本数;表示文本中词长最大的词语的词长7。2.2 空间向量模型文本表示是指以一定的规则和描述来表示文本或者文本类,在过滤时,用这些规则和描述来评价未知文本与给定文本或文本类的相似度8。目前,存在多种文本表示模型,常用的有:布尔逻辑模型、概率模型和向量空间模型等。本系统中,文本采用向量空间模型表示。向量空间模型用向量的形式来表示文本,其中是文本中的特征项,是的权重。为了简化分析过程,暂时不考虑在文本中的顺序并且互异。此时,若把看

12、成一个维的坐标系,则为相应的坐标值,这样便可将文本向量表示简记为,进而把文本之间的表示与匹配问题转化为了空间向量之间的表示与匹配问题。向量空间模型的最大优点在于它在知识表示方法上的优势。在该模型中,文本的内容被形式化为多维空间中的一个点,并以向量的形式来描述。对于文本分类、聚类等处理来说,可以方便地转化为对向量的处理、计算。也正是因为把文本以向量的形式定义到实数域中,才使得模式识别和数据挖掘等领域中的各种成熟的计算方法得以采用,大大提高了自然语言文本的可计算性和可操作性。因此,近年来,向量空间模型被广泛应用在文本挖掘的各个领域,本文也将对该模型进行详细介绍,并介绍基于该模型的文本预处理方法、技

13、术及改进。2.3 文本分类基于统计方法和机器学习的文本分类方法比较成熟,在很多系统中得到应用,常见的有KNN分类方法、朴素Bayes分类方法、支持向量机分类方法和神经网络分类方法等。鉴于,时间有限是实现的难易程度,本文选择了采用KNN方法和朴素Bayes方法,这两种常用并且比较容易实现的分类方法进行文本分类。这两种方法的基本原理将在下一节中进行介绍。经过文本分类预处理后,训练文本合理向量化,奠定了分类模型的根基。向量化的训练文本与文本分类算法共同制造出了分类模型。在实际的文本分类过程中,本系统主要依靠分类模型完成文本分类。3 常用文本分类方法本节介绍了当前国内外比较流行的KNN分类方法和朴素B

14、ayes分类方法的基本原理,以及各自分类方法的优缺点与适用范围。3.1 KNN分类方法KNN是英文K Nearest Neighbor的缩写,也就是我们常说的近邻法。KNN分类方法是最近邻法的一个推广,当取l时就是NN(最近邻)分类方法。NN分类方法强调最近点的重要性,而KNN分类方法则从整体考虑,是一种更为普遍的方法,理论认为它的错误率比NN分类方法低9。采用KNN分类方法进行文本分类的过程如下:在对待测文本分类时,选择训练集合中的已知文本与待测文本之间距离(相似度)最近的个文本,即个“最近邻”,然后将待测文本指派到它的个“最近邻”中的多数类。这里常用的相似度测度函数可以选择夹角余弦距离,该

15、距离函数的计算公式如下: 公式(3-1)其中,代表文档向量,代表了用户查询向量(也即用户兴趣向量)。文档与用户兴趣向量相似度越高,说明文档越符合用户兴趣趋向。由于KNN分类方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN分类方法较其他方法更为适合。3.2 朴素bayes分类方法朴素Bayes分类器是基于特征独立性假设建立起来的,它假设给定特征对于给定类的影响独立于其它特征,即任意两个特征之间是相互独立的。对文本分类来说,这个独立性假设就体现在,假设文档的词的产生独立于它的内容,即词在文档中出现的位置无先后关系。假设训练

16、样本集分为类,为任意文本属于=, ,则每个类的先验概率为,是样本属于类的条件概率。的计算公式如公式(3-2)所示。 公式(3-2)由于,对于所有类均为常数,所以上式可简化为公式(3-3)。 公式(3-3)每个类的先验概率的计算公式如公式(3-4)所示。 公式(3-4)其中,为类中的文本数,为训练集合的总的文本数。由于训练集合中各类训练集合的总的文本数相同,所以相同。因此公式(3-3)可变形为公式(3-5)。 公式(3-5)朴素Bayes分类方法将未知样本归于类的法则如公式(3-6)。 公式(3-6)其中,。由于文档由其包含的特征词表示,即,是第个特征词,是的特征词个数,因为各个特征相互独立,所

17、以有公式(3-7)成立。 公式(3-7)设为在文本中的词频,为特征词总数,为类的训练文本数,则可以表示成公式(3-8)。 公式(3-8)为避免,可采用拉普拉斯概率估计10,于是得公式(3-9)。 公式(3-9)朴素Bayes方法的优点是在理论上讲,与其他所有的分类算法相比,Bayes分类具有最小的出错率,在其类条件独立的假定成立的前提下,它是最佳的分类算法。它思想简单,便于实现;算法时间复杂度小;算法性能稳定,对于不同特点的数据其分类性能差别不大,即模型的健壮性比较好。缺点是朴素Bayes分类模型中的类条件独立性假设有特定的要求,独立性假设在许多实际问题中并不成立。但即便如此,它在很多领域中仍

18、然能够获得较好的分类结果。4 实验结果与分析本实验分别采用了KNN分类方法和朴素Bayes分类方法作为文本分类算法进行文本分类,训练和测试使用的语料库是搜狗语料库,其中分财经、IT、健康、体育、旅游五类,每类训练样本100篇,测试样本10篇。以财经类为例,该类的实验结果如表4-1所示。表4-1 文本分类的实验结果(财经类)查全率准确率FI测试值KNN方法70%64%67%朴素Bayes方法90%90%90%其中,查全率是指的是分类器分类正确文本数与属于该类的样本总数之比;而准确率是指在分类器判为该类的样本中,真正属于该类的样本所占的比例。本实验在一定程度上实现了文本的正确自动分类。实验结果表明

19、,KNN方法和朴素Bayes方法作为文本分类方法具有一定的可行性。但是本文中系统的实现是建立在“词与词之间都相互独立”这个假设成立的基础上的,而实际上一个文档内词与词、段与段之间有着很强的关联性。因此,如果考虑了词与词之间的相互作用,应该可以得到更高的识别率。5 发展趋势随着 Internet的飞速发展,网上电子文档和电子邮件的信息量成爆炸趋势,大规模的文本处理已经成为一个挑战。目前的文本分类系统中多采用统计和机器学习的方法,这类方法在词典语义的水平上来分析文本内容,判断其相似度,从而得到类别划分,因此其分类的准确率存在瓶颈。由于自然语言处理领域的进展缓慢,基于语义的文本分类方法也没有得到太大

20、的发展,目前人们更多地是从概念级来考察文本的语义,并把这种概念的方法与统计和机器学习方法相结合,从而提高文本分类的有效性。 此外,文本分类问题通常要处理大规模的高维文本数据,而且有些数据噪声很大,因此如何构造快速的、能适应数据规模的变化、能较好地解决噪声问题的分类算法一直是研究的热点。Web上的文档信息越来越多,这使得 Web文档的挖掘和分类成为一个急需解决的问题。Web文档具有和一般文本不同的特点,Web文档中包含了更多的信息,如链接、文档结构等,因此如何利用这些信息实现Web文档的分类也是研究的热点。6 总结本次项目作业的如期完成,使我们对文本分类的基本流程有了整体的认识,同时对KNN分类

21、方法和朴素Bayes分类方法的基本原理有了较深刻的理解与掌握,为今后进一步学习和研究语言信息处理的相关方向打下了良好的基础。参考文献1 H.P.Luhn. An Experiment in Auto-abstracting. International Conference on Scientific Information. Washington D.C., 19582 尚文倩.文本分类及其相关技术研究.博士论文.北京交通大学.20073 唐春生,张磊,潘东,王珊.文本分类研究进展. 计算机工程与应用. 2005,32(2):123-1274 王银利.基于启发式规则和文本分类的信息过滤技术.

22、硕士论文.北京交通大学. 20075 张玉叶,李连等.文本过滤中的特征抽取应用研究.海军航空工程学院学报.2005,1(32):23-246 韩客松,王永成.中文全文标引的主题词标引和主题概念标引方法.情报学报.2001,20(2):7-97 薛翠芳,郭炳炎.汉语文本特征词的抽取方法.情报学报.2000,19(3):25-278 杨晓懿.基于内容分析的信息安全过滤技术研究.硕士论文.四川大学.20059 BV. Dasarhaty.Nearest Neighbor(NN)Nomrs:NN Pattren Classifieatiion Techniques Los Almaiots.IEEE Computer Society Perss.199110 陈剑敏.基于Bayes方法的文本分类器的研究与实现.硕士论文.重庆大学.2007

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!