数据挖掘文本分类实验报告

上传人:shug****ng1 文档编号:225963022 上传时间:2023-08-04 格式:DOCX 页数:12 大小:43.82KB
收藏 版权申诉 举报 下载
数据挖掘文本分类实验报告_第1页
第1页 / 共12页
数据挖掘文本分类实验报告_第2页
第2页 / 共12页
数据挖掘文本分类实验报告_第3页
第3页 / 共12页
资源描述:

《数据挖掘文本分类实验报告》由会员分享,可在线阅读,更多相关《数据挖掘文本分类实验报告(12页珍藏版)》请在装配图网上搜索。

1、北京邮电大学*学年第1学期实验报告课程名称:数据仓库与数据挖掘实验名称:文本的分类实验完成人:姓名:* 学号: *&*姓名:日 期:实验一:文本的分类1. 实验目的掌握数据预处理的方法,对训练集数据进行预处理;掌握文本分类建模的方法,对语料库的文档进行建模; 掌握分类算法的原理,基于有监督的机器学习方法,训练文本分类器; 了解SVM机器学习方法,可以运用开源工具完成文本分类过程。2. 实验分工(1) 对经过分词的文本进行特征提取并用lisvm进行训练(2) 用训练的模型对测试数据进行预测(1) 数据采集和预处理(2) 分词3. 实验环境Ubuntu 13.04+jdk1.74. 主要设计思想4

2、.1实验工具介绍1NLPIR_ICTCLAS2013NLPIR (又名ICTCLAS2013),是由中科院张华平博士倾力打 造的汉语分词系统。其主要功能包括中文分词、词性标注、命名 实体识别、用户词典功能、支持GBK编码、UTF8编码、BIG5编 码等。从NLPIR官网可以下载其最新版的Java发布包,然后导入 Eclipse,配置运行环境,实现对于语料库的分词。最新的NLPIR可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能,极大地方便了使用。2. Eclipse for JavaEclipse是一个开放源代码的、基于Java的可扩展开发平台。就其 本身而言,它只是一个框架和一

3、组服务,用于通过插件组件构建开发 环境。幸运的是,Eclipse附带了一个标准的插件集,包括Java开 发工具(Java Development Kit,JDK)。3. LibSVM本次实验中我们采用的是台湾大学林智仁博士等开发设计的LIBSVM方法。这是一个操作简单、易于使用、快速有效的通 用SVM软件包,可以解决分类问题(包括C-SVC、v -SVC ),回 归问题(包括 - SVR、v- SVR )以及分布估计(one - class- SVM)等问题,提供了线性、多项式、径向基和S形函数四种 常用的核函数供选择,可以有效地解决多类问题、交叉验证选择 参数、对不平衡样本加权、多类问题的概

4、率估计等。4.2 特征提取与表达方法的设计特征提取是在初始特征集基础上提取出一个特征子集的过 程,能够起到降低向量空间维数、简化计算、防止过拟合作用。 首先根据特征提取算法对特征的重要性进行评估,然后进行重 要度排序,最后根据提取阈值或提取比率完成提取。提取后的 特征集将用于之后的训练和分类过程。常用特征提取算法有文 档频数(Document Frequency)、信息增益(information Gain)、 期望交叉熵(expec ted cross ent ropy)、互信 息(Mutual Informa tion)等。本次实验采用信息增益法进行特征词提取,它是一个基于 嫡的评价方法,

5、涉及嫡理论公式,定义为某特征在文档中出现 前后的信息嫡之差。根据训练数据,计算出各个单词的信息增 益,删除信息增益很小的词,其余的按照信息增益从大到小排 序。采用TF-IDF建立文本向量,TF-IDF是由两部分组成,一部 分是TF(Token Frequency),表示一个词在文档中出现的次数, 即词频。另一部分是 IDF(Inverse Document Frequency),表示 某个词出现在多少个文本中(或者解释为有多少个文本包含了这个词),即逆向文档频率。4.3 分类算法的选择我们选择 svm 的原因如下:非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高 维空间的非线性映

6、射;(2)对特征空间划分的最优超平面是 SVM 的目标,最大化分类边际的 思想是SVM方法的核心;支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支 持向量。(4) SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上 不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质 上看,它避开了从归纳到演绎的传统过程 ,实现了高效的从训练样本 到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。(5) SVM 的最终决策函数只由少数的支持向量所确定 ,计算的复杂性 取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避 免了“维数灾难”。(6) 少数支持向量决

7、定了最终结果 ,这不但可以帮助我们抓住关键样 本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具 有较好的“鲁棒”性。这种“鲁棒”性主要体现在: 增、删非支持向量样本对模型没有影响; 支持向量样本集具有一定的鲁棒性; 有些成功的应用中,SVM方法对核的选取不敏感4.4 性能评估方法 在性能评估中,我们采用的是计算分类器对于不同分类的准确率和召回率。4.4.1 准确率(Precision)准确率:指的是在所有被判断为正确的文档中,有多大比例是确实正确的。例如: 我们把文件分类这样四类:A:系统检测到的相关的文档B:系统检测到的不相关的文档C:系统没有检测到的相关的文档D:系统没有检测

8、到的不相关的文档那么我们的计算公式为:准确率P=A /(A + B )4.4.2 召回率(Recall) 召回率:指的是在所有确实正确的文档中,有多大比例被我们判断为正确。例如:我们继续参照上述的例子。那么我们的计算公式为:召回率R =A /(A + C )根据上述的两个公式,我们计算出每一类的准确率和召回率,进 行比较,今儿对分类器的分类效果进行评估。5实验过程5.1 文本分类语料库的采集我们直接使用搜狗语料库的新闻预料,共有十个类别,每个类别取2000 篇作为训练集,另取 2000 篇作为测试集。这样我们就获得了 20000 篇的训练集和20000 篇的测试集。5.2 数据预处理5.2.1

9、 文本格式预处理原始的新闻按文件夹划分类别,同一个类别在同一个文件夹下, 每篇新闻占一个文件。首先我们把所有文章整理到一个文件中,并标 上类型号,这样便于后期处理。5.2.2 分词和去停用词处理对语料库进行分词处理阶段,我们采用中科院研发的汉语分词软 件 NLPIR。我们为了对大量的文本进行分词,在NLPIR中又添加了一个批处 理函数,对 NLPIR 进行调用,对大量文本进行分词处理。通过更改 NLPIR 的参数,我们获取了带有词性标注的大量分词后的文本文件。 然后我们利用模式匹配的方法把所有分名词过滤掉,然后根据停用词 表除去停用词。5.3特征提取和表达5.3.1特征词提取本次实验我们采用信

10、息增益法进行特征词提取。提取特征词1000 个。将分词,取名词,去停用词后的每篇文章统一整理到一篇文本中。 每篇文章作为一行记录出现,这样便于采用信息增益法计算每个单词 的信息增益值。它是一个基于嫡的评价方法,涉及较多的数学理论和 复杂的嫡理论公式,定义为某特征在文档中出现前后的信息嫡之差。 根据训练数据,计算出各个单词的信息增益,删除信息增益很小的词, 其余的按照信息增益从大到小排序。信息增益评估函数被定义为IG(t)二 P(t)*P(Ci| t)*log(P( Ci | t)/P( Ci)+ P(tn)* (P(Ci|tn)*logP(Ci|t)/P(i),式中,P(Ci| t)表示文本中

11、出现特征t时,文本属于Ci类的概率; P(Ci| tn)表示文本中不出现单词t时,文本属于Ci类 的概率;P(Ci) 表示类别出现的概率;P(t)表示t在整个文本训练集中出现的概率。计算完每个单词的信息增益值后,采用堆排序方法选取前 5000个单词作为特征词,即词典。5.3.2建立文本向量根据提取的特征词采用TF-IDF法建立文本向量。TF-IDF是一种加权技术,它通过统计的方法来计算和表达某个关 键词在文本中的重要程度。 TF-IDF 是由两部分组成,一部分是 TF(Token Frequency),表示一个词在文档中出现的次数,即词频。 另一部分是IDF(Inverse Document

12、Frequency),表示某个词出现在 多少个文本中(或者解释为有多少个文本包含了这个词),即逆向文档 频率,通常由公式IDF t = log(l+|D|)/|D t|),其中|D|表示文档总 数,|dt|表示包含关键词t的文档数量。根据上述原理,我们把训练集转化为libsvm所支持的向量格式。LIBSVM的训练集格式如下:lable1index1:featureValue1index2:featureValue2index3:featureValue3 .lable2index1:featureValue1index2:featureValue2index3:featureValue3 .对

13、应到文本分类上就是:类别 ID 特征序号:特征值( TFIDF 值)5.4训练过程我们利用libsvm提供的grid.py工具对训练集进行参数寻优,并得 到参数:c=128.0 g=3.0517578125e-05,然后利用这组参数对训练集进行训练,得到模型文件。5.5测试过程我们对测试集进行同样的分词与去停用词等操作,然后根据训练 得到的模型文件,对其进行预测。然后,分析预测输出文件和初始的 测试文件,得到相关统计数据。5.6实验结果和性能评估训练集:20000篇测试集:20000篇特征提取后字典大小:1000词训练时间:92.7s测试时间:80s平均准确率:83%具体准确率与召回率如图5-

14、1所示:准确率召回率图 5-1 预测结果准确率与召回率预测结果混淆矩阵如图5-2 所示:军事文化教育经济女性体育汽车娱乐军事IT军事0352185000182411文化440192338365694518教育2333016253323836经济11160202433女性48564420033162818体育345517401970汽车28141571021017娱乐17701722927019军事26681915616225013IT1738701520123371206 实验总结通过这次实验,学习了文本分类的常规步骤,认识了一些分类方法的原理和使用方法。同时锻炼了编程编程能力。最关键的是获得了对数据挖掘领域的兴趣。欢迎您的下载,资料仅供参考!致力为企业和个人提供合同协议,策划案计划书,学习资料等等打造全网一站式需求

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!