从评论语料库中挖掘产品特征词论文

上传人:ca****in 文档编号:88753395 上传时间:2022-05-11 格式:DOCX 页数:36 大小:927.09KB
收藏 版权申诉 举报 下载
从评论语料库中挖掘产品特征词论文_第1页
第1页 / 共36页
从评论语料库中挖掘产品特征词论文_第2页
第2页 / 共36页
从评论语料库中挖掘产品特征词论文_第3页
第3页 / 共36页
资源描述:

《从评论语料库中挖掘产品特征词论文》由会员分享,可在线阅读,更多相关《从评论语料库中挖掘产品特征词论文(36页珍藏版)》请在装配图网上搜索。

1、重庆科技学院毕业设计(论文)题 目 从评论语料库中挖掘产品特征词 院 (系) 电子信息工程学院 专业班级 计科应2006-01 学生姓名 程学伟 学号 2006540220 指导教师 黄永文 职称 讲师 评阅教师_ _ 职称_ 2010年 6 月 10 日注 意 事 项1. 设计(论文)的内容包括:1) 封面(按教务处制定的标准封面格式制作)2) 题名页3) 中文摘要(300字左右)、关键词4) 外文摘要、关键词 5) 目次页(附件不统一编入)6) 论文主体部分:引言(或绪论)、正文、结论、参考文献7) 附录(对论文支持必要时)2. 论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括

2、图纸、程序清单等),文科类论文正文字数不少于1.2万字。3. 附件包括:任务书、文献综述、开题报告、外文译文、译文原文(复印件)。4. 文字、图表要求:1) 文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2) 工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画3) 毕业论文须用A4单面打印,论文50页以上的双面打印4) 图表应绘制于无格子的页面上5) 软件工程类课题应有程序清单,并提供电子文档5. 装订顺序1) 设计(论文)2) 附件:按照任务书、文献综述、

3、开题报告、外文译文、译文原文(复印件)次序装订3) 其它重庆科技学院本科生毕业设计(论文)从评论语料库中挖掘产品特征词 院(系) 电子信息工程学院 专业班级 计科应2006-01 学生姓名 程学伟 指导教师 黄永文 讲师 2010年 6月 10日学生毕业设计(论文)原创性声明本人以信誉声明:所呈交的毕业设计(论文)是在导师的指导下进行的设计(研究)工作及取得的成果,设计(论文)中引用他(她)人的文献、数据、图件、资料均已明确标注出,论文中的结论和结果为本人独立完成,不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。与我一同工作的同志对本设计(研究)所做的任何贡献均已在论

4、文中作了明确的说明并表示了谢意。毕业设计(论文)作者(签字): 年 月 日重庆科技学院本科毕业生论文 中文摘要摘要 随着web的广泛应用,用户购买和实用产品之后会在web上发表对产品的评论,这些评论中包含用户对产品性能或者功能等方面持有肯定还是否定的态度,生产厂商和用户对产品的评论的分析可以获得大量有用信息:生产厂商不仅可以了解用户对产品目前已经提供的性能的评价和产品的不足,还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能,从而改进产品。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。

5、 产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征(比如:相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。 产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量.采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现

6、的语句中抽取文本 模式,利用文本模式来发现新的产品特征.实验结果表明,从英文文本中自动抽取产品特征的实验系统,取得了较好的效果。关键字:文本模式抽取 产品评论 特征提取I重庆科技学院本科毕业生论文 英文摘要ABSTRACTWith the extensive use of web users, after purchasing and useful products will be published in the web comments on the product, which contains the user comments on the product performance o

7、r functionality such as hold positive or negative attitude, manufacturers and users of the product Analysis of the comments get a lot of useful information: manufacturers can not only understand the users of products now provides the evaluation of performance and product deficiencies, but also to un

8、derstand the needs of users, to identify the most interesting and most users want to provide the function to improve the product. Before the user can purchase products already purchased the product to understand the user experience on the use of the product, understand all aspects of product perform

9、ance, but also the same type of product in accordance with the performance comparison to be reasonable to purchase products. Feature extraction aims to comments from many users are concerned about the excavation to the users product characteristics (such as: camera product features include weight, s

10、ize, picture quality, battery life, storage capacity, etc.; phone product features include the standard , weight, volume, screen size, camera pixel, etc.). Because users typically use different perspectives and a number of common-sense description of the products used by manufacturers of functions a

11、nd features not seen expressed in the name of the user out of many is not the same, the main features of the manufacturers and users of the product specifications described in feature extraction and relations were studied. Product review mining is a natural language description from the user comment

12、s in the process of obtaining the information, products feature extraction is a product review mining stage 1, the product characteristics of the decision good or bad the product review mining in the quality of follow-up phase. With weak supervision learning methods, only a small amount of product f

13、eatures to provide a seed, the statement appears from these seeds to extract the text mode, using the text mode to the discovery of new product features. The experimental results show that the English text automatically extracted from the product characteristics of the experimental system achieved g

14、ood results.features. The experimental results show that the English text automatically extracted from the product characteristics of the experimental systems, achieved good results.Keywords: Text pattern extraction;Product reviews;The feature extraction28重庆科技学院本科毕业生论文 目录目录中文重庆科技学院本科毕业生论文 1绪论1 绪论随着I

15、nternet的广泛应用,用户使用产品会通过Web 对产品进行评论,这些评论中包含用户对产品的各个方面的性能持有肯定还是否定的意见。产品评论中蕴涵了丰富的信息,生产厂商分析产品评论可以了解产品的不足和用户实际需求以改进产品,用户浏览产品评论可以在购买产品之前更多地了解产品,从而更加合理地购买产品。要从大量使用自然语言进行描述用户评论获取信息,只有通过人工逐一阅读,这是一个需要大量时间和精力的过程,因此,需要自动化的产品评论挖掘来更快地从大量的用户评论中获取信息。产品评论大多用自然语言进行描述,生产厂商和用户只有采用人工阅读的方式才能从中提取信息,而这是一个费时、费力且容易产生错误的过程,因此,

16、产生了自动产品评论挖掘的需求。产品评论挖掘一般分为产品特征提取、主观句定位和用户词性判断和挖掘结果显示等4个阶段。产品特征提取作为产品评论挖掘的第1个阶段,目的是从众多的用户评论中挖掘出用户所关心的产品特征,从而对实际产品销售和售后服务做出正确的评价,帮助决策者和购买者能够最大限度的了解现有产品的特点和特征。找出用户最感兴趣和最希望提供的功能,从而改进产品。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征(比如:相机的产品特征包括重

17、量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。抽取出产品特征之后就着重于研究用户对某个产品特征的看法,即在一个表达了用户看法的主管句中提取出产品特征、极性词汇及程度,在现有研究的处理过程中,对产品特征并未进行归类处理,所有的特征地位都是等同的,故本来处于上下位的特征可能放在不同的表示中,这样就造成用户看到的是没有主次之分的特征,同时有些本是同一特征的不同

18、表示方法,却归纳到不同的特征中去,这种情况下虽然对某些特征进行了评价,但由于使用哪个不同的词语作为产品特征,结果对同一部件的评价放在了不同的展示中,这样展现给用户的是很多没有主次之分特征堆积。摩托罗拉A1890(MOTO A1890)天翼3G双网双待手机的评论如图1.1所示:图 1.1摩托罗拉A1890(MOTO A1890)天翼3G双网双待手机评论在这种情况下,对产品特征之间的层次关系合理且准确处理的要求,就显得非常急迫,本课题应运时势,对产品特征进行分层次的特征抽取。1.3 从评论语料库中挖掘产品特征词的研究现状产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价,因此需要从产品评论语

19、句中提取表达了用户评价的对象产品特征。产品特征提取的目的是发现用户在产品评论中对哪些产品特征表达了自己的看法。用户在产品评论中对特征的描述是一个开放性的问题,可能在产品评论中发表厂家根本没有考虑到的一些性能,因此挖掘出产品评论中所提及的特征,了解用户对这类产品最关心的功能及性能是很重要的。由于同类产品的特征基本一致,故可以利用产品特征对同类产品所获得的评价进行对比。产品特征的提取分为人工定义和自动提取两类。在人工定义方面,Kobayashi、Inui 和 Matsumoto 以人工定义方式提出了针对汽车的产品特征,建立了 287 个产品特征,每一个特征使用一个三元组进行表示(),其中subje

20、ct 表示产品,attribute 表示产品的特征,value 表示对这个特征的观点;姚天昉利用本体建立了汽车的产品特征,该系统可在电子公告板、门户网站的各大论坛上挖掘并且概括意见持有者对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度;Li Zhuang 针对电影人工定义电影的产品特征,将电影的产品特征分为两类:电影的元素(screenplay, vision effect)和与和电影相关的人员(director, screenwriter, actor)。人工定义产品特征的方法需要每一个领域的产品都有该领域的专家参与,因此不具有移植性。同时人工定义的产品特征是静态的

21、,当产品的功能发生改变后(比如手机加入了新的功能),只有重新召集领域专家才能将新特征加入该类产品的产品特征集合中。而且人工定义的方法需要有人工标注的语料作为训练集,不同种类的产品就必须要标注不同的语料,这就相当耗费时间,也无法适用所有种类的产品。产品评论挖掘在国内外属于新的研究方向,但是这方面研究的意义非常重大,它作为自然语言处理领域的一个重要应用,涉及到了大量理论和应用技术,它对电子商务的发展有着直接的促进作用。本文主要研究了产品评论挖掘中的产品特征词的抽取以。产品评论挖掘是一个充满机遇和挑战的研究领域,尽管取得了一些研究成果,但是许多问题还有待进一步的探索和研究。1.5 汉语分词介绍目前,

22、 汉语自动分词的研究重心主要集中在对传统文本的有效切分上。在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。汉语词的规范研究。由于汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义,汉有规范的汉语分词词表,汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。信息处理用现代汉语分词词表的制定及不断完善, 说明了我国在汉语自动分词词表方面取得了重大研究成果, 这为汉语自动分词的研究铺平了道路。汉语词自动切分算法。分词算法研究是汉

23、语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计, 目前,在汉语自动分词方法和算法研究中,已经出现了数十种分词方法和算法。仅80 年代以来见诸报端的自动分词方法和算法归纳起来就有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM 算法、演化算法、

24、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM 分词算法、改进的MM 分词算法、RMM 算法和DMM 算法等上百种。传统汉语分词要获得新的突破,只能在分词算法上做文章,必须在现有的分词算法和方法的基础找到一种新的分词算法,这是今后汉语自动分词努力的重要方向之一。汉语词自动切分歧义处理。汉语自动分词的主要困难是歧义切分,而歧义在自动分词普遍存在。随着分词研究的突破,分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类:规则方法与统计方法。由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。因此,应针对不同的歧义类型采取不同的解决方法:对于第一类歧

25、义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难。若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。统计表明,第一类歧义字段只占整个歧义字段总数的1/30 以下,因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典;二是增加临时词典。此外,还可以人工干预分词

26、,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。汉语词自动切分应用研究。目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。随着汉语自动分词技术的进展,这一研究成果将会被应用到广泛的研究领域,如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面。汉语自动分词是中文信息处理的“瓶颈”问题, 它的最终解决依赖于

27、汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术的研究进展。计算机技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。因为自然语言理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要内容。因此,汉语自动分词研究的发展同时也寄希望于人工智能技术的突破。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:一种是基于心理学的符号处理方法,模拟人脑的功能,像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性

28、处理。另一种是基于生理学的模拟方法,神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上, 于是产生了专家系统分词法和神经网络分词法。目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。从人工智能的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。因而,已经推出的汉语分词与标引系统只能采用以机械分词为主, 辅之以能部分反映词法、句法和语义规则的改进算法。但仍难以解决复杂的汉语组词关系。因此,今后应注重汉语句法和语义

29、的自动分析研究,并将其应用到汉语自动分词领域。应引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。从目前已经公开的各种分词方法看,性能比较优异且具发展前景的当属基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新的词汇不能给予正确切分;专家系统具有显式的知识表达形式, 知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段;缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字

30、段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。因而,把神经网络技术与专家系统结合起来用于汉语自动分词与标引系统将是该领域的发展趋向。1.5 特征词挖掘的相关算法 Hu 和 Liu 利用关联规则挖掘的方法来抽取产品的特征,对于高频特征词首先使用关联规则寻找频繁项,裁剪低于支持度的频繁项,然后利用与形容词相邻近的特性寻找低频特征词。基于“支持度”算法对产品特征词进行抽取时,分为三个步骤:对评论文本进行词性标注;寻找频繁特征词;对抽取出来的频繁特征词进行修剪。所谓“支持度”即关联性规则的一个关键指标,它对频繁项的形成有很大的影响,它是用于描述频繁项出现频度的指标,最低支持度

31、(Minimum_Support)意为只对达到指定频度的项集感兴趣,如果指定最低支持度为小于1的值则关联规则认为研究者们只对频度达到指定百分比的项集感兴趣。最大支持度(Maximum_Support)则指定了项集出现频度的上限,超过上限的项集也不是研究者们感兴趣的。Hu 和 Liu 的用户评论抽取算法最后利用极性词与特征词的共现抽取低频特征词。使用极性词识别低频特征词语带来这样一个问题:它也能将与给定产品不相关的名词或名词短语找到。这是因为人们可以使用形容词描述很多主体,既有我们感兴趣的,也有不相关的。在M.Gamon等人的基于自由文本用户观点可视化原型系统中,介绍了使用tf/idf的方法来识

32、别分词或者分词组合是否是真正的特征词,如果分词或者分词的组合不是真正的词语那么将在语料中很少或者几乎不出现。E.Riloff等人通过已知的语法模型去抽取特殊的表达模式,主要考虑的模式有:+、+、+,再通过这些模式去发现对应的主语、宾语、名词或名词短语作为特征词。开发环境介绍 本系统是用C#编写,C#是微软公司发布的一种面向对象的、运行于.NET Framework之上的高级程序设计语言。并定于在微软职业开发者论坛(PDC)上登台亮相。C#是微软公司研究员Anders Hejlsberg的最新成果。C#看起来与Java有着惊人的相似;它包括了诸如单一继承、接口、与Java几乎同样的语法和编译成中

33、间代码再运行的过程。但是C#与Java有着明显的不同,它借鉴了Delphi的一个特点,与COM(组件对象模型)是直接集成的,而且它是微软公司.NET windows网络框架的主角。C#(读做 C sharp,中文译音暂时没有.专业人士一般读C sharp,现在很多非专业一般读C井。C#是一种安全的、稳定的、简单的、优雅的,由C和C+衍生出来的面向对象的编程语言。它在继承C和C+强大功能的同时去掉了一些它们的复杂特性(例如没有宏和模版,不允许多重继承)。C#综合了VB简单的可视化操作和C+的高运行效率,以其强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程的支持成为.NET开发的

34、首选语言。并且C#成为ECMA与ISO标准规范。C#看似基于C+写成,但又融入其它语言如Delphi、Java、VB等。微软C#语言定义主要是从C和C+继承而来的,而且语言中的许多元素也反映了这一点。C#在设计者从C+继承的可选选项方面比Java要广泛一些(比如说struts),它还增加了自己新的特点(比方说源代码版本定义),但它还太不成熟,不可能挤垮Java.C#还需要进化成一种开发者能够接受和采用的语言。而微软当前为它的这种新语言大造声势也是值得注意的,目前大家的反应是:这是对Java的反击。C#更像Java一些,虽然微软在这个问题上保持沉默,这也是意料中的事情,我觉得,因为Java近来很

35、成功而使用Java的公司都报告说它们在生产效率上比C+获得了提高。Java所带来的巨大影响和大家对它的广泛接受已经由工作于这种语言和平台之上的程序员数量明显的说明了(估计世界范围内共有两百五十万程序员使用Java)。由这种语言写成的应用程序的数量是令人惊讶的并已经渗透了每一个级别的计算,包括无线计算和移动电话(比如日本发明的Java电话)。C#能够在用户领域获得这样的礼遇吗?我们必须等待并观望,就像已经由SSI公司的CEO和主席Kalpathi S.Suresh指出来的那样,“我发现所有这些都是渐进的。如果C#不存在,我们总能回到Java或C和C+这些都不完全是新技术,它们在更大的意义上来说只

36、是大公司制造的市场噱头,我们必须给他们时间安顿下来看看这些是不是真的对IT工业有什么影响”重庆科技学院本科毕业生论文 2产品特征词的挖掘2 产品特征词的挖掘自动识别产品评论中的产品特征对产品评论的挖掘是一个难点,因为相对普通的文本而言,产品评论是用户随意的表述,很少有完整的主谓宾结构,却有不计其数的同音错别字、简略语、拼音、英语和中文混杂。目前对产品评论进行挖掘的研究很多都是基于英文的,基于中文的产品评论挖掘仅仅是刚起步,还有很多关键性的问题需要研究。 在产品评论中,用户为了能具体表达意见,可能会将产品的部件、功能、性能及服务分成多个考虑的对象来发表相应的观点,这些被评价的对象就是产品特征,因

37、此产品特征与观点在产品评论中是具有对应关系的,特征观点对(f,o)就是产品评论中产品特征(feature)与对应的观点(opinion)所组成的单位。近年来,产品特征和观点的挖掘已经有了一些研究,这些研究中对产品特征和观点词的提取分为人工定义和自动提取两类。在人工定义方面,Kobayashi、Inui和 Matsumoto 等人工定义产品特征(cost, price, service, performance, function,support, design)和观点(good, beautiful, bright, like/favorite, high),获取同时出现特征和观点的模式。姚天

38、昉利用本体建立了汽车的产品特征,该系统可在电子公告板、门户网站的各大论坛上挖掘并概括意见持有者对各种汽车品牌的不同性能指标的评论和意见,同时判断这些意见的褒贬性以及强度。Li Zhuang 人工定义电影的产品特征,将电影的产品特征分为两类:电影的元素(screenplay, vision effect)和与电影相关的人员(director, screenwriter, actor),在得到评论中的产品特征词和观点词后,通过依存句法图来连接特征和观点生成特征观点对。人工定义产品特征和观点需要每一个领域的产品都有该领域的专家参与,因此不具有移植性,不能应对产品发生变化的情况。 从产品评论中自动抽取

39、产品特征和观点主要使用词性标注、句法分析、文本模式等自然语言技术对产品评论中的语句进行分析,从中自动发现产品特征和观点词。Kim and Hovy 首先寻找句子中表达主观性的词汇,然后定义一个以主观性词汇为中心,大小固定的窗口,将窗口中的名词或名词短语作为特征。Lun-WeiKu 使用 GI(General Inquirer)、CNSD(Chinese Network Sentiment Dictionary)和NTUSD(National Taiwan University Sentiment Dictionary)词典,并使用同义词词林及 WordNet 进行扩充,以此抽取句子中的观点词。

40、Soo Min Kim 则基于人工标注的褒贬词典找出评价词,然后借助于 FrameNet 分析句子的语义结构来找出评价对象。Hu and Liu 首先对评论中的主观性语句进行句法分析,找到句子中的名词或名词短语,然后使用关联规则挖掘出频繁项,将得到的频繁项作为产品的特征,然后将离产品特征最近的形容词作为评价词。Ana-Maria Popescu 采用人工定义的通用文本模板,根据在具体应用领域实例化通用文本模板以形成抽取规则,再利用抽取规则进行产品特征和观点的抽取。以上研究大多把特征和观点分开来识别,而实际上在多数评论中,产品特征都是被上下文中的观点词所修饰,特征和观点之间具有高度相关性,因此可

41、以把特征识别和观点识别结合在一起进行。另现有的研究没有处理多特征单观点的问题,即在产品评论中,经常会出现多个特征后面只接一个观点词的情况,如“打电话、播放 mp3、看图片很方便”、“无论是从音场、低音效果,都非常令人咋舌”、“信号强度、按键、待机时间方面我都很满意”,本文则通过自动获得的产品特征词和观点词对多特征单观点的评价进行处理。现有的机器学习方法很多是利用标注的训练样本,这些大规模标注过的训练数据可以提高学习算法结果的准确率,但是标注好的训练数据不容易获得,并且网上信息的增长和变化都很快,因此只使用人工标注训练数据的机器学习方法已经不能满足对网上信息进行挖掘的需求,获得的学习系统的泛化能

42、力也不强。同时,网上存在大量容易获得的未标注的数据,采用能结合标注好的样本和未标注数据的半监督学习方法既能获得专家的标注知识,又可以利用大量未标注数据来改善学习性能。本文就是利用 Bootstrapping 半监督学习算法,结合少量的标注数据和大量的未标注数据来对产品评论进行挖掘。 现有的评论挖掘对产品评论的选取没有作深入的研究。David Bounie直接使用调查表方式获得用户对视频游戏的评价;Lun-Wei Ku使用 NTCIR和TREC的网络新闻语料,通过词级、句子级和文档级获得对相关事件表达的情感极性和程度,提取用户对事件的观点;Minqing Hu抓取了和c|网站上的评论,但没有对提

43、取到的评论内容进行优劣评判;Eugene Agichtein使用了LDC的North American News Text Corpus,通过滚雪球的迭代方式从种子元素到模式生成,再根据模式中从语料库提取新的元素加入种子集合获取事件对应的关系列表。这些研究所使用的评论内容大多是由专家在网络上收集挑选出来的,由于产品不断更新,产品评论不断增加,如果只能对专家挑选出的评论库进行挖掘,就会大大削弱研究的实用性。2.3 弱监督机器学习方法介绍 采用基于弱监督机器学习方法,只需提供少量的产品特征作为种子集合,自动进行文本模式的抽取,再用抽取得到的模式抽取新的产品特征。系统以人工提供的少量产品特征作为种子

44、集合,发现产品评论语料库中的产品特征出现语句,将这些语句按照给定的文本模式结构进行模式化表示,从中生成新的文本模式,再用这些自动获取的文本模式来抽取新的产品特征,并将新的产品特征加入产品特征种子集合。对该过程不断地迭代,直到系统不能产生新种子或新的文本模式和达到人工指定迭代次数停止迭代,将产品特征种子集合中的种子输出作为结果,整个系统流程分为4个阶段如图2.1所示: 图2.1 文本模式抽取系统流程(1)发现产品特征种子出现语句 将语料库中的产品评论分解为语句,并对每一个句子进行词性标注,提取句子中的名词和名词短语,如果它是产品特征种子集合的一个元素,那么将出现该名词或名词短语的语句加入产品特征

45、出现语句集合|SO|。 (2)生成文本模式 从|SO|中自动发现可用于抽取新的产品特征的文本模式,该过程分解为三个子过程:1)模式化表示语句 通过对产品特征语料库的观察发现,一个名词所在的依存关系对该名词是否是产品特征有极大的指示作用,因此,选用基于依存关系的文本模式的表示方法。 定义1 弱监督产品特征抽取的文本模式: (1)其中,Rel是依存关系的类型;MPos是依存关系中修饰中心词的修饰词词性;D 是中心词和修饰词之间所在语句中的位置距离的差值,中心词在修饰词之前该值为正,反之为负;L是依存关系中的中心词在所在语句的句法树结构中层次数。 2)生成侯选文本模式 对|SO|中的语句进行句法分析

46、,并生成依存关系,将每个出现名词或名词短语作为中心词的依存关系按照定义 1 中的文本模式结构进行模式化表示,每一个模式化表示的依存关系记为 Ti,将所有模式化表示的依存关系加入集合|T|。选用文本模式的4个元组中包含有非数值型的值(Rel, MPos)和数值型的值(D,L),因此,侯选文本模式的产生分成2步: 第 1步:将文本模式的(Rel, MPos)看作一个整体对模式化表示的语句进行分类,统计每一类中包含Ti的个数,如果该类中包含的文本模式数目大于设定的阈值,那么该类作为一个可以产生文本候选模式的类。 第 2 步:根据模式的(D,L)的值,计算同类中的 Ti之间的近似度,并根据近似度选择中

47、心值的Ti作为该类的代表模式,并将该代表模式作为一个候选文本模式(Ci)加入候选文本模式集合|C|。定义 2 用于计算 Ti和 Tj之间的相似度,Ti和Tj均来自于同一类。定义2 文本模式相似度:simT,T=Di+Dj+Li+Lj0 Reli=Relj并且MPoSi=MPoSj (2)3)评估侯选文本模式 评估侯选文本模式的目的是对候选模式集合|C|中的候选文本模式进行评估以得到优秀的文本模式,并将该优秀模式加入文本模式集合以寻找新的产品特征。目前采用弱监督进行自动学习的方法中均需要对生成的候选文本模式的可靠性进行度量。 文本模式用于抽取实体和实体之间的关系,种子集合中的种子是一个二元组,因

48、此,可以直接使用文本模式发现的实例是否和种子集合中已有的种子之间存在矛盾来判断抽取得到实例的正确性,从而可以对文本模式的可靠性进行度量。由于本文的种子是一元组,因此不能直接度量候选文本模式。 采用BootStrapping方法来自动建立电子词典,该方法给定的种子集合中的种子直接就是人工定义的文本模式,使用这些文本模式发现新的词条。为了对新发现的词条进行度量:如果产生该名词短语的文本模式越多,则该名词短语越可靠。因此,本文使用种子集合中产品特征来评估候选模式。 本文假设:使用候选模式抽取产品特征,能够得到越多种子集合中的特征的模式越可靠。所有的候选模式采用定义3中的公式进行置信度评价,将置信度最

49、高的文本模式作为优秀文本模式加入文本模式集合|P|。定义3 候选文本模式的置信度:ConfCi=CpositiveCpositive+Cnegative (3)其中,Cpositive表示候选文本模式;Ci抽取的产品特征在产品特征种子集合中出现的个数;(Cpositive+Cnegative)表示候选文本模式Ci抽取到的产品特征的总数。(3)生成新的产品特征目的是利用抽取得到的文本模式寻找新的候选产品特征,并度量候选产品特征的置信度。包括以下2个子任务:1)生成侯选产品特征 利用文本模式集合中的文本模式,从产品评论的语料库抽取产品特征,如果该特征尚未在产品特征种子集合中出现,那么将该特征作为候

50、选特征Fi加入候选产品特征集合|F|,并记录获得该候选产品特征Fi的文本模式|P|。 2)评估侯选产品特征 候选产品特征集合|F|中每一个候选产品特征 Fi都可能被一个或多个文本模式得到,本文假设:能够被多个文本模式抽取得到的产品特征元组具有更高的可靠性。假设文本模式产生正确元组的概率相互独立,从而采用定义 4 中的公式来度量候选产品特征的置信度。定义4 候选产品特征的置信度ConFi=1-l=0|p|1-probpi (4) 其中,Conf(Fi)表示候选产品特征可靠性;|P|为抽取该候选产品特征的文本模式集合;Prob(Pi)表示文本模式 Pi抽取正确产品特征的概率;Conf(Pi)就是模

51、式 Pi抽取正确产品特征的概率,因此,定义4变化为定义5中的形式。定义5 候选产品特征的置信度:Conf(Fi)=1-i=0|p|1-Confpi (5)(4)更新产品特征种子集合 将候选产品特征集合中置信度最高的n个种子加入产品特征种子集合,形成新的产品特征种子集合,n 为人工制定的阈值。2.4 产品评论内容的分析对获得的评论数据分析后发现,产品评论具有很鲜明的特征:用户的描述很散乱。前一句可能还在对屏幕进行评价,后一句可能就会说到软件如何,如“外形漂亮,滑盖设计的也不错,电池待机时间也还算满意”。有很多常识性的知识。如在评论语句“大气,漂亮,软件运行速度快”中,“大气”和“漂亮”两个情感评

52、价词语没有相应的特征词,但基于常识我们知道这是对手机的外形进行了评价。有些作为评价对象的意义不明确,可能代表多种特征,如“效果、性能、速度”等词语就不能单独作为特征来看待,必须提取其前面的内容作为真正的特征,如“照相、MP3、视频播放,效果都是一般”,就需要把前面的“照相、MP3、视频播放”提取出来。在表达了用户情感的语句中,绝大多数都使用了很简短的语句来进行表达。如“操作非常方便、电池接触不好、通话声音有点小、性价比非常高”等,在特征词的前面和观点词的后面基本没有其它的词语。相对英文的评论来说,中文评论的表达形式有一些差异,比如,中文评论中的特征词可以没有任何指定词,而英语表达中则离不开;在

53、中文表达中,特征词和观点词之间可以没有任何其它词语,而在英语中就得有动词。因此在对中文评论的挖掘中,模式就得和英语的有所不同,并且产品评论中可用来当作模式的特征也不多。本文则根据中文评论内容的情况选择了词、词性、修饰关系等内容作为模式特征集。2.5 产品评论统计特征的提取特征选择主要用于排除特征空间中那些被认为无关的或关联性不大的特征,降低特征空间的维数,从而达到降低计算复杂度和提高分类准确率的目的。目前广泛采取的特征选择算法是构造一个评价函数,对特征集中的每个特征进行评估。选取多少个最佳特征以及采用什么评价函数,都需要针对某一个具体的问题通过实验来决定。特征选择算法能够删除对分类贡献不大的词

54、条,选择出能够代表类别特征的词条。这一方面减少了文本向量的维数,也使得特征向量能更好地代表文本或者类别的特征。文本维数的减少,有利于分类算法的运用,为文本分类选择更好的分类算法提供了条件。在常用的几种特征选择方法如互信息、信息增益、TFIDF、词频方法以及2统计方法中,2统计方法通常优于其它方法。该方法体现了词与词之间的相关信息、词与文本类别之间的相互关联程度,反映了特征项对类别判定信息含量的大小。一般说来, 特别是在大样本情况下,语义上相同或相近的特征项在相同的文本类别分布上应该呈现相同或相近的形态。也就是说,在概率意义下,它们在2分布列上应该体现出相似的概率值。为此,可以认为有相似分布的特

55、征项对文本分类应该具有相似的贡献。因而我们使用2分布相似的特征项进行选择,在最大程度减少文本信息缺失的前提下,大幅度降低文本向量维数。2统计量可以用来衡量特征t和类别c之间的统计相关性,其值的大小表示了词条t和文档类别c之间的相关程度。假设t和c之间符合具有一阶自由度的2分布,如果A表示包含词条t且属于类别c的文档频数,B为包含t但是不属于类别c的文档频数,C表示属于类别c但是不包含t的文档频数,D表示既不属于c也不包含t的文档频数,N表示语料中文档总数。则t对于c的2值由式(2.51)计算: (6)由于N,A+C,B+D均是常数,式(6)可以简化为: (7) 当特征t与类别c相互独立时2(t

56、,c)=0,此时特征t不包含任何与类别c有关的鉴别信息。特征t与类别c的统计相关性越强, 2(t,c)的值就越大,此时特征t包含与类别c有关的鉴别信息就越多。2.6 模式结构与模式特征集半监督学习算法要能挖掘出新的种子,一是需要设定好的种子,即不同的用户对同一个特征会用不同的语句发表相同或相近的看法,也就是半监督学习算法中基于局部一致性的假设;二是需要设定好的模式结构,根据模式结构既能从语料库的语句中提取到模式,也能根据模式获得新的种子,并且要求挖掘结果的准确率和召回率都很高。 模式结构反映了模式与种子关系,通过模式结构可以获得好的模式,一个好的模式要求有高的覆盖率及低的错误率。覆盖率要求模式

57、结构越简单越好,但错误率要求模式结构越复杂越好。在语料规模足够大的情况下,复杂的模式结构也可以挖掘出很多种子,因此本文所使用的模式结构如下:标签1标签2其中“标签1”和“标签2”分别代表产品特征词或者观点词,其它的“前置内容、中置内容、后置内容”由模式特征集中的模式特征组成。如在“感觉 屏幕色彩 还是有点棒”的评论语句中,“标签1”是产品特征词“屏幕色彩”,“标签2”是观点词“棒”;而在“最强的还是铃声”中,“标签1”是观点词“强”,“标签2”是产品特征词“铃声”。在模式特征集方面,根据前面的分析,中文评论的一个评论语句中除了产品特征词和观点词之外的内容不多,能形成模式特征的元素相对来说也不多

58、,所以本文通过使用句子中词、词性、修饰关系等句法特征生成模式,再通过Bootstrapping方法对评论进行挖掘。重庆科技学院本科毕业生论文 3系统设计3系统设计3.1 系统总体设计首先根据系统要达到的特征词挖掘工作设计出总体的结构,系统的类关系如图:3.2 系统界面设计系统界面是软件使用者使用的界面,界面应简洁易懂,从评论语料库中挖掘产品特征词的主界面如图:系统主界面代码如下:namespace TestSpliterpartial class Form1 / 必需的设计器变量。private System.ComponentModel.IContainer components = nul

59、l;/ 清理所有正在使用的资源。/ / 如果应释放托管资源,为 true;否则为 false。protected override void Dispose(bool disposing) if (disposing & (components != null) components.Dispose(); base.Dispose(disposing); #region Windows 窗体设计器生成的代码ponent() this.button1 = new System.Windows.Forms.Button();this.textBox1 = new System.Windows.Fo

60、rms.TextBox();this.groupBox1 = new System.Windows.Forms.GroupBox();this.menuStrip1 = new System.Windows.Forms.MenuStrip();this.groupBox2 = new System.Windows.Forms.GroupBox();this.textBox2 = new System.Windows.Forms.TextBox();this.button2 = new System.Windows.Forms.Button();this.groupBox1.SuspendLayout();this.groupBox2.SuspendLayout();this.SuspendLayout();this.button1.Location = new System.Drawing.Point(576, 300);this.button1.Name = button1;this.button1.Size = new System.Drawing.Size(107, 23);this.button1.TabIndex = 0;this.button1.Text = 结果;this.button1.UseVisualStyleBackCol

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!