中文微博情感评测报告

上传人:Sc****h 文档编号:218479378 上传时间:2023-06-19 格式:PPT 页数:24 大小:1.50MB
收藏 版权申诉 举报 下载
中文微博情感评测报告_第1页
第1页 / 共24页
中文微博情感评测报告_第2页
第2页 / 共24页
中文微博情感评测报告_第3页
第3页 / 共24页
资源描述:

《中文微博情感评测报告》由会员分享,可在线阅读,更多相关《中文微博情感评测报告(24页珍藏版)》请在装配图网上搜索。

1、中文微博情感评测报告中文微博情感评测报告浙江工商大学 计算机与信息工程学院报告人:陈威指导老师:施寒潇提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结背景 在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源。针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题。微博情感分析l情感分析,包括观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向。l主要技术:(1)情感词典与规则相结合的方法(2)机器学习意义l

2、过滤不合法网络舆论信息,营造良好的网络环境l监督舆论的走势,辅助社会管理l实现商品个性化推荐l对社会计算的研究有重要的意义提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结任务清单l任务一:观点句判定l任务二:分析情感倾向 l任务三:提取情感要素技术准备l分类器:SVM、CRFl情感词典扩充:加入网络用语和表情符号 l中文分词技术:海量云分词提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结任务处理流程构建特征集人工标注训练语料训练集及训练模型生成预测集生成及预测人工标注l利用本团队自主开发的标注工具标注l严格按照主办方提供的

3、标注规则,从样列文件中选取1219条具有代表性的微博进行标注l标注内容包括:是否为观点句、情感倾向性、情感要素训练语料任务一:人工标注的1219条微博任务二:任务一训练语料中451条为观点句的微博任务一特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。2表情符号是否含有情感表情符号参考网络表情符号词典3情感词是否出现情感词在基本的情感词典基础上,再加入包含情感的网络用语作为情感词典的扩充。4情感词个数情感词出现的个数5标点符号是否出现感叹号和问号。!?6标点符号是否出现连续的感叹号和问号。!,?7反转词是否出现反转词。是否情感词前面存在反转词(情感词前3个词之

4、内)8程度副词是否含有程度副词。很,特别等9语气词是否含有语气词。啊,哪,啦,呀,吧,呢10网络用语是否存在网络用语参考网络用语词典内容11目标值是否为观点句任务二特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。2正面表情符号正向情感表情符号个数参考网络用语表情词典3负面表情符号负向情感表情符号个数参考网络用语表情词典4正面情感词正向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。5负面情感词负向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。6反转词是否出现反转词。是否情感词前面存在反转词(情

5、感词前3个词之内)7问号是否出现问号8标点符号是否出现问号或者连续的问号。9目标值情感正负训练模型生成网络用语、表情特征提取提取特征训练模型格式转换分词SVM训练人工标注语料海量分词格式分词结果训练集格式转换预测集生成网络用语、表情特征提取提取特征格式转换分词待预测微博海量分词格式分词结果预测集格式转换预处理预测集生成及预测细节任务一分词前预处理:过滤类似“我感到很高兴”这样的主观抒发情感句,并定为非观点句。任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博使用SVM对预测集进行预测评测结果任务微平均宏平均正确率召回率F值正确率召回率F值一0.6450.9590.7720.64

6、90.9600.770二0.8040.7710.7870.8090.7780.793任务三流程分词特征提取CRF训练及预测结构化标注 情感要素提取任务三特征集特征序号特征类型特征内容描述1Token即该词语名称分词所得的某一个词的名称2POSToken的词性该词的词性,可以在分词结果中取得3上下文窗口某Token上下Token的特征选取了上下文窗口为5的词语的Token、POS特征4目标值结构化标注 用于提取情感要素特征训练集生成使用与任务二相同的人工标注集作为训练语料结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词SO为情感词,BG为背景情感要素确定u标注为SO,即情感词,作为微博情感倾向u标注为TP-B或TP-E,则可能是情感要素u没有标注TP-的角色,那么就认为该句没有情感要素总结 本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平。感谢各位专家、学者聆听感谢各位专家、学者聆听本次报告!本次报告!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!