基于个人微博主题词提取研究

上传人：痛*** 文档编号：45370518 上传时间：2021-12-07 格式：DOC 页数：11 大小：782.50KB

收藏版权申诉举报下载

第1页 / 共11页

第2页 / 共11页

第3页 / 共11页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《基于个人微博主题词提取研究》由会员分享，可在线阅读，更多相关《基于个人微博主题词提取研究（11页珍藏版）》请在装配图网上搜索。

1、基于个人微博主题词提取研究摘要：微博作为一个新兴的社交媒体服务，是目前最流行的社交应用之一，微博数据具有实施动态特性，因此人们可以通过分析微博数据检测现实生活中的事件，同时微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战。综合考虑了微博数据特有的文本特征（转帖、评论、赞数、内嵌超链接（URL）提出了一种更有效的基于个人微博数据的主题词检测（Personal weibo data subject test ,PWDST）方法。关键词：微博数据；文本特征；主题词检测；中图分类号：TP392 文献标识码：A 文章编号：Base on the research of perso

2、nal micro-blog public events detectionAbstract: Microblog as a new social media services, is currently one of the most popular social networking applications, weibo data to implement dynamic characteristics, so people can through the analysis of weibo data detection in real life events, and the mass

3、, weibo series Ben and rich in features such as social relationships and brings new challenges for event detection. Considering the weibo data characteristic of the text characteristics (repost, reviews, and number of praise, embedded hyperlinks (URL) is proposed based on a more effective Personal w

4、eibo data subject detection (Personal weibo data subject test, PWDST) method. Keywords: weibo data; The text characteristic; Subject headings detection;1.引言微博作为一个新兴的社交媒体服务，是目前最流行的社交应用之一。它允许用户随时随地使用移动设备发布不超过140字符的信息，以更新自己的状态。对微博应用等方面的研究，是最近几年的研究热点。新浪微博是国内最流行的微博网站，用户注册人数已超过3亿。微博数据包括以下五个特性：1) 数据海量：以新浪微

5、博为例，目前微博用户平均每天都要发送超过1亿条帖子，平均每秒发送的帖子数高达1000条/s，这使得微博数据量非常巨大。2) 短文本性：根据微博网站规定，每条微博帖子的长度不能超过140个字符，因此微博帖子较短小精干。3) 文本缺失性：受发帖字数限制，用户只能用精简的语言发表微博，文本规范性和完整性较差。为了更好地阐述自己的观点，用户在发帖时嵌入超文本，如图片、视频和网页链接等。4) 实时性：移动客户端的迅猛增长，使得人们在日常生活中可以随时随地发帖，从而微博数据具有实时性。5) 丰富的社交信息：微博用户间通过“关注”关系形成了一个庞大而复杂的社交网络，并且通过转发、评论等操作引入更丰富的社交关

6、系，这使得微博数据具有丰富的社交信息。事件检测在学术界是备受关注的研究热点，传统的事件检测方法是通过构造词汇-文本特征矩阵分析事件，而微博数据的短文本性和文本缺失性会导致特征矩阵高度稀疏，从而使检测结果的准确率难以令人满意。另一方面微博数据中丰富的社交信另一方面微博数据中丰富的社交信息、超文本数据和特有的转发、评论数据为事件检测提供了更丰富的数据基础，而传统的方法并不能很好的将上述数据综合考虑进去。针对微博数据的特性和传统事件检测方法的缺陷，本文提出了一种更有效的基于个人微博数据的主题词检测（weibo data subject test ,WDST）方法。该研究方法综合考虑微博数据特有的文本

7、特征（转帖、评论、赞数、内嵌超链接（URL）等）、实时性特征进行主题词的监测。本文的主要创新点有以下两点：1) 分析微博数据的文本特征时，综合考虑转发、评论、赞数、内嵌外部链接（URL）等并提出了相应的加权方案，计算出微博信息中每个关键词的热点权重。2) 改变了以往的先对数据进行权重值的计算再根据权重值进行聚类，本文采取的方式使先聚类，在对其分别进行特征值的计算。3) 对词性的权重的划分更为详细。2.相关工作随着微博应用的推广和移动客户端的迅猛增长，人们往往第一时间在微博上发帖“报道”生活中的某一事件，基于微博数据进行事件检测成为国内外的一个热点研究话题，但已有的工作较少。绝大多数已有的事件检

8、测研究工作都是针对文本新闻和网页新闻进行分析的。另外，与事件检测最相关的工作是TDT(Topic Detection and Tracking)，绝大多数已有工作也是基于文本新闻和网页新闻。LSA、PLSA和LDA是其中效果显著且具有代表性的主题模型。基于微博事件检测已有的工作大致可分为4类：改进的TF-IDF方法、基于Burst的研究方法、基于图的方法和基于概率的方法。Phuvipadawat提出了基于命名实体加权的改进的TF-IDF方法。基于Burst的方法的主要思想是监控给定的时间关键词的出现频率在给定的时间片内是否突然剧增，如果是，则对应一个事件发生；反之，则没有事件发生。Lee对关键

9、词定义了BursT加权公式，并引入了滑动窗口时间实时监控事件的发生。Long提出了四个基准选取话题关键字，从而建立图模型进行聚类。而Weng提出了基于小波分析的图模型。但是这些方法都很少考虑到微博数据特有的特征。与上述方法不同，本文提出了一种更有效的基于个人微博数据的主题词检测（weibo data subject test ,WDST）方法。该研究方法综合考虑微博数据特有的文本特征（转发、评论、赞数、内嵌超链接（URL）、实时性等特征进行主题词的监测。3.Microblog主题词识别的方法3.1源数据的获取源数据的获取主要是考虑到微博本身的特点，主要包含的内容如下：1) 作者原创的微博；2)

10、转发的微博；3) 微博的被评论数；4) 微博被转发数；5) 微博被赞数；6) 微博发表的时间；3.2 源数据的预处理1) 本文考虑到了微博信息中内嵌的URL，所以我们先对微博中含有的超链接指向的网页主题提取出来，并将其超链接替换成网页主题内容。2) 我们处理的微博信息多数工作都是针对汉字的语义分析和统计，所以我们再预处理中，只保留了微博信息中的纯文本部分，出去了标点符号和数字以及英文字母部分，为下一步的分词减少了工作量。3.3 分词的预处理1) 本文通过调用外部分词软件来进行分词，所使用的是中科院的汉语词法分析系统ICTCLAS(Institute of Computing Technolo

11、gy, Chinese Lexical Analysis System)进行分词。2) 去除停用词是去除那些对文章没有实质性意义的词，利用构建的停用词表，包括表情符号等，对分词结果进行后处理，只保留名词、动词进行分析。主要工作是匹配分词结果中的停用词，并将其去除，剩下的词汇作为帖子的特征。3) 单个词能表示主题的可能性不是很大，所以文本分词只保留字符长度大于1的分词。4.候选关键词特征值的计算4.1TF-IDF的计算文档频率和反文档频率是一个在信息检索领域常用到的特征。这里，这个特征被修改后以适用于微博数据的场景，而用于抽取微博关键词。计算公式如下：（1）其中，表示词w在微博x中出现的频数；

12、N 表示总的帖子数；n表示出现词w的微博数；1是为了避免出现0值而设定的一个常量。4.2词长权重的计算根据汉字的特点，比较长的关键词在任何文本中所占的权重还是比较大的，所以词长是词本身权重的一个重要特征因素，本文给出的计算公式如下：（2）其中li表示分词i的词长，max(li)表示的是该条微博的所有文本长度。4.3词性权重的计算在文本中，能表达实际意义的关键字主要还是名词和动词，所以本文在分词的处理上只保留了名词、动词和缩略词，并对其赋予相应的权重值。（3）4.4词频权重的计算一个分词在一条微博信息中，所出现的次数占所有分词出现次数的比重很大时，同样也能表明该词作为关键词的可能性很大。本文

13、给出的计算公式如下：（4）其中fi为该分词在该微博中出现的次数。4.5线性加权经过以上因素的分析和量化，采取的线性加权方法，将以上因素归并到以下的权重计算公式中去，具体的公式如下：（5）根据各个权重因子对候选关键词的影响成度各个可变参数的取值分别是0.1、0.3、0.1、0.5且它们的和刚好为1.5.相似度的计算5.1共同词的提取如果两个微博包含相同的关键字，我们可以认为这两条微博在一定上具有一定的语义相关性，本文给出的具体算法如下：（6）其中是id1和id2分别是关键词wi所属微博的编号；如果两条微博含有相同分词，那么可以认为它们在语义上存在相关性。5.2时间相似度的计算可以直观地发现

14、，两条微博帖子间的发帖时间间隔越短，帖子内容越相似。因此，帖子与帖子的时序相似度（time similarity，TS）与发帖时间间隔相关，其计算公式定义如下：（7）其中ti和tj分别表示两条微博wi和wj发布的事件；此处的计算是基于前面的语义相关性计算的，也就是只计算语义上有相关性的微博的时间相似度。5.3热度值的计算微博的热度值就是微博被关注度，衡量一条微博被关注的热点程度，主要的因素就是被评论数，被转发数和被赞数。那么被关注度高的微博中包含的关键词权重很大。本文给出的计算公式如下：（8）计算每条微博的热度值，respost表示的是被转发数，comment表示被评论数，attitude

15、表示的是被赞数，count为被转发数、被评论数和被赞数的总和。5.4热度值相似度的计算热度值的相似度计算是在语义相似度和时间相似度的基础上计算而来的，本文给出的具体计算公式如下：（9）其中q为hoti和hotj都存在的字符，s为hoti存在而hotj不存在的字符，r为hotj存在而hoti不存在的字符。5.5综合相似度的计算综合考虑两条微博帖子间的互信息关系特性、语义特性、时序特性以及热度值的相似分别按照上述方法计算相应的相似度并进行线性加权，计算出两条微博帖子间的相似度：本文给出如下微博相似度计算公式：（10）其中的。6.主题词的提取6.1提取在阀值范围内的微博的关键词根据实验数据显示，

16、提取相似度阀值在0.9-3之间的微博关键词。6.2计算候选关键字的特征权重去除重复的实验数据中的重复记录，并对每个关键词进行词性标注以及每个关键词在剩余关键词中出现的次数统计，本文此处对词性权重的具体划分如下：（11）此处对剩余关键词的词性权重进行了更为详细的划分和标注。nr表示人名，n即为普通数据，ns为地名，j为缩略词，v和vn都是动词，本文对动词没有具体的区分。6.3 计算剩余关键词的总的权重值剩余关键词的总的权重计算公式如下：（12）其中count为每个剩余关键字在所有关键字中出现的次数，posi为剩余的关键词的词性。7.实验本文采用新浪微博的数据进行实验。利用新浪微博的开放平台（

17、），提取“梁宏达”的从2013年8月到2013年9月的微博信息。实验硬件环境为：CPUInter(R)Core(TM)2 (2.93GHz)，RAM为2G，操作系统为32位的Windows XP，实验工具为MicrosoftVisualStudio2010，数据库为MYSQLServer5.1，数据库的辅助工具为Navicat for MySQL。微博各个因素的相似度以及综合相似度的计算结果如图1所示：图1综合相似度的计算结果计算完上面的相似度，根据一定的阀值，提取相似度高的候选关键词，具体的提取结果如图2所示：图2提取一定阀值的微博关键词剩余关键词的特征权重以及综合权重的具体的计算结果如图3

18、所示：图3剩余关键词的特征权重以及综合权重提取综合权重在阀值大于等于0.6的对应的关键字，即为主关键词，具体的实验室结果如图4所示：图4 提取结果8.结束语本文主要研究个人微博时序事件相似度，其中包括预处理、分词及词频统计、停用词去除、同义词替换的基础上，结合微博数据的特点提出了一种综合考虑微博数据的语义相似度、热度值相似度、时间相似度的事件检测算法。实验结果表明本文提出的方法能够具有较高的事件检测准确率。微博数据的大数据量、实时性、短文本等特性给事件检测方法带来了全新的挑战，本文在综合考虑微博数据的多样化特征进行事件发现方面进行了初步的探索。如何增量地进行事件的检测以及如何进一步提高事件检测的准确度和效率将是未来的工作中需要重点研究的问题。9.参考文献

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

基于个人微博主题词提取研究

最新文档

相关资源

相关搜索