策划书 大数据在选题策划中应用策划书

上传人:d**** 文档编号:171460626 上传时间:2022-11-27 格式:DOCX 页数:4 大小:10.39KB
收藏 版权申诉 举报 下载
策划书 大数据在选题策划中应用策划书_第1页
第1页 / 共4页
策划书 大数据在选题策划中应用策划书_第2页
第2页 / 共4页
策划书 大数据在选题策划中应用策划书_第3页
第3页 / 共4页
资源描述:

《策划书 大数据在选题策划中应用策划书》由会员分享,可在线阅读,更多相关《策划书 大数据在选题策划中应用策划书(4页珍藏版)》请在装配图网上搜索。

1、大数据在选题策划中应用策划书据全球权威的 IT 研究与咨询公司 Gartner 于 xx 年 9 月发布的大 数据分析报告显示,全球范围内的媒体和通信行业以及银行金融业站 在了大数据投资的最前沿。相比之下,出版业作为文化产业,承载着 文化传播与文化传承的社会功能,然而在利用大数据洞悉读者需求上 表现欠佳,所以,如何借助不断增长的大数据进行信息和知识的搜集、 组织和传播,成为出版企业亟待解决的问题。出版企业可利用的大数据的具体形式对于“大数据”(Big Data),研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和 流程优化能力的海量、高增长率和

2、多样化的信息资产。举个例子, 1 分钟的时间内,新浪发送2 万条微博,苹果下载4.7 万次应用,淘宝 卖出 6 万件商品,人人网发生 30万次访问,百度产生90万次搜索查 询。由此可见,数据规模的急剧膨胀,各行业累积的数据量越来越巨 大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系 统、处理模式的能力范围,于是“大数据”这样一个“无穷大”的概 念才会应运而生。大数据的特点可以被归纳为:数量巨大、类型多样、 实时快速、价值高但密度低。正式基于这样的特点,出版企业可以结 合产业的优势对大数据进行充分的挖掘和利用。(1) Web 文本挖掘。大数据的核心是挖掘庞大数据库的独有价 值。面对因

3、为网络的飞速发展而带来的信息膨胀,尤其是以半结构化 或非结构化为主的文本信息,人们迫切需要研究出方便有效的工具去 从中提取符合需要的“简洁的”“精炼的”“可理解的”知识, Web 文本挖掘技术由此产生。而利用 Web 文本挖掘发现大数据的价值也 成为可能。文本挖掘是近几年来数据挖掘领域的一个新兴分支。文本挖掘也 称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取 事先未知的“可理解的”有潜在实用价值的模式和知识。而随着网络 技术的飞速发展,特别是Web应用的不断普及,网络信息急剧增加, 信息类型也越来越复杂。如何从这些大量自由、非结构化或半结构化 的信息中获得所需求的知识,传统的数据

4、挖掘技术已不适用,解决问 题的一个途径就是将传统的文本挖掘技术和Web综合起来,进行Web 文本挖掘。Web文本挖掘就是以万维网上的数据为分析对象,以抽取 有用知识为目标,把传统文本挖掘技术和万维网相结合的研究技术。(2)出版企业可利用的Web文本数据。网络上图书评论的数量 极为庞大,有些畅销书可能包含成千上万的评论,借助Web文本挖 掘技术能自动地对图书评论进行分析和处理,挖掘出有用的信息。通 过对图书在线评论的挖掘管理,出版企业可以用较低的成本收集、整 理读者对于各类图书的关注兴趣和欣赏特点,同时也可以获得畅销图 书迎合市场需求的关键因素。在此过程中,企业获得了知识资源,同 时培育了持续的

5、竞争优势。因此,可以将各大图书销售网站的读者评 论作为出版企业可利用的大数据分析的首要来源。在企业的销售网站或其借助的其他互联网销售平台上,通过建立 在线评论客户知识管理系统,收集、整理和分析客户评论,将客户评 论转化为企业的知识,从而为企业价值链的各个环节提供客户的信息 和知识的共享,并将客户知识延伸到企业的决策制定中,为企业有效 开展客户知识管理提供有效的解决方案。同时,基于评论挖掘构建的 客户知识管理系统,具有与用户需求同步的快速响应能力,即具有将 用户需求迅速转向图书的策划和印制的能力。这就使得出版企业以响 应市场需求为中心,实时挖掘客户知识,提高优化客户关系的决策能 力,准确及时地向

6、客户提供所需的图书产品。大数据在选题策划中的应用信息收集和预处理相对于传统数据库中的完全结构化的数据而言,Web数据的最大 特点就是半结构化。从评论挖掘的角度来看,Web上的网页包含的信 息并不都是有用的,体现网页的主题信息的是“主题”内容;与主题 内容无关的导航条、广告信息等内容则是“噪音”内容。网页净化过 程就是去掉包含噪音内容的内容块,只保留网页中包含主题内容的内 容块。因此在评论挖掘的数据预处理阶段,首要任务就是完成 Web 网页净化过程,去除网页内容中的音频、视频、图片等其他非文本信 息,还有各种网页本身的标记语言,最后仅剩下网页中的文字评论内 容,从Web页面中提取出文本评论信息。

7、评论页面的下载可以采用聚焦爬虫技术,所谓聚焦爬虫,是能实 现自动下载网页功能的程序,它根据指定的抓取目标,有选择地获取 万维网上的网页及其相关的链接,抓取所需要的信息。通过对 Web页面的语义结构进行描述,产生适合计算机自动处理的描述文件和指令文件,实现持续地、大批量地提取Web信息。图书特征提取和情感分析评论内容是中文语句,要从中提取词语,进而获得读者关注的图 书特征,首先需借助中文分词技术。中文分词技术属于自然语言处理 技术领域,它通过词性标注将一个汉字序列切分成相互独立的词,文 本挖掘的基础是中文分词,一段中文要使得计算机自动识别语句语 义,必须通过准确的中文分词处理。在中文分词和词性标

8、注的基础上, 使用汉语分词软件的关键词提取功能提取评论内容中的关键词,按照 权重排序找出高频名词或名词性短语作为候选词汇,通过人工定义和 筛选,得到读者评论中的图书属性特征词集合。挖掘出的图书的读者关注特征,是读者图书评论中最集中和最热 点的特征,但每项特征具体的评价倾向性还需进一步分析和处理,即 通过提取读者对每项关注特征所持有的褒贬态度,分析其评价情感倾 向性。情感词可以细分为情感特征词汇和情感强度词汇。客户评论中 的情感特征词是客户表明自身观点和态度的词汇,而情感强度词是指 评论中用于加强语气的程度副词,如“最”“非常”和一些否定词。 这些词的修饰会加强或减弱,甚至改变原来词汇的情感倾向,在判断 评论的情感时要考虑这些强度词语的作用。内容仅供参考

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!