文本数据统计分析课件

收藏

编号:168248496    类型:共享资源    大小:792.35KB    格式:PPTX    上传时间:2022-11-08
10
积分
关 键 词:
文本 数据 统计分析 课件
资源描述:
文本数据文本数据统计统计分析分析2016年2月Roben2022-11-522022-11-522022-11-52大数据大数据变化快体量大种类多结构化半结构化非结构化2022-11-532022-11-532022-11-53产业链产业链数据源计算技术分析技术(行业知识)可视化应用(行业知识)收集/处理存储/管理分析/挖掘显化2022-11-542022-11-542022-11-54数据源数据源n 全2022-11-552022-11-552022-11-55计算技术计算技术n 快2022-11-562022-11-562022-11-56分析分析技术技术2022-11-572022-11-572022-11-571.元搜索及去重元搜索及去重2.正文抽取及结构化正文抽取及结构化3.分词及统计分析分词及统计分析4.新词发现及词包扩展新词发现及词包扩展5.关键词提取及自动摘要关键词提取及自动摘要6.语句短文情感分析语句短文情感分析7.文本分类及过滤文本分类及过滤8.文本聚类及热点分析文本聚类及热点分析9.关联分析及主题追踪关联分析及主题追踪10.机器学习及预测机器学习及预测分析分析文本文本采集采集与与分析分析2022-11-582022-11-582022-11-58元搜索及去重元搜索及去重n 关键字组合n 多家搜索引擎聚合n 指定网站n 困难u动态网页u爬虫封锁u验证码n 基于搜索主题的爬取u词包扩展u过滤规则学习u行业知识库积累2022-11-592022-11-592022-11-59正文抽取及结构化正文抽取及结构化n 抽取识别网页的价值内容n 自动剔除u导航性质的网页u网页中的标签与导航u广告等干扰性文字与图片n 困难u多样且变化的网页结构n 结构化要素u来源,大类别,标题,正文,时间u机构名称、人名、地名和产品名2022-11-5102022-11-5102022-11-510正文抽取正文抽取结构化结构化2022-11-5112022-11-5112022-11-511分词及统计分析分词及统计分析n 词典n 停用词n 词频统计n 词语转移统计n 困难l发展中国家兔的饲养 /发展/中国/家兔/的/饲养/发展中国家/兔/的/饲养/l乒乓球拍卖完了 /乒乓球/拍卖/完了 /乒乓球拍/卖完了/l和服务 /和服/务 和/服务/We understand 80%Autonomy2022-11-5122022-11-5122022-11-512新词新词与词包扩展与词包扩展苹果苹果/橘子橘子苹果苹果/小米小米毒大米毒大米人名、机构名、地名、产品名、商标名、简称、省略语2022-11-5132022-11-5132022-11-513关键词提取及自动摘要关键词提取及自动摘要一、关键词提取法u提取文档中心思想的词汇或短语u方法:词频统计,热词二、自动摘要法(计算步骤)计算词的权计算词的权值;值;计算句子的权计算句子的权值;值;对句子按权值对句子按权值排行,权值最排行,权值最高的句子被选高的句子被选为为摘要摘要句句;将将所有所有摘要摘要句句按照在按照在原文中原文中的出现的出现顺序组顺序组合输出合输出。12342022-11-5142022-11-5142022-11-514语句短文情感分析语句短文情感分析 n两个关键因素u语料知识库u分类算法n情感词典法(计算步骤)读取情感词典,读取情感词典,获得词语的情感获得词语的情感强度;强度;Title in here所有句子的情感分所有句子的情感分值之和,就是整篇值之和,就是整篇短文的情感。短文的情感。用所有词语的正面用所有词语的正面情感分值减去负面情感分值减去负面情感分值,得到句情感分值,得到句子的情感子的情感分值;分值;对每个句子进行分词;对每个句子进行分词;2022-11-5152022-11-5152022-11-515语句短文情感分析语句短文情感分析 n 情感词典本体库u情感词库l词性种类(名词、动词、形容词。)l情感种类(喜、怒、哀、乐、愁。)l情感强度(轻微,一般,严重。)l极性种类(中性、正面、负面)l“正面评价”词语,如:好,美,善良,才高八斗。l“负面评价”词语,如:丑,坏,超标,华而不实。u否定词库u程度副词库2022-11-5162022-11-5162022-11-516文本分类及过滤文本分类及过滤n 预定义指定的规则和示例样本u词表分类法u特征向量分类法n 应用u爬取过滤(剔除广告营销招聘信息)u抽取标签(情感强度,行业类别,来源类别)n 监督学习算法u示例分类与人工标记2022-11-5172022-11-5172022-11-517文本分类文本分类过程过程文本表示文本表示训练过程训练过程分类过程分类过程训练文本训练文本统计统计统计量统计量特征表示特征表示学习学习分类器分类器新文本新文本文本特征表示文本特征表示类别类别2022-11-5182022-11-5182022-11-518半监督学习分类半监督学习分类模型模型用户用户反馈反馈分类分类结果结果用户感兴趣信息样本机器学习2022-11-5192022-11-5192022-11-519文本聚类及热点分析文本聚类及热点分析n 自主发现事物之间的特征并进行区分n 未知分类标准与数量,有创造性发现n 无监督学习算法n 聚类结果不稳定(因素)u聚类方法u变量指标u数据预处理n 热点分析u从大规模文档中自动分析出热点,并提供关键特征u基于主题词相关数量u基于内容理解2022-11-5202022-11-5202022-11-520文本聚类过程文本聚类过程1.需要分析的数据集合2.选取聚类特征3.聚合计算后划分类别4.给每个聚类标注关键词2022-11-5212022-11-5212022-11-521关联分析及主题追踪关联分析及主题追踪n 从因果关系到经常连结关系n 出现关联与语义关联n 出现关联分析过程:从频繁集到关联规则n 分析结果u关联规则和序列模式n 主题追踪(语义关联)u与主题相关的起源与发展路径u信息量趋势与特征u转折点2022-11-5222022-11-5222022-11-522关联分析示例关联分析示例2022-11-5232022-11-5232022-11-523机器学习及预测分析机器学习及预测分析n 训练-模型-预测2022-11-5242022-11-5242022-11-524机器学习及预测分析机器学习及预测分析n 算法-受益于数据量与计算速度u有监督学习有监督学习:线性回归,逻辑回归,神经网络,SVM,KNN,贝叶斯,决策树。u无监督学习无监督学习:聚类算法,降维算法u特殊算法特殊算法:推荐算法n 历史往往不一样,但历史总是惊人的相似n 用途:预测与量化决策n 问题:少数人在创造世界2022-11-5252022-11-5252022-11-525文本检索过程文本检索过程2022-11-5262022-11-5262022-11-526搜索引擎结构搜索引擎结构2022-11-5272022-11-5272022-11-527文本采集分析过程文本采集分析过程2022-11-5282022-11-5282022-11-528大数据大数据风控框架风控框架金金融融征征信信业业务务外部外部相关相关数据数据内部业务数据内部业务数据风控知识库风控知识库风控模型库风控模型库外外部部算算法法工工具具征信数据库征信数据库产品产品服务服务搜搜索索引引擎擎更更多多价价值值数据数据分析分析数据数据处理处理2022-11-5292022-11-5292022-11-529Thank You!Q&A
展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
提示  装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:文本数据统计分析课件
链接地址:https://www.zhuangpeitu.com/article/168248496.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!