大数据技术及应用培训课件

上传人:风*** 文档编号:173746359 上传时间:2022-12-12 格式:PPT 页数:58 大小:16.65MB
收藏 版权申诉 举报 下载
大数据技术及应用培训课件_第1页
第1页 / 共58页
大数据技术及应用培训课件_第2页
第2页 / 共58页
大数据技术及应用培训课件_第3页
第3页 / 共58页
资源描述:

《大数据技术及应用培训课件》由会员分享,可在线阅读,更多相关《大数据技术及应用培训课件(58页珍藏版)》请在装配图网上搜索。

1、大数据技术及应用1123大数据应用目 录大数据时代大数据技术2大数据时代大 数 据 时 代生活、工作与思维的大变革Living,working and thinking big changes一场生活、工作与思维的大变革 大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发大数据,变革生活大数据,变革商业大数据,变革思维大数据,开启重大的时代转型预测是大数据的核心3第一个故事,百货公司知道女孩怀孕第二个故事,搜索热词里的商机第三个故事,阿里知道谁需要贷款第四个故

2、事,中移动挽留流失客户第五个故事:每天,我们借助大数据完成微信上的互动第六个故事:大数据解救每一位“路盲”第七个故事:大数据协助大闸蟹养殖大数据时代4大数据时代 国家电网大数据案例,基于PMS(电力生产系统)系统数据,构建基于词云图分析的文本信息挖掘及可视化实现对电网设备的家族缺陷信息的快速分析。56设备类型设备型号断路器查询LW25-126信息查询:高压开关设备缺陷统计分析结果一次系统其他二次系统其他数据挖掘分析流程应用大修技改流程厂家设计改进流程物资采购流程供应商评估流程检修计划流程详细记录信息厂家西安西开高压电器股份有限公司河南平顶山高压电器股份有限公司设备类型断路器断路器设备型号LW2

3、5-126lw25-126投运日期2007-12-12008-3-1额定电压252KV252KV额定电流630A630A.西安西电高压开关有限责任公司断路器Lw25-1262008-3-20252KV630A.大数据时代6大数据时代西安公交集团大数据案例 公交司机驾驶行为直接影响到乘客的安全,如全国公交一样,西安公交集团在每辆公交车上安装了监控设备,每日审核监控视频,对开车过程中出现违章行为的司机进行罚款处理,但由于公交车多,视频数量极大,这给分析处理视频的工作人员带来了很大的工作压力,因此公交集团希望能够建立一种快速视频识别分析手段,以缓解当前这种情况。如何能让20多名工作人员从每天10个小

4、时的视频审核工作中解脱出来?7大数据时代 通过数据挖掘,使工作人员从每天长达数千小时视频违章信息筛选工作中脱离出来,将原来需要数十小时的视频审核工作,缩短为几个小时完成,大大提高了工作效率。且可以有效避免人为舞弊的情况。8大数据时代 数据:2014年10月纳税人A申报营业额为10万。信息:2014年10月纳税人A申报营业额比去年同期减少了25%。知识:原因是纳税人A在华东地区的渠道销售不利,或其产品B进入了衰退期,还是公司整体营销活动落后,竞争者强力促销导致?或是其它原因。针对这一问题公司应对的策略是什么?智慧:应对的行动方案可能有多种,但(战略)选择哪个靠智慧。行动则又会产生新的交易数据。9

5、大数据时代大数据时代的思维变革“更多”-不是随机样本,而是全体数据 当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本总体10大数据时代“更杂”-满足精确性,包容混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多

6、越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生大数据时代的思维变革11大数据时代“更好”-不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法大数据时代的思维变革12大数据时代大数据时代的商业变革“数据化”-一切皆可“量化”大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯

7、打向“I”,开始关注信息本身了。数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化13大数据时代大数据时代的商业变革“价值”-“取之不尽,用之不竭”的数据创新 数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。数据创新1:数据的再利用数据创新2:重组数据数据创新3:可扩展数据数据创新4:数据的折旧值数据创新5:数据废气数据创新6:开放数据给数据估值14大数据时代大数据时代的商业变革“角色定位”-数据、技术与思维的三足

8、鼎立 微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。大数据价值的3大构成大数据掌控公司大数据技术公司大数据思维公司和个人全新的数据中间商专家的消亡与数据科学家的崛起大数据,决定企业的竞争力15大数据时代大数据时代的管理变革“风险”-让数据主宰一切的隐忧 我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“

9、TA”,还有我们的社交关系网。无处不在的“第三只眼”我们的隐私被二次利用了预测与惩罚,不是因为“所做”,而是因为“将做”数据独裁挣脱大数据的困境16大数据时代“掌控”-责任与自由并举的信息管理 当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。管理变革1:隐私保护,从个人许可到让数据使用者承担责任管理变革2:个人动因VS预测分析管理变革3:打破黑盒子,大数据程序员的崛起管理变革4:企业和行业应用突破大数据时代的管理变革17大数据时代正

10、在发生的未来大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。18123大数据应用目 录大数据技术大数据时代19大数据技术认知初识大数据算法与理论大数据系统与实践NoSQLHadoop大数据带来的思维变化大数据带来的价值链大数据发展现状与未来大数据 vs 人类什么是大数据大数据的特性大数据与传统技术的关系大数据与其他新兴技术的关系深入20大数据技术什么是大数据 百度百科:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间

11、内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。维基百科:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。学术观点:大数据是由大量异构的数据组成的数据集合,它是可以应用合理的数学算法或工具从中找出有价值的信息,为人们带来利益的一门新兴学科。21大数据技术2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据

12、相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。Google处理了5000万条历史记录、4.5亿个不同的数学模型。什么是大数据22大数据技术Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。系统只推测机票的价格何时最便宜,同时分析是什么原因导致的价格下降。FarecastBing什么是大数据23大数据技术大数据的特性大数据的特征24大数据技术 大数据是在传统数据库学科的分支-数据仓库与数据挖掘的基础

13、上进一步发展起来的。但有两点比较主要的不同:结构化程度 传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。异常数据的处理 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对

14、总体结果产生影响。大数据与传统数据库的区别25大数据技术大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系。大数据与其他新兴技术的关系26大数据技术处理的对象往往是全部数据,而不是部分数据的采样 采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。不再执迷于精确性 精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外95%的数据。错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。大数据的简单算法比小数据的复杂算法更有效。更加关注相关性,而不是因果性

15、预测依靠的是相关性。很多情况下知道“是什么”即可,不必知道“为什么”。大数据带来思维方式的变化27大数据技术数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。大数据的价值链28大数据技术大数据=海量数据+复杂类型的数据海量交易数据:企业/机构的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过

16、去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于互联网的社交媒体数据构成(日志和非结构化数据);源于物联网的设备和传感器采集数据(日志和非结构化数据);源于GPS和地理定位映射数据;医疗/监控产生的海量图像文件;科学计算/电子邮件等等。可以告诉我们未来可能会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如在商用硬件群中运行的各种数据挖掘和分析系统。大数据处理29大数据技术 分析技术:数据处理:自然语言、视频图像处理技术抽样统计分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预

17、测:预测模型;机器学习;建模仿真 大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等 多元数据:结构化数据:p 海量数据的查询、统计、更新等操作效率低非结构化数据p 图片、视频、word、pdf、ppt等文件存储p 不利于检索、查询和存储半结构化数据p 转换为结构化存储p 按照非结构化存储 存储计算框架:Hadoop(MapReduce技术)分布式文件系统数据采集数据储存数据管理数据分析与挖掘大数据处理30大数据技术1.行业应用逐渐趋向大数据处理2.传统的信息平台无 法实现3.海量数据面临存储和

18、 处理的瓶颈大数据处理31大数据技术过去现在高性能计算企业中小企业万亿字节千兆字节兆字节千万亿字节万亿字节千兆字节面临的新难题-如何处理大规模数据32大数据技术采用完全无共享(Share-Nothing)系统架构33大数据技术 应用程序通过分布式系统访问数据 所有计算/存储节点间自由交换数据 每一个计算/存储节点运行独立的数据库查询海量并行处理结构(MPP)34大数据技术传统并行运算架构运算存储传统存储架构海量数据高性能计算与存储 传统存储架构共享存储访问模式;计算与存储分离;仅适合于计算相关数据量较小的高并发、计算密集型应用 大数据环境下:存储将成为访问的性能瓶颈;海量文件的管理、访问难题;

19、传统盘阵数据冗余保护机制不能满足高性能要求。35大数据技术计算存储节点=并行式运算+分布式存储大数据并行计算架构 分布式文件系统计算与存储一体,计算向数据集中,高效专用计算存储节点完全解决应用、并发、同步与一致性等问题处理和计算任务之间实现无依赖,具有高系统延展性(Scale-Out)分布式文件系统,提供高效的海量数据存储访问与管理应用:地质勘探生命科学非线编媒资管理动画渲染等高性能运算海量数据高性能计算与存储36大数据技术40GE Infiniband或者160GB万兆SureCloud分布数据库(计算能力)SureCloud分布式分布式存储(存储能力)1.设计超大规模数据的关联计算2.使用

20、节点高速缓冲区3.支持连续复杂计算1.大容量的海量数据存储2.高性能IO3.全冗余平滑扩容数据服务获取复杂的大数据处理结果开放的应用开放的应用开放的应用直接数据提取大数据数据仓库37大数据技术分布式数据库分布式物理节点自动部署节点监控资源监管动态调度分布式文件系统QFSHDFSSDFSNoSQL SDDBCacendra大数据挖掘应用Map/Reduce统一智能管理大数据接口访问权限管理大数据存储自动化部署配置监控与资源管理大数据管理大数据采集辅助工具HbaseMango DB大数据计算应用医疗云政务云物联网行业应用金融电信政府38大数据技术应用1应用2应用N大数据处理平台39大数据技术泛互联

21、网数据机器数据行业内容数据焦点挖掘价值面向行业关键技术基于泛互联网内容的准实时舆情监测和用户行为分析基于机器设备数据的生产状态实时监测和统计分析基于行业内容数据的海量分布式存储和查询各级/地政府;舆情监测个人消费品制造/零售;精准营销、电商、客服、反向创新金融/电信;精准营销、客服电力/电网/石油;设备、管线状态和故障监测自动化工业制造;设备状态监测以管控产品质量复杂设备运营;状态监测公安/海关;人脸/指纹识别身份医疗/交通;影像/图片提取价值数据卫星/基因科研;复杂内容计算税务数据仓库新华社与媒体政府,公安电信客户、基地中心电力、电网中石油、中石化电信大型制造业气象局交通研究院Smart C

22、ity银行历史库用户行为分析NoSQL-分布式存储和查询查询和搜索实时过滤和聚合业务分析SureSaveBDP用户行为分析NoSQL-分布式存储和查询实时过滤和聚合业务分析SureSaveBDPNoSQL-分布式存储和查询SureSaveBDP40大数据技术采集/挖掘分析数据访问接口决策导入的是数据,取出的是价值存储计算访问结构化数据的导入非结构化数据的导入ETL结构展现数据访问接口数据访问接口数据访问接口AppAppAppApp分析决策模型分析决策工具分布存储数据挖掘41大数据技术非结构化数据音频、视频、工程、科学数据分布式文件存储分布式结构化数据存储数据处理技术分布式计算框架分布式索引查询

23、检索分析挖掘结构化数据数据存储技术数据索引技术数据计算技术数据访问技术数据智能技术可扩展的体系结构数据采集技术大数据解决的不是单一的一个产品能够解决的,它需要一整套的解决方案,它要融合很多传统的、新的技术,包含了很多不同的产品和功能模块42大数据技术大数据系统43大数据技术 大数据存储问题 文件存储 千万级的大文件存储:如视频 亿级的中等文件存储:如文档 十亿级的小文件存储:如图片缩略图 不同文件存储对于系统需求不同 结构化数据 亿级的结构化数据存储 查询、统计、更新等操作效率低大数据系统-存储44大数据技术 大数据存储的最主要的论文 CAP Theorem Consistency,Avail

24、ability and Partition Tolerance Google的GFS和BigTable GFS一种存储海量大文件的存储系统 BigTable提出了一种Schemaless的表数据模型 Amazon的Dynamo Dynamo的模型更简单,它将数据按key进行hash存储,K-V Store Gossip protocol(discovery and error detection)Distributed key-value data store Eventual consistency45大数据技术RelationalKey-ValueColumn-OrientedDocume

25、nt-OrientedRDBMS(Oracle,MySQL),Aster Data VerticaMongoDB,TerrastoreHyperTable,HbaseRedis,Berkeley DB,ScalarisDynamo,Voldemort,TokyoCabinetCassandraCouchDB,Riak所有的客户端有统一的数据视图网络出现分区时仍能够正常运行客户端在任意时间都可以读写46大数据技术NoSQL NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。NoSQL易扩展高性能

26、高可用大数据量灵活的数据模型47大数据技术 NoSQL系统 提高数据服务的交付能力,解决了数据集中与共享的问题,数据存储的高可扩展性,即使数据量达到PB级别,存储仍然可以在一定的成本范围内拥有良好的可扩展性 支持大量的并发执行和高效的分析型处理48大数据技术 大数据计算问题 海量数据带来计算快速性难以保证 结构变化导致计算模式变更 大数据处理解决方案 MapReduce技术 流计算技术:twitter的storm和yahoo的S449大数据技术MapReduce是一种常用的分布式编程模型,用于大规模数据集(通常大于1TB)的并行运算。mapmapreducereduceLocal FSLoca

27、l FSHTTP GET50大数据技术On-line MapReduce 使用Map-Reduce的流水线执行机制,进行Map和Reduce任务的动态调度HDFSWrite SnapshotAnswerHDFSBlock 1Block 2Read Input Filemapmapreducereduce51大数据技术大数据上的统计分析:Hive 建立在Hadoop/MapReduce上的数据仓库系统 提供HQL语句实现对Hadoop上的数据查询和分析机制52大数据技术基于Hive及辅助索引技术,实现快速的数据统计分析微博日志分析 50亿条/天 统计登陆人数/5分钟53大数据技术分析结果应用54

28、大数据技术 大数据存储 分布式文件系统:GFS、HDFS NoSQL系统 Key/Value Store:Amazon S3(Dynamo)、Voldemort、Scalaris Schema-less:Bigtable、Hbase、MongoDB、Neo4j 大数据处理 MapReduce/Spark/Sworm RDB NoSQL LogNoSQL55后面内容直接删除就行资料可以编辑修改使用资料可以编辑修改使用资料仅供参考,实际情况实际分析The user can demonstrate on a projector or computer,or print the presentation and make it into a film to be used in a wider field谢 谢58

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!