互联网大数据文献综述

上传人:zou****hua 文档编号:180526456 上传时间:2023-01-06 格式:DOCX 页数:14 大小:22.39KB
收藏 版权申诉 举报 下载
互联网大数据文献综述_第1页
第1页 / 共14页
互联网大数据文献综述_第2页
第2页 / 共14页
互联网大数据文献综述_第3页
第3页 / 共14页
资源描述:

《互联网大数据文献综述》由会员分享,可在线阅读,更多相关《互联网大数据文献综述(14页珍藏版)》请在装配图网上搜索。

1、互联网大数据文献综述大数据分析的趋势亮点大数据分析中的当前的最先进技术的概述。 大数据分析的规模和应用前景趋势。在硬件上的现况和未来的发展趋势,如何帮助我们解决大规模数据集。讨论目前采用的软件技术和未来趋势,以解决大数据分析应用。关键词:大数据分析数据中心分布式系统摘要:大数据分析是并行的分布式系统未来的主要应用之一。数据仓库目前应用的 规模已经超过EB级,并且其规模还在不断增长。当数据集和相关应用程序超出 了他们的规模,给这些的构成要求和软件开发方法的考虑带来了重大挑战。数据 集通常是分布式,它们的大小和安全考虑到分布式技术来得到保证。数据经常驻 留在不同的平台上计算,对网络能力,容错性,安

2、全性和访问控制的考虑是在许 多应用中的关键。在其他应用程序中,分析任务的截止时间主要与数据质量有关。 对于大多数新兴应用程序,数据驱动的模型和方法,能够大规模操作的方法,到目 前还未找到。即使知道可以缩放的方法,验证结果又是一个重大的问题。硬件平 台的特性和软件堆栈从根本上影响数据分析。在这篇文章中,我们提供了一个概 述的最先进的硬件和软件的趋势在大数据分析应用程序前景的应用。引言随着互联网关键的技术的发展,计算作为一个实用程序的设想在上世纪90 年代中期开始形成。在网格计算时代的早期人们通常认为硬件作为主要资源。网 格计算技术专注于分享、选择和聚合各种各样的地理上分布的资源。这些资源包 括超

3、级计算机、存储和其他设备,用来解决在科学、工程和商业的大规模计算密 集型问题。这些框架的一个关键特性是他们的支持透明跨域管理和资源管理能 力“数据即资源”的概念被普及在p2p系统。Napster、Gnu tella,和Bit Torre nt 允许节点共享多媒体数据内容通常直接彼此以分散的方式。这这些框架强调互操 作性和动态性,降低成本,资源共享特定的沟通和协作,聚集。然而,在这些平 台上,匿名,隐私问题和扩展性问题的考虑是次要的。最近,云计算环境的可靠性、服务的健壮性被(通常的访问来自客户机的浏览 器)来自于客户端,大规模生产的移动设备和通用计算机的访问检验。云计算的 服务观念概述为“基础架

4、构即服务”(云计算资源在云中可用),数据即服务(数据 在云中可用)和软件即服务(访问程序在云中执行)。从服务提供者的角度来看这提 供了相当大的好处(在硬件和管理的成本降低),整体资源的利用率,以及更好 的客户端接口。云环境的计算底层通常依赖于高效和弹性的数据中心架构,基于 虚拟化的计算和存储技术,高效利用商品硬件组件。目前的数据中心通常规模为 成千上万的节点,计算在云计算中经常跨越多个数据节点。新兴的基于云的环境与分布式数据中心托管的大型数据仓库,同时也为分析 提供强力的处理有效的并行/分布式算法的需要。潜在的社会经济效益的大数据 分析,与多样性的应用提出是很大的挑战,在本文的其他部分我们重点

5、强调数据 分析问题的规模和范围。我们描述了常用的硬件平台上执行分析应用的相关情 况,并考虑存储,处理,网络和能量。然后,我们专注于应用程序,即虚拟化技 术,运行时系统/执行环境和编程的软件基础模型。我们在多样性数据分析的应 用中,对健康和人类福利进行计算机建模与模拟得出一个简短的结论。1.1数据分析的规模和范围最近保守的研究估计,在2008年世界上的企业服务器系统已经能处理了9.57 X 1021字节的数据。这一数字预计将从这基础上每两年翻了一番。举一 个例子,沃尔玛的服务器每过一个小时就要处理超过一百万客户交易,这些信息 插入到数据库,存储超过2.5 PB的数据与167座国会图书馆的书籍数量

6、相当。 在欧洲核子研究中心的大型强子对撞机每年将产生大约15千兆字节的数据,足 以填满超过170万个双层DVD。每天,Facebook产生近500 TB的用户日志数 据和数百万TB的图像数据。每分钟,在YouTube有100小时的视频被上传, 有135000小时的视频被观看。每一秒,有超过28000个多媒体(MMS)消息被发 送。在2012大约4600万的移动应用程序被下载了,每一个应用程序收集到更 多的数据。推特的服务上有超过5亿5000万的活跃用户,他们每秒钟产生9100 条推特。eBay系统每一天处理超过100 PB的数据。在其他领域,波音喷气发动 机每运转30分钟能产生10 TB的操作

7、信息。其中,如果每一天有25000的航班, 仅仅数据传感器和机器生产的足迹信息的数据,在横渡一次大西洋将产生几百 TB的数据。这些例子只是惊鸿一瞥,来自不同数据源的生态系统的数据集在迅速扩张。 结构化数据(例如,金融,电子医学记录,政府统计),半结构化数据(例如, 文本,微博,电子邮件),非结构化(例如,音频和视频),和实时数据(如网络 痕迹,一般的监测日志)。如果有组织和适当的分析的话,所有这些应用都有可 能提供宝贵的见解。在当今广泛公认需要有效分析的大型数据集的应用程序。这 些应用包括医疗保健分析(例如,个性化基因组学),业务流程优化,和社会网 络为基础的建议。然而,预测表明数据增长将在很

8、大程度上超过了可预见的成本 改善,密度的存储技术,来处理它可用的计算能力和相关的能源熵。例如,在2002 和2009之间数据流量增长了 56倍,相比,相应的计算能力的增加是16倍(主 要是跟踪穆尔的法律)。相比之下,1998至2005数据中心的规模的增长是每年 173%。这些趋势推断,大概需要13年对于计算能力的增加才能满足需求。然而, 能源效率并不是像预期在同一时间内增加25倍。这产生几乎40倍的严重的不 匹配的增加在数据分析能源足迹上。负载特性。大数据工作负载的全面研究,可以帮助他们理解对硬件和软件设 计的影响。由数值计算的“七个小矮人” MEHUL, Shah等。试图定义一组数 据小矮人

9、”即关键数据处理内核用来提供当前和未来的数据中心的负载特性的报 道。在2010年借鉴一组广泛的负载特性,他们建立了一套分类尺寸(响应时间, 访问模式,工作组,数据类型,读与写,处理复杂度),并得出结论,五个工作 负载模型可以令人满意的覆盖以数据为中心的工作负载:(一)在PB级规模的 分布式排序,(二)在内存中的索引搜索,(三)推荐系统,具有较高的处理负载 和规则的通信模式,(四)顺序访问为基础的数据复制(五)视频上传和流交互 应答率的服务器。在联机分析处理(OLAP)的工作负载可以表示为(1)、(3)、(4)的组合、在线事务处理OLTP)的工作量只能部分捕获,在未来可能需要 另一个类别,在内存

10、索引和查询支持捕获一些这些负载特性的方面,但工作集因 为太大而不能放在内存中。1.2.设计考虑在未来,大的规模、范围和性质(负载特性)的大数据分析应用,能独立的 分别对硬件系统,软件系统和架构设计提供有趣的见解。对硬件的影响。数据访问模式和访问数据的频率(冷与热数据)可以驱动未 来的内存层次结构的优化:数据一般为热数据;但是随着时间的推移,它变成了 归档,冷的数据,最适合存储在NVM中。然而,有显着的例外的周期性或客户 流失的访问模式(季节相关主题,名人的标题),和热庞大的数据集(比较基因 组计算)应加以考虑。此外,潜在的维度之间的相关性出现能对硬件堆栈的进行 预测:一个视频,由于存在多种格式

11、或语言字幕,结果有许多版本,这些可以离 线生成和存储(因此需要足够的存储)或动态生成(代码转换和翻译调控)数据 给数据中心,或是在用户的设备上(客户端计算)带来计算压力。另外,可能要 重新考虑相对优先级的进展,在处理器设计的性能的考虑在当前的子系统的I/O 之上。存在这样一种替代的极端,一种选择将是考虑一个可能的“版本”层次 结构的计算支持数据存储的元素,而不是今天的设计存储层次结构为计算元素服 务。逐渐瓦解现有的存储层次结构的平滑过渡,这样进一步提供节省能源消耗。 了解工作负载也能在硬件识别可能会用于直接执行特殊用途处理单元。图形处理 器、现场可编程门阵列(FPGA),专业化的特定应用集成电

12、路(ASIC),和专用 的视频编码器/解码器都是值得考虑的。这样的硬件加速器大大减少能源消耗, 与通用处理相比较。这些可以集成在芯片上,导致的以数据为中心的家族是非对 称处理器。对软件的影响。软件系统、存储和计算的需要为了迎合一个相当大的问题: 数据规模的空间、工作负载的性质和其他应用程序的需求,像一致性、可用性和 分区容忍。大数据规模需求高度可扩展的分布式存储系统能够适应大量的数据, 有效率的入口和出口的机制;Apache的Flume就是这样的有利于数据收集的系 统。此外,这些存储系统应该支持高效查询的内存缓存和其他OLTP工作负载; 即使HDFS最近增加了支持缓存。不同工作负载需求各种各样

13、的计算特点引擎,流式处理更多的在线数据的查 询与事务支持。大数据分析通常允许对其定量的输出放宽精度约束,从而影响算法设计。随机 的算法应用原始的、昂贵的计算内核和最后牺牲精度(数据可证明的界限尺寸/ 精度权衡)。能源意识到计算内核可以减少能源足迹的分析计算,同时保留性能 与最小精度退化(能源/精度权衡)。2.数据分析的硬件平台我们现在考虑当前数据分析的硬件平台,以及这些平台将来如何发展。2.1内存/存储在传统的系统设计,磁盘用于数据持久化和DRAM内存更快的访问/磁盘缓 存。然而传统磁盘有移动的部件,很大程度上制约了他们的一生和建立对其访问 的时间界限。另一方面,DRAM芯片需要静态刷新电路独

14、立消费能源判断是否 有数据读/写活动。非易失性存储器(NVM)技术能解决这些缺点,并有望在未 来设计发挥重大作用。有几个以数据为中心的NVM应用程序的建议。基于Flash 的应用可以公开为块存储通过串行连接SCSI (SAS)和串行先进技术附件(SATA)或PCI Express接口甚至结合解散汇总内存提供降低成本效益解决方 案。其他类型的非易失性存储器如相变存储器(PCRAM)和忆阻器已提出将集 成作为字节寻址的内存在芯片上的存储器总线或直接堆放(3D堆)。非易失性存 储器也可以用于实现额外的缓存层次,或更换持久存储,从而用于各级促进减缓 内存崩溃的内存类型。这些建议的共同点是稳定的转变用于

15、持久性数据存储的内 存接口,理由是性能与简化。移动计算更接近数据也受到许多大型数据管理任务的一般结构,随后产生相 关框架。例如在经常使用的MapReduce范式中,数据被分区在可用的节点和任 务计划,这样配置与数据操作的数量有关。任务和相关数据的搭配也很注重节约 能源。最近的毫微级储存方案主张计算与持久性数据存储的搭配。这是让人想起 过去的想法,活跃存储,增强磁盘控制器处理特殊计算任务,是当时应用程序范围 有限的原始提案。从进化的角度来看,磁盘仍然具有很高的成本。因此,他们不太可能完全被 取代在之后的一段时间。NVM技术应被视为近期未来设计的有吸引力的组成部 分。在这方面,我们还应该考虑到变化

16、的应用将引发在总体的软件的栈的变化。 例如,当前的文件系统是在以毫秒的延迟优化。NVMs提供延迟减少约三个数量 级在这段时间(微秒)。有的建议基于闪存的固态硬盘(SSD)支持key-value 存储抽象,有利于它的工作负载。还有其他人建议固态硬盘作为传统硬盘的缓存 组织(混合设计)。理想情况下NVMs应该暴露在的持久性指令集级别(ISA),操 作系统可以使用他们有效(例如,通过重新设计的部件,承担记忆波动或提供给 上层,放置档案资料节能NVM模块API。)的数据。另一方面,持久的记忆能力 将降低分离性;可以通过持久的内存交换解决这个问题。从算法的角度设计和相 关的数据结构,non-volati

17、lity可以推动替代,优化设计和索引的实现结构,键值存 储数据库和文件系统,所有大数据分析的主要组件。2.2网络资源对于数据分析主要考虑设计标准通信协议栈的链路,网络和传输层的设计与互操作性的不 同的技术和制造商的组件。在这个设计中链路层是不可靠的,因此拥塞或不可靠 的通信信道会造成数据包丢失。为了补救,传输层在最后要求让步传播,从而影响 带宽。然而,一个典型的数据中心网络环境是完全不同的广域网。首先,它的信 道可以被认为是无损的,这一假设应该理想地反映在它实现的流动机制。在一个 单一的行政控制下,它大多是均匀的,所以向后兼容已经部署的协议不是问题。 负载平衡器和应用程序代理从外部通信所以没有

18、单独的内部交通与常规TCP公 平性问题。在排队的情况下,往返时间RTT)可小于250微秒。应用程序同时 需要非常高的带宽和非常低的延迟。此外,很少有统计复用,所以一个流可以主 导一个特定的路径。数据中心网络中的一个特殊性能瓶颈是在许多大型网络应用程序广泛使用 的分区/总设计模式:从更高层次的应用程序的请求被分解成块,并在较低层的 代理聚集,查看这些代理的反应,然后汇总产生的结果。由此可见,数据以传回 多对一的方式遍历一个瓶颈环节。随着并发者数量的增加,吞吐量的应用水平在 接收时比容量低几个数量级。例如,这可能发生在MapReduce工作的shuffle 阶段,当中间的键-值对多映射转移到适当的

19、reducers。最近的一个变种TCP, TCP数据中心(DCTCP),解决了这个Fork-Join网络交通结构,利用工程变更 协议在大多数商品交换中实现的扩展,允许端到端的网络拥塞通知丢弃数据包。 相反,未来的性能问题可能会带动开关设备的定制。注意,处理特定网络的缺点的细节与选择的协议基本上是相关的。这个基本 的竞争者是以太网和无线带宽。无线带宽是一种能量比例网络,这个属性让这种 技术的优势,因为能源效率是一个主要的设计目标在未来数据中心。预计这两个 选项将在即将到来的未来会成为应用程序为基础。关于互连技术,光学和电气光学设计有着显着的优点。然而,由于光电转换代 表能源效率的瓶颈,我们的目标

20、是使用一个全光开关结构。这种转变将被首先消 除了网络接口控制器(NIC),所以网络处理器将直接对话;同样也可以使光成为处 理到内存的路径,最近发布的第一个平行光收发模块原型具有每秒传输一个TB 信息能力,由IBM清楚地识别大数据分析作为目标市场,强调设备的能源效率。 英特尔还计划推出一个成本有效的光学互连的雷电接口电缆(已准备在苹果产品 中使用)。作为一种混合电/光开关的一个例子,太阳神是一个体系结构有显着减 少的,布线,成本和功耗的开关元件。它是一个二级多根树的开关和核心交换机, 其中的核心包括传统的电分组交换机和微机电系统为基础的光电路开关。包括电 气交换机的原因是需要处理在聚集的交通需求

21、之间的不同对突发性证明:支持这 一类型的交通所需的(光)电路的数目将是禁止的,和电分组交换将是可取的。2.3大数据分析中的能量问题能量均衡是云计算的一个重要目标系统和组件。大多数数据中心操作超过一 半的峰值负载,虽然它们的效率最大化在峰值负载。能量比例意味着功率消耗与 负载之间一个线性关系。这是可以实现的明确地使用能量比例的设备,或仅为计 算过程中绝对必要的组件。更具体地说,工作整合通常适用于粗一像单个服务器 机器一样的细粒度组件,这种方法的适用性很大程度上取决于类型的计算:批量 处理产生理想的功率减少但在线或并行应用程序不允许这样的能量储蓄计划。请 注意能量相称性不是名义上的光网络技术的特点

22、(静态激光功率消费)。然而,能量优化与系统在更大的部署中更容易节省电力,特别是在输送电子 设备之前的能量,管道移动或存储数据处理。冷却功率交付在大多数情况下,适 合于能源的设计和实施。安德烈等人因子数据中心的效率为三个计算设备,服务 器的能源转换,执行计电子元件的效率,和计算的本身。尽管第三项是最相关的 我们的讨论,前两个因素每瓦特“生产性”消耗2.2瓦的能量。以一个更整体的方法 来优化第三项。巴利加等人。考虑优化能源消费在全球云系统首先分析能耗概况 的运输,储存,并在各种存储即服务绘制场景服务器,软件作为一种服务,和处 理作为一个云计算服务方面。在一个更细的粒度下,已经提出了减少CPU的功耗

23、:如动态电压和频率缩 放(DVFS),关闭功能单元的选择(占到大约三分之一的能量到硬件子系统)。 然而,静态功耗和性能要求的基本被限制。能源方面的考虑促使不对称设计建议 (专业芯片多处理器,多核处理器);hardavellas等人。42 填充一个大的,多 样化的应用程序特定的异构内核的骰子,可以动态禁用所有,但最适用于特定的 应用程序的核心(导致在黑暗的硅点),可以达到峰值性能和能源效率。3.虚拟化技术的虚拟化是一个云部署背后的关键的概念来协调软件和硬件之间的天然鸿沟。 它的基本组成部分是虚拟机监控器(V MM), 个软件抽象层,使分区的底层硬 件平台成一个或多个虚拟机80 。最重要的是(i)

24、应该运行未修改现有的软件 在每个虚拟机,(ii)优势指令的子集必须直接在处理器上执行(iii) VMM在系 统资源的完全控制(经典虚拟化)。虚拟化是在20世纪60年代末主机上下文的技术开发,最初,高性价比的机 器随后的增殖,分享,取决于虚拟化资源的需要,抓住存在,在某种程度上,现 代的硬件本身不支持这种模式。然而,它提供的优点,特别是在可靠性,安全和 管理硬件成为一个池资源,以运行任意服务的需求,使其使用以数据为中心,大 数据分析的多租户环境中尤为重要。具体而言,VMM提供的虚拟机的封装,从 而有利于负载均衡的任务,虚拟机器复制,储存和运输,暂停/恢复方案,硬件 和软件/配置故障处理。此外,V

25、MM虚拟墙之间提供隔离多台虚拟机的多个虚拟 机的多路复用同样的硬件变得透明,从而产生了戏剧性的成本效益。安全性和可 靠性的优点自然遵循由于故障是由于程序错误或安全妥协是孤立于其它的虚拟 机,问题不宣传机器执行相同的VMM下。所有硬件子系统(中央处理器、内存、输入/输出、网络等)都可以在原则上 进行虚拟化。目前,CPU虚拟化相对成熟,其次有趣的改进是,虚拟内存管理 单元(MMU)的创新和研究的建议,I / O子系统和网络。如果它支持直接执行基本的VMM技术的CPU架构是虚拟的,虚拟机在真 实的机器上执行;但是VMM有CPU的极限控制。这通常是通过运行虚拟机的 特权和非特权在CPU的特权模式的代码

26、和保留VMM的特权模式执行;当虚拟 机试图执行特权操作CPU陷入VMM,从而模拟它的更新虚拟机状态。然而, 无处不在的x86架构不提供安全透明的所有特权操作语义的陷阱。因此,各种 技术已被提出。在半虚拟化的操作系统(OS)在虚拟机执行修补与设计适当的 取代非虚拟操作,虚拟化的等价物。然而,改变操作系统的源代码也可能由于许 可问题,它可能产生的不兼容。一个替代的方法,二进制翻译器运行非虚拟,特 权的部分动态补丁“offending”指令,同时保留在高速缓存块的优化目的的翻译。内存管理,VMM维护每个虚拟机的内存管理数据结构,其影子页表的影子。 VMM更新操作系统的变化反映出这些结构,并建立映射到

27、实际的页面在硬件内 存中。这里的挑战包括使VMM利用高效分页进出和跨多个虚拟机,由一个单一 的VMM监测共享相同的物理页面的操作系统的内部状态。此共享将均匀池(在 用软件配置)的虚拟机执行,在多核处理器的芯片,将来大数据分析的工作量 尤为重要。I/O虚拟化,至少基于x86架构的需求,将代码直接包含与目前存在的各装 置的VMM层。这是一个解决托管架构:VMM运行在主机操作系统和应用程序 上提出任何I/O请求从来宾操作系统。托管架构可能不是规模在服务器环境的高 性能网络和磁盘子系统。因此,VMM执行源操作,利用认证的开源驱动程序来 解决选择。虚拟化是一个广义的概念,讨论的话题不局限于系统虚拟化。大

28、数据分析, 高级语言虚拟化也是一个相关的概念。最近几次目睹了虚拟的广泛采用机器(比 如JVM和CLR)作为许多编译目标编程语言。显而易见的优势是立即在虚拟机 和库的共享优化一套广泛的语言。有趣的是,这些优化包括引入新的(软件)操 作码,主要是服务于需要高生产力的语言移植到这些运行时,例如,动态类型的 脚本语言或使用实时(JIT)技术,让人想起硬件辅助的虚拟化和二进制翻译提。 考虑到程序员未来的开发大数据分析软件的生产力是一个重要的成本在这个方 向上的进步是重要的。4结论数据操作的现代应用程序正在以惊人的速度量增长,并且给并行和分布式计 算平台带来了有趣的挑战。这些挑战从构建存储系统,可以容纳这

29、些来自地理上 的分布式源存储系统大型数据集收集到的数据,对数据运行接受多样化的计算范 围。资源和语义约束,如啤酒瓶盖定理,需要处理每个应用程序的基础上,开发 应用的和启发式的这些问题。最近努力应对这些挑战可扩展的分布式存储系统 (文件系统,键值存储,等等),可以处理多种计算模式执行引擎。在未来,随 着数据规模的不断增长,这些应用程序的域的不同,这些系统将需要适应应用程 序特定的优化。为了解决高度分散的性质数据,本系统可以将一些数据在源头计 算,避免昂贵的数据迁移成本。最近的硬件进步对实现分布式软件平台所需的大数据分析发挥了重要作用。 未来的硬件,处理器技术的创新,较新的内存/存储或层次结构,网络架构(软 件定义的网络)将继续推动软件创新。这些系统的设计重点将是在移动数据从存 储到处理器或存储/计算节点之间的分布式环境中花费的时间最小化。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!