大数据架构和模式42

上传人:ghjfj****21hg 文档编号:160103395 上传时间:2022-10-10 格式:DOCX 页数:71 大小:941.97KB
收藏 版权申诉 举报 下载
大数据架构和模式42_第1页
第1页 / 共71页
大数据架构和模式42_第2页
第2页 / 共71页
大数据架构和模式42_第3页
第3页 / 共71页
资源描述:

《大数据架构和模式42》由会员分享,可在线阅读,更多相关《大数据架构和模式42(71页珍藏版)》请在装配图网上搜索。

1、大数据架构和模式(一): 大数据分类和架构简介1.本文对大数据做了哪些分类?2.对数据进行分类后,如何将它与合适的大数据模式匹配?如何将大数据分分为不同的类类别大数据问题的分分析和解决通通常很复杂。大大数据的量、速速度和种类使使得提取信息息和获得业务务洞察变得很很困难。以下下操作是一个个良好的开端端:依据必须须处理的数据据的格式、要要应用的分析析类型、使用用的处理技术术,以及目标标系统需要获获取、加载、处处理、分析和和存储数据的的数据源,对对大数据问题题进行分类。概述大数据可通过许许多方式来存存储、获取、处处理和分析。每每个大数据来来源都有不同同的特征,包包括数据的频频率、量、速速度、类型和和

2、真实性。处处理并存储大大数据时,会会涉及到更多多维度,比如如治理、安全全性和策略。选选择一种架构构并构建合适适的大数据解解决方案极具具挑战,因为为需要考虑非非常多的因素素。这个 “大数据据架构和模式式” 系列提供供了一种结构构化和基于模模式的方法来来简化定义完完整的大数据据架构的任务务。因为评估估一个业务场场景是否存在在大数据问题题很重要,所所以我们包含含了一些线索索来帮助确定定哪些业务问问题适合采用用大数据解决决方案。从分分类大数据到到选择大数据据解决方案如果您花时间研研究过大数据据解决方案,那那么您一定知知道它不是一一个简单的任任务。本系列列将介绍查找找满足您需求求的大数据解解决方案所涉涉

3、及的主要步步骤。我们首先介绍术术语 “大数据” 所描述的的数据类型。为为了简化各种种大数据类型型的复杂性,我我们依据各种种参数对大数数据进行了分分类,为任何何大数据解决决方案中涉及及的各层和高高级组件提供供一个逻辑架架构。接下来来,我们通过过定义原子和和复合分类模模式,提出一一种结构来分分类大数据业业务问题。这这些模式有助助于确定要应应用的合适的的解决方案模模式。我们提提供了来自各各行各业的示示例业务问题题。最后,对对于每个组件件和模式,我我们给出了提提供了相关功功能的产品。第 1 部分将将介绍如何对对大数据进行行分类。本系系列的后续文文章将介绍以以下主题: 定义大数据解决决方案的各层层和组件

4、的逻逻辑架构 理解大数据解决决方案的原子子模式 理解用于大数据据解决方案的的复合(或混混合)模式 为大数据解决方方案选择一种种解决方案模模式 确定使用一个大大数据解决方方案解决一个个业务问题的的可行性 选择正确的产品品来实现大数数据解决方案案依据大数据类型型对业务问题题进行分类业务问题可分类类为不同的大大数据问题类类型。以后,我我们将使用此此类型确定合合适的分类模模式(原子或或复合)和合合适的大数据据解决方案。但但第一步是将将业务问题映映射到它的大大数据类型。下下表列出了常常见的业务问问题并为每个个问题分配了了一种大数据据类型。按类类型对大数据据问题分类,更更容易看到每每种数据的特特征。这些特

5、特征可帮助我我们了解如何何获取数据,如如何将它处理理为合适的格格式,以及新新数据出现的的频率。来自自不同来源的的数据具有不不同的特征;例如,社交交媒体数据包包含不断传入入的视频、图图像和非结构构化文本(比比如博客文章章)。表 1. 不同同类型的大数数据业务问题题我们依据这些常常见特征来评评估数据,下下一节将详细细介绍这些特特征: 内容的格式 数据的类型(例例如,交易数数据、历史数数据或主数据据) 将提供该数据的的频率 意图:数据需要要如何处理(例例如对数据的的临时查询) 处理是否必须实实时、近实时时还是按批次次执行。使用大数据类型型对大数据特特征进行分类类按特定方向分析析大数据的特特征会有所帮

6、帮助,例如以以下特征:数数据如何收集集、分析和处处理。对数据据进行分类后后,就可以将将它与合适的的大数据模式式匹配:1、分析类型 对数据据执行实时分分析还是批量量分析。请仔仔细考虑分析析类型的选择择,因为这会会影响一些有有关产品、工工具、硬件、数数据源和预期期的数据频率率的其他决策策。一些用例例可能需要混混合使用两种种类型:2、欺诈检测;分析必须实实时或近实时时地完成。3、针对战略性性业务决策的的趋势分析;分析可采用用批量模式。4、处理方法 要应用用来处理数据据的技术类型型(比如预测测、分析、临临时查询和报报告)。业务务需求确定了了合适的处理理方法。可结结合使用各种种技术。处理理方法的选择择,

7、有助于识识别要在您的的大数据解决决方案中使用用的合适的工工具和技术。5、数据频率和和大小 预计有多少少数据和数据据到达的频率率多高。知道道频率和大小小,有助于确确定存储机制制、存储格式式和所需的预预处理工具。数数据频率和大大小依赖于数数据源: 按需分析,与社社交媒体数据据一样 实时、持续提供供(天气数据据、交易数据据) 时序(基于时间间的数据)6、数据类型 要处理理数据类型 交易、历历史、主数据据等。知道数数据类型,有有助于将数据据隔离在存储储中。7、内容格式(传传入数据的格格式)结构化化(例如 RRDMBS)、非非结构化(例例如音频、视视频和图像)或或半结构化。格格式确定了需需要如何处理理传

8、入的数据据,这是选择择工具、技术术以及从业务务角度定义解解决方案的关关键。8、数据源 数据的来来源(生成数数据的地方),比比如 Webb 和社交媒媒体、机器生生成、人类生生成等。识别别所有数据源源有助于从业业务角度识别别数据范围。该该图显示了使使用最广泛的的数据源。9、数据使用者者 处理的的数据的所有有可能使用者者的列表: 业务流程 业务用户 企业应用程序 各种业务角色中中的各个人员员 部分处理流程 其他数据存储库库或企业应用用程序10、硬件 将在其上上实现大数据据解决方案的的硬件类型,包包括商用硬件件或最先进的的硬件。理解解硬件的限制制,有助于指指导大数据解解决方案的选选择。图 1 描绘用用

9、于分类大数数据的各种类类别。定义大大数据模式的的关键类别已已识别并在蓝蓝色方框中突突出显示。大大数据模式(将将在下一篇文文章中定义)来来自这些类别别的组合。图 1. 大数数据分类结束语和致谢在本系列剩余部部分中,我们们将介绍大数数据解决方案案的逻辑架构构和各层,从从访问到使用用大数据。我我们将提供数数据源的完整整列表,介绍绍专注于大数数据解决方案案的每个重要要方面的原子子模式。我们们还将介绍复复合模式,解解释可如何结结合使用原子子模式来解决决特定的大数数据用例。本本系列最后将将提供一些解解决方案模式式,在广泛使使用的用例与与各个产品之之间建立对应应关系。感谢 Rakeesh R. Shinnd

10、e 在定义本系系列的整体结结构上提供的的指导,以及及对本系列的的审阅和提供供的宝贵评论论。大数据架构和模模式(二)如如何知道一个个大数据解决决方案是否适适合您的组织织1.如何判断大大数据问题是是否需要大数数据解决方案案?2.如何评估估大数据解决决方案的可行行性?3.可通过大大数据技术获获取何种洞察察?4.是否所有有大数据都存存在大数据问问题?简介在确定投资大数数据解决方案案之前,评估估可用于分析析的数据;通通过分析这些些数据而获得得的洞察;以以及可用于定定义、设计、创创建和部署大大数据平台的的资源。询问问正确的问题题是一个不错错的起点。使使用本文中的的问题将指导导您完成调查查。答案将揭揭示该数

11、据和和您尝试解决决的问题的更更多特征。尽管组织一般情情况对需要分分析的数据类类型有一些模模糊的理解,但但具体的细节节很可能并不不清晰。毕竟竟,数据可能能具有之前未未发现的模式式的关键,一一旦识别了一一种模式,对对额外分析的的需求就会变变得很明显。要要帮助揭示这这些未知的未未知信息,首首先需要实现现一些基本用用例,在此过过程中,可以以收集以前不不可用的数据据。构建数据据存储库并收收集更多数据据后,数据科科学家就能够够更好地确定定关键的数据据,更好地构构建将生成更更多洞察的预预测和统计模模型。组织可能也已知知道它有哪些些信息是不知知道的。要解解决这些已知知的未知,组组织首先必须须与数据科学学家合作

12、,识识别外部或第第三方数据源源,实现一些些依赖于此外外部数据的用用例。本文首先尝试回回答大多数 CIO 在在实施大数据据举措之前通通常会提出的的问题,然后后,本文将重重点介绍一种种将帮助评估估大数据解决决方案对组织织的可行性的的基于维度的的方法。我的大数据问题题是否需要大大数据解决方方案?大数据,曾几何何时似乎很少少出现组织多半会选择择以增量方式式实现大数据据解决方案。不不是每个分析析和报告需求求都需要大数数据解决方案案。如果对于于对大型数据据集或来自多多个数据源的的临时报告执执行并行处理理的项目,那那么可能没有有必要使用大大数据解决方方案。随着大数据技术术的到来,组组织会问自己己:“大数据是

13、否否是我的业务务问题的正确确解决方案,或或者它是否为为我提供了业业务机会?”大数据中是是否隐藏着业业务机会?以以下是我从 CIO 那那里听到的一一些典型问题题: 如果我使用大数数据技术,可可能会获得何何种洞察和 业务价值? 它是否可以扩充充我 现有的数据据仓库? 我如何评估 扩扩展当前环境境 或采用新解决决方案的成本本? 对我现有的 IIT 治理 有何影响? 我能否 以增量量方式实现 大数据解决决方案? 我需要掌握哪些些 具体的技能能 来理解和分分析构建和维维护大数据解解决方案的需需求? 我的 现有企业业数据 能否用于提提供业务洞察察? 来自各种来源的的 数据的复杂杂性 在不断增长长。大数据解

14、解决方案对我我有帮助吗?维度可帮助评估估大数据解决决方案的可行行性为了回答这些问问题,本文提提出了一种依依据下图中所所示的维度来来评估大数据据解决方案的的可行性的结结构化方法。 来自可通过分析析数据获得的的洞察的业务务价值 针对新数据来源源和数据使用用方式的治理理考虑因素 拥有相关技能和和赞助商的承承诺的人员 捕获的数据量 各种各样的数据据源、数据类类型和数据格格式 生成数据的速度度,需要对它它执行操作的的速度,或者者它更改的速速度 数据的真实性,或或者数据的不不确定性和可可信赖性对于每个维度,我我们都给出了了一些关键问问题。依据业业务上下文,为为每个维度分分配一个权重重和优先级。评评估会因业

15、务务案例和组织织的不同而有有所不同。您您可以考虑在在与相关的业业务和 ITT 利益相关关者召开的一系系列研讨会中中探讨这些问问题。业务价值:可通通过大数据技技术获取何种种洞察?许多组织想知道道,他们在寻寻找的业务洞洞察能否通过过大数据解决决方案解决。没没有权威的指指南能够用来来定义可从大大数据获取的的洞察。具体体场景需要由由组织识别,而而且这些场景景在不断演变变。在确定和和识别在实现现后会给企业业带来重大价价值的业务用用例和场景的的过程中,数数据科学家起起着至关重要要的作用。数据科学家必须须能够理解关关键绩效指标标,对数据应应用统计算法法和复杂算法法来获得一个个用例列表。用用例因行业和和业务不

16、同而而有所不同。研研究市场竞争争对手的行动动、发挥作用用的市场力量量,以及客户户在寻找什么么,会很有帮帮助。下表给给出了来自各各行各业的用用例示例。表 1. 来自自各行各业的的示例用例潜在的客户正在在社交网络和和评论站点上上生成大量新新数据。在企企业内,随着着客户切换到到在线渠道来来执行业务和和与公司交互互,交易数据据和 Webb 日志与日日俱增。确定数据的优先先级首先为企业内存存在的数据创创建一个清单单。识别内部部系统和应用用程序中存在在的数据以及及从第三方传传入的数据。如如果业务问题题可使用现有有数据解决,那那么有可能不不需要使用来来自外部来源源的数据。请考虑构建一个个大数据解决决方案的成

17、本本,并权衡它它与带给业务务部门的新洞洞察的价值。在有关现有客户户的归档数据据的上下文中中分析此新数数据时,业务务人员将获得得对新业务机机会的洞察。主要满足以下条条件,大数据据可提供可行行的解决方案案: 从数据中开发的的洞察所生成成的价值,值值得在大数据据解决方案中中投入的资本本成本 面向客户的场景景可证明来自自洞察的潜在在价值评估通过大数据据解决方案获获取的业务价价值时,请考考虑您当前的环境境是否可扩展展并权衡此投资的的成本。我当前的环境能能否扩展?询问以下问题,确确定您能否扩扩充现有的数数据仓库平台台?1. 当前的数据集是是否非常大,是是否达到了 TB 或 PB 数量量级?2. 现有的仓库

18、环境境是否包含生生成或获取的的所有 数据的存储储库?3. 是否有大量冷数数据或人们很很少接触的数数据未分析,可可以通过分析析这些数据获获得业务洞察察?4. 您是否需要丢弃弃数据,因为为无法存储或或处理它?5. 您是否希望能够够在复杂且大大量的数据上上执行数据探探索?6. 您是否希望能够够对非操作数数据执行分析析?7. 您是否有兴趣使使用数据执行行传统和新类类型的分析?8. 您是否试图延迟迟对现有数据据仓库的升级级?9. 您是否在寻求途途径降低执行行分析的总体体成本?如果任何这些问问题的答案是是 “是”,那么您就就可以探索扩扩充现有数据据仓库环境的的方式。扩展我当前的环环境的成本是是多少?扩展现

19、有数据仓仓库平台或 IT 环境境与实现大数数据解决方案案的成本和可可行性取决于于: 现有工具和技术术 现有系统的可伸伸缩性 现有环境的处理理能力 现有平台的存储储能力 执行的治理和策策略 现有 IT 应应用程序的异异构性 组织中存在的技技术和业务技技能。它还依赖于将从从新数据来源源收集的数据据量、业务用用例的复杂性性、处理的分分析复杂性,以以及获取数据据和拥有恰当当技能集的人人员的成本。现现有的资源池池能否开发新新的大数据技技能,或者是是否可从外部部雇佣拥有稀稀缺技能的人人员?请注意,大数据据举措会对其其他正在实施施的项目产生生影响。从新新的来源获取取数据具有很很高的成本。您您首先应当识识别系

20、统和应应用程序内部部存在的数据据,以及目前前收到的第三三方数据,这这一点很重要要。如果业务务问题可以使使用现有数据据解决,那么么有可能不需需要使用来自自外部来源的的数据。在生成新工具和和应用程序之之前,请评估估组织的应用用程序组合。例例如,一个普普通的 Haadoop 平台可能无无法满足您的的需求,您可可能必须购买买专业的工具具。或者相对对而言,Haadoop 的商业版本对对当前用例而而言可能很昂昂贵,但可能能需要用作长长期投资来支支持一个战略略性的大数据据平台。考虑虑大数据工具具和技术需要要的基础架构构、硬件、软软件和维护的的成本。对数据的治理和和控制:对现现有的 ITT 治理有何何影响?在

21、决定是否实现现一个大数据据平台时,组组织可能会查查看新数据源源和新的数据据元素类型,而而这些信息当当前的所有权权尚未明确定定义。一些行行业制度会约约束组织获取取和使用的数数据。例如,在在医疗行业,通通过访问患者者数据来从中中获取洞察是是否合法?类类似的规则约约束着所有行行业。除了 IT 治理理问题之外,组组织的业务流流程可能也需需要重新定义义和修改,让让组织能够获获取、存储和和访问外部数数据。请在您的情况的的上下文中考考虑以下治理理相关问题:安全性和隐私 为了与当当地法规一致致,解决方案案可以访问哪哪些数据?可可以存储哪些些数据?哪些些数据应在移移动过程中加加密?静止数数据呢?谁可可以查看原始

22、始数据和洞察察?数据的标准化 是否有标标准约束数据据?数据是否否具有专用的的格式?是否否有部分数据据为非标准格格式?数据可用的时段段 数据在一一个允许及时时采取操作的的时段是否可可用?数据的所有权 谁拥有该该数据?解决决方案是否拥拥有适当的访访问权和权限限来使用数据据?允许的用法:允允许如何使用用该数据?我能否增量地实实现大数据解解决方案?大数据解决方案案可以采用增增量方式实现现。明确地定定义业务问题题的范围,并并以可度量的的方式设置预预期的业务收收入提升,这这样做会很有有帮助。对于基础业务案案例,请仔细细列出问题的的范围和解决决方案带来的的预期收益。如如果该范围太太小,业务收收益将无法实实现

23、,如果范范围太大,获获得资金和在在恰当的期限限内完成项目目就会很有挑挑战性。在项项目的第一次次迭代中定义义核心功能,以以便能够轻松松地赢得利益益相关者的信信任。人员:是否已有有恰当的技能能并调整了合合适的人员?需要特定的技能能来理解和分分析需求,并并维护大数据据解决方案。这这些技能包括括行业知识、领领域专长,以以及有关大数数据工具和技技术的技术知知识。拥有建建模、统计、分分析和数学方方面的专业经经验的数据科科学家,是任任何大数据举举措成功的关关键。在实施一个新的的大数据项目目之前,确保保已安排了合合适的人员: 您是否获得利益益相关者和其其他愿意投资资该项目的业业务赞助者的的支持? 是否拥有熟悉

24、该该领域、能分分析大量数据据、而且能识识别从数据生生成有意义且且有用的洞察察的途径的数数据科学家?是否拥有可用于于获取洞察的的现有数据?所有组织都拥有有大量未用于于获取业务洞洞察的数据。这这些数据包括括日志文件、错错误文件和来来自应用程序序的操作数据据。不要忽略略此数据,它它是宝贵信息息的潜在来源源。数据复杂性是否否在增长?查找数据复杂性性增长的线索索,尤其是在在数据量、种种类、速度和和真实性方面面。数据量是否已增增长?如果满足以下条条件,您可能能希望考虑大大数据解决方方案: 数据大小达到 PB 和 EB 级,而而且在不久的的将来,它们们可能增长到到 ZB 级别别。 这一数据量给使使用传统方法

25、法(比如关系系数据库引擎擎)存储、搜搜索、共享、分分析和可视化化数据带来的的技术和经济济挑战。 数据处理目前可可使用可用硬硬件上的大规规模并行处理理能力。数据种类是否已已增多?如果满足以下条条件,各种各各样的数据可可能都需要大大数据解决方方案: 数据内容和结构构无法预期或或预测。 数据格式各不相相同,包括结结构化、半结结构化和非结结构化数据。 用户和机器能够够以任何格式式生成数据,例例如:Miccrosofft Woord 文件件、Micrrosoftt Exceel 电子子表格、Miicrosooft PoowerPooint 演演示文稿、PPDF 文件件、社交媒体体、Web 和软件日志志、

26、电子邮件件、来自相机机的照片和视视频、信息感感知的移动设设备、空中感感知技术、基基因组和医疗疗记录。 以前没有为了获获得洞察而被被挖掘的数据据来源不断地地在产生新的的数据类型。 领域实体在不同同的上下文中中具有不同的的含义。数据的速度是否否已增长或改改变?考虑您的数据是是否: 在快速更改,必必须立即响应应 拥有过多的传统统技术和方法法,它们不再再足以实时处处理传入的数数据您的数据是否值值得信赖?如果满足以下条条件,那么请请考虑使用大大数据解决方方案: 数据的真实性或或准确性未知知。 数据包含模糊不不清的信息。 不清楚数据是否否完整。如果数据的量、种种类、速度或或真实性具有有合理的复杂杂性,那么

27、有有可能会适合合地采用大数数据解决方案案。对于更复复杂的数据,需需要评估与实实现大数据解解决方案关联联的任何风险险。对于不太太复杂的数据据,则应该评评估传统的解解决方案。是否所有大数据据都存在大数数据问题?不是所有大数据据情形都需要要大数据解决决方案。请在在市场中寻找找线索。竞争争对手在做什什么?哪些市市场力量在发发挥作用?客客户想要什么么?使用本文中的问问题,帮助确确定大数据解解决方案是否否适合于您的的业务情形和和您需要的业业务洞察。如如果认为是时时候实施大数数据项目了,请请阅读下一篇篇文章,其中中会介绍如何何定义一个逻逻辑架构,而而且将会确定定您的大数据据解决方案需需要的关键组组件。作者:

28、 Divvakar等等来源: DeveeloperrWorkssEnd.大数据架构和模模式(三)理理解大数据解解决方案的架架构层问题导读1.大数据解决决方案通常哪哪些逻辑层组组成?2.本文讲了大大数据来源有有哪些?3.大数据治理理包含哪些因因素?概述这个 “大数据据架构和模式式” 系列的 第 2 部分 介绍了一种种评估大数据据解决方案可可行性的基于于维度的方法法。如果您已已经使用上一一篇文章中的的问题和提示示分析了自己己的情况,并并且已经决定定开始构建新新的(或更新新现有的)大大数据解决方方案,那么下下一步就是识识别定义项目目的大数据解解决方案所需需的组件。大数据解决方案案的逻辑层逻辑层提供了

29、一一种组织您的组件件的方式。这这些层提供了了一种方法来来组织执行特特定功能的组组件。这些层层只是逻辑层层;这并不意意味着支持每每层的功能在在独立的机器器或独立的进进程上运行。大大数据解决方方案通常由以以下逻辑层组组成:1、大数据来源源2、数据改动 (masssagingg) 和存储储层3、分析层4、使用层大数据来源:考考虑来自所有有渠道的,所所有可用于分分析的数据。要要求组织中的的数据科学家家阐明执行您您需要的分析析类型所需的的数据。数据据的格式和起起源各不相同同:格式 结构化化、半结构化化或非结构化化。速度和数据量 数据到达达的速度和传传送它的速率率因数据源不不同而不同。收集点 收集集数据的

30、位置置,直接或通通过数据提供供程序,实时时或以批量模模式收集数据据。数据可能能来自某个主主要来源,比比如天气条件件,也有可能能来自一个辅辅助来源,比比如媒体赞助助的天气频道道。数据源的位置 数据源可可能位于企业业内或外部。识别您具有有限访问权的数据,因为对数据的访问会影响可用于分析的数据范围。数据改动和存储储层:此层负责从数据据源获取数据据,并在必要要时,将它转转换为适合数数据分析方式式的格式。例例如,可能需需要转换一幅幅图,才能将将它存储在 Hadooop Disstribuuted FFile SSystemm (HDFFS) 存储储或关系数据据库管理系统统 (RDBBMS) 仓仓库中,以

31、供供进一步处理理。合规性制度和治治理策略要求求为不同的数数据类型提供供合适的存储储。分析层:分析层层读取数据改改动和存储层层整理 (ddigestt) 的数据据。在某些情情况下,分析析层直接从数数据源访问数数据。设计分分析层需要认认真地进行事事先筹划和规规划。必须制制定如何管理理以下任务的的决策: 生成想要的分析析 从数据中获取洞洞察 找到所需的实体体 定位可提供这些些实体的数据据的数据源 理解执行分析需需要哪些算法法和工具。使用层:此层使用了分析析层所提供的的输出。使用用者可以是可可视化应用程程序、人类、业业务流程或服服务。可视化化分析层的结结果可能具有有挑战。有时时,看看类似似市场中的竞竞

32、争对手是如如何做的会有有所帮助。每一层包含多种种组件类型,下下面将会介绍绍这些类型。图 1. 逻辑辑和垂直层的的组件该图显示了逻辑辑和垂直层的的组件大数据来源此层包含所有必必要的数据源源,提供了解解决业务问题题所需的洞察察。数据是结结构化、半结结构化和非结结构化的数据据,而且来自自许多来源:1、企业遗留系系统这些系统是是企业应用程程序,执行业业务需要的分分析并获取需需要的洞察: 客户关系管理系系统 结算操作 大型机应用程序序 企业资源规划 Web 应用程程序开发Web 应用程程序和其他数数据来源扩充充了企业拥有有的数据。这这些应用程序序可使用自定定义的协议和和机制来公开开数据。2、数据管理系系

33、统 (DMMS) 数据管理理系统存储逻逻辑数据、流流程、策略和和各种其他类类型的文档: Microsooft EExcel 电子表格格 Microsooft Woord 文档档这些文档可以转转换为可用于于分析的结构构化数据。文文档数据可公公开为领域实体,或或者数据改动动和存储层可可将它转换为为领域实体。3、数据存储 数据存储储包含企业数数据仓库、操操作数据库和和事务数据库库。此数据通通常是结构化化数据,可直直接使用或轻轻松地转换来来满足需求。这这些数据不一一定存储在分分布式文件系系统中,具体体依赖于所处处的上下文。4、智慧设备 智慧设备备能够捕获、处处理和传输使使用最广泛的的协议和格式式的信息

34、。这这方面的示例例包括智能电电话、仪表和和医疗设备。这这些设备可用用于执行各种种类型的分析析。绝大多数数智慧设备都都会执行实时时分析,但从从智慧设备传传来的信息也也可批量分析析。5、聚合的数据据提供程序 这些提供供程序拥有或或获取数据,并并以复杂的格格式和所需的的频率通过特特定的过滤器器公开它。每每天都会产生生海量的数据据,它们具有有不同的格式式,以不同的的速度生成,而而且通过各种种数据提供程程序、传感器器和现有企业业提供。其他数据源 有许多数据据来自自动化化的来源:地理信息: 地图 地区详细信息 位置详细信息 矿井详细信息人类生成的内容容: 社交媒体 电子邮件 博客 在线信息传感器数据: 环

35、境:天气、降降雨量、湿度度、光线 电气:电流、能能源潜力等 导航装置 电离辐射、亚原原子粒子等 靠近、存在等 位置、角度、位位移、距离、速速度、加速度度 声音、声震动等等 汽车、运输等 热量、热度、温温度 光学、光、成像像、见光度 化学 压力 流动、流体、速速度 力、密度级别等等 来自传感器供应应商的其他数数据数据改动和存储储层因为传入的数据据可能具有不不同的特征,所所以数据改动动和存储层中中的组件必须须能够以各种种频率、格式式、大小和在在各种通信渠渠道上读取数数据:数据获取 从从各种数据源源获取数据,并并将其发送到到数据整理组组件或存储在在指定的位置置中。此组件件必须足够智智能,能够选选择是

36、否和在在何处存储传传入的数据。它它必须能够确确定数据在存存储前是否应应改动,或者者数据是否可可直接发送到到业务分析层层。数据整理 负负责将数据修修改为需要的的格式,以实实现分析用途途。此组件可可拥有简单的的转换逻辑或或复杂的统计计算法来转换换源数据。分分析引擎将会会确定所需的的特定的数据据格式。主要要的挑战是容容纳非结构化化数据格式,比比如图像、音音频、视频和和其他二进制制格式。分布式数据存储储 负责存储储来自数据源源的数据。通通常,这一层层中提供了多多个数据存储储选项,比如如分布式文件件存储 (DDFS)、云云、结构化数数据源、NooSQL 等等。分析层这是从数据中提提取业务洞察察的层:分析

37、层实体识别别 负责识别别和填充上下下文实体。这这是一个复杂杂的任务,需需要高效的高高性能流程。数数据整理组件件应为这个实实体识别组件件提供补充,将将数据修改为为需要的格式式。分析引擎擎将需要上下下文实体来执执行分析。分析引擎 使使用其他组件件(具体来讲讲,包括实体体鉴别、模型型管理和分析析算法)来处处理和执行分分析。分析引引擎可具有支支持并行处理理的各种不同同的工作流、算算法和工具。模型管理 负负责维护各种种统计模型,验验证和检验这这些模型,通通过持续培训训模型来提高高准确性。然然后,模型管管理组件会推推广这些模型型,它们可供供实体识别或或分析引擎组组件使用。使用层这一层使用了从从分析应用程程

38、序获取的业业务洞察。分分析的结果由由组织内的各各个用户和组组织外部的实实体(比如客客户、供应商商、合作伙伴伴和提供商)使使用。此洞察察可用于针对对客户提供产产品营销信息息。例如,借借助从分析中中获取的洞察察,公司可以以使用客户偏偏好数据和位位置感知,在在客户经过通通道或店铺时时向他们提供供个性化的营营销信息。该洞察可用于检检测欺诈,实实时拦截交易易,并将它们们与使用已存存储在企业中中的数据构建建的视图进行行关联。在欺欺诈性交易发发生时,可以以告知客户可可能存在欺诈诈,以便及时时采取更正操操作。此外,可以根据据在数据改动动层完成的分析析来触发业务务流程。可以以启动自动化化的步骤 例如,如如果客户

39、接受受了一条可自自动触发的营营销信息,则则需要创建一一个新订单,如如果客户报告告了欺诈,那那么可以触发发对信用卡使使用的阻止。分析的输出也可可由推荐引擎擎使用,该引引擎可将客户户与他们喜欢欢的产品相匹匹配。推荐引引擎分析可用用的信息,并并提供个性化化且实时的推推荐。使用层还为内部部用户提供了了理解、找到到和导航企业业内外的链锁锁信息的能力力。对于内部部使用者,为为业务用户构构建报告和仪仪表板的能力力使得利益相相关者能够制制定精明的决决策并设计恰恰当的战略。为为了提高操作作有效性,可可以从数据中中生成实时业业务警告,而而且可以监视视操作性的关关键绩效指标标:交易拦截器 此组件可实实时拦截高容量交

40、交易,将它们们转换为一种种容易被分析析层理解的实时时格式,以便便在传入数据据上执行实时时分析。事务务拦截器应能能够集成并处处理来自各种种来源的数据据,比如传感感器、智能仪仪表、麦克风风、摄像头、GPS 设备、ATM 和图像扫描仪。可以使用各种类型的适配器和 API 来连接到数据源。也可以使用各种加速器来简化开发,比如实时优化和流分析,视频分析,银行、保险、零售、电信和公共运输领域的加速器,社交媒体分析,以及情绪分析。业务流程管理流流程 来自分析析层的洞察可可供业务流程程执行语言 (BPELL) 流程、APII 或其他业业务流程使用用,通过自动动化上游和下下游 IT 应用程序、人人员和流程的的功

41、能,进一一步获取业务务价值。实时监视 可可以使用从分分析中得出的的数据来生成成实时警告。可可以将警告发发送给感兴趣趣的使用者和和设备,比如如智能电话和和平板电脑。可可以使用从分分析组件生成成的数据洞察察,定义并监监视关键绩效效指标,以便便确定操作有有效性。实时时数据可从各各种来源以仪仪表板的形式式向业务用户户公开,以便便监视系统的的健康或度量量营销活动的的有效性。报告引擎 生生成与传统商商业智能报告告类似的报告告的能力至关关重要。用户户可基于从分析层层中得到的洞洞察,创建临临时报告、计计划的报告或或自助查询和和分析。推荐引擎 基基于来自分析析层的分析结结果,推荐引引擎可向购物物者提供实时时的、

42、相关的的和个性化的的推荐,提高高电子商务交交易中的转换换率和每个订订单的平均价价值。该引擎擎实时处理可可用信息并动动态地响应每每个用户,响响应基于用户户的实时活动动、存储在 CRM 系系统中的注册册客户信息,以以及非注册客客户的社交概概况。可视化和发现 数据可跨跨企业内外的的各种联邦的的数据源进行行导航。数据据可能具有不不同的内容和和格式,所有有数据(结构构化、半结构构化和非结构构化)可组合合来进行可视视化并提供给给用户。此能能力使得组织织能够将其传传统的企业内内容(包含在在企业内容管管理系统和数数据仓库中)与与新的社交内内容(例如 tweett 和博客文章)组组合到单个用用户界面中。垂直层影

43、响逻辑层(大大数据来源、数数据改动和存存储、分析和和使用层)的的所有组件的的各方面都包包含在垂直层层中: 信息集成 大数据治理 系统管理 服务质量信息集成大数据应用程序序从各种数据据起源、提供供程序和数据据源获取数据据,并存储在在 HDFSS、NoSQLL 和 MonggoDB 等等数据存储系系统中。这个个垂直层可供供各种组件使使用(例如数数据获取、数数据整理、模模型管理和交交易拦截器),负负责连接到各各种数据源。集集成将具有不不同特征(例例如协议和连连接性)的数数据源的信息息,需要高质质量的连接器器和适配器。可可以使用加速速器连接到大大多数已知和和广泛使用的的来源。这些些加速器包括括社交媒体

44、适适配器和天气气数据适配器器。各种组件件还可以使用用这一层在大大数据存储中中存储信息,从从大数据存储储中检索信息息,以便处理理这些信息。大大多数大数据据存储都提供供了服务和 API 来来存储和检索索该信息。大数据治理数据治理涉及到到定义指南来来帮助企业制制定有关数据据的正确决策策。大数据治治理有助于处处理企业内或或从外部来源源传入的数据据的复杂性、量量和种类。在在将数据传入入企业进行处处理、存储、分分析和清除或或归档时,需需要强有力的的指南和流程程来监视、构构建、存储和和保护数据。除了正常的数据据治理考虑因因素之外,大大数据治理还还包含其他因因素:1、管理各种格格式的大量数数据。2、持续培训和

45、和管理必要的的统计模型,以以便对非结构构化数据和分分析进行预处处理。请记住住,设置处理理非结构化数数据时的重要要一步。3、为外部数据据设置有关其其保留和使用用的策略和合合规性制度。4、定义数据归归档和清除策策略。5、创建如何跨跨各种系统复复制数据的策策略。6、设置数据加加密策略。服务质量层此层复杂定义数数据质量、围围绕隐私和安安全性的策略略、数据频率率、每次抓取取的数据大小小和数据过滤滤器:数据质量1、完整地识别别所有必要的的数据元素2、以可接受的的新鲜度提供供数据的时间间轴3、依照数据准准确性规则来来验证数据的的准确性4、采用一种通通用语言(数数据元组满足足使用简单业业务语言所表表达的需求)

46、5、依据数据一一致性规则验验证来自多个个系统的数据据一致性6、在满足数据据规范和信息息架构指南基基础上的技术术符合性围绕隐私和安全全的策略需要策略来保护护敏感数据。从从外部机构和和提供程序获获取的数据可可能包含敏感感数据(比如如 Faceebook 用户的联系系信息或产品品定价信息)。数数据可以来源源于不同的地地区和国家,但但必须进行相相应的处理。必必须制定有关关数据屏蔽和和这类数据的的存储的决策策。考虑以下下数据访问策策略:A、数据可用性性B、数据关键性性C、数据真实性性D、数据共享和和发布E、数据存储和和保留,包括括能否存储外外部数据等问问题。如果能能够存储数据据,数据可存存储多长时间间?

47、可存储何何种类型的数数据?F、数据提供程程序约束(政政策、技术和和地区)G、社交媒体使使用条款数据频率提供新鲜数据的的频率是多少少?它是按需需、连续还是是离线的?抓取的数据大小小此属性有助于定定义可抓取的的数据以及每每次抓取后可可使用的数据据大小。过滤器标准过滤器会删删除不想要的的数据和数据据中的干扰数数据,仅留下下分析所需的的数据。系统管理系统管理对大数数据至关重要要,因为它涉涉及到跨企业业集群和边界界的许多系统统。对整个大大数据生态系系统的健康的的监视包括:A、管理系统日日志、虚拟机机、应用程序序和其他设备备B、关联各种日日志,帮助调调查和监视具具体情形C、监视实时警警告和通知D、使用显示

48、各各种参数的实实时仪表板E、引用有关系系统的报告和和详细分析F、设定和遵守守服务水平协协议G、管理存储和和容量G、归档和管理理归档检索I、执行系统恢恢复、集群管管理和网络管管理J、策略管理结束语对开发人员而言言,层提供了了一种对大数数据解决方案案必须执行的的功能进行分分类的途径,为为组织建议必必需执行这些些功能所需的的代码。但是是,对于想要要从大数据获获取洞察的业业务用户,考考虑大数据需需求和范围通通常会有所帮帮助。原子模模式解决了访访问、处理、存存储和使用大大数据的机制制,为业务用用户提供了一一种解决需求求和范围的途途径。下一篇篇文章将介绍绍用于此用途途的原子模式式。作者: Divvakar

49、等等来源: DeveeloperrWorkssEnd.大数据架构和模模式(四)大大数据解决方方案的原子模模式和复合模模式1.原子模式大大数据解决方方案有什么特特点?2.原子模式式下的样例模模式有哪些?3.复合模式式有什么特点点?简介本系列的 第 3 部分 介绍了大数数据解决方案案的逻辑层。这这些层定义了了各种组件,并并对它们进行行分类,这些些组件必须处处理某个给定定业务用例的的功能性和非非功能性需求求。本文基于于层和组件的的概念,介绍绍了解决方案案中所用的典典型原子模式式和复合模式式。通过将所所提出的解决决方案映射到到此处提供的的模式,让用用户了解需要要如何设计组组件,以及从从功能角度考考虑,

50、应该将将它们放置在在何处。模式式有助于定义义大数据解决决方案的架构构。利用原子子模式和复合合模式可以帮帮助进一步完完善大数据解解决方案的每每个组件的角角色和责任。本文介绍原子模模式和复合模模式。本系列列的最后一篇篇文章将介绍绍解决方案模模式。图 1. 模式式的类别该图显示了一下下模式:原子子模式、复合合模式和解决决方案模式原子模式对于大数据上下下文中经常出出现的问题,原原子模式 有助于识别别数据如何是是被使用、处处理、存储和和访问的。它它们还有助于于识别所需的的组件。访问问、存储和处处理来自不同同数据源的多多种数据需要要不同的方法法。每种模式式都用于满足足特定的需求求:例如,可可视化、历史史数

51、据分析、社社交媒体数据据和非结构化化数据的存储储。可以将多多种原子模式式结合使用,组组成一个复合合模式。这些些原子模式没没有进行分层层或排序。例例如,可视化化模式可以与与社交媒体的的数据访问模模式直接交互互,可视化模模式还可以与与高级分析处处理模式进行行交互。图 2. 用于于数据使用、处处理、数据访访问和存储的的原子模式的的示例该图显示了每种种原子模式下下的样例模式式的列表数据使用模式这种类型的模式式处理使用数数据分析结果果的各种方式式。本节包括括的数据使用用模式可以满满足几个需求求。可视化模式可视化数据的传传统方式以图图表、仪表板板和摘要报告告为基础。这这些传统的方方法并不总是是用来可视化化

52、数据的最佳佳方式。大数据可视化的的典型需求(包包括新出现的的需求)如下下所示:1、执行流数据据的实时分析析和显示2、基于上下文文,以交互方方式挖掘数据据3、执行高级搜搜索,并获得得建议4、并行可视化化信息5、获得先进的的硬件,支持持未来的可视视化需求正在进行研究,以以确定人类和和机器如何使使用大数据洞洞察。这些挑挑战包括所涉涉及的数据量量,并且需要要将数据与上上下文相关联联。必须在适适当的上下文文中显示洞察察。可视化数据的目目的是为了更更容易、更直直观地使用数数据,因此报报告和仪表板板可能提供全全高清的观看看效果和 33-D 互动动视频,并且且可以为用户户提供使用应应用程序控制制业务活动和和结

53、果的能力力。即席发现模式创建满足所有业业务需求的标标准报告往往往是不可行的的,因为企业业的业务数据据查询会有不不同的需求。用用户在查找特特定信息时,可可能需要获得得根据问题的的上下文执行行即席查询的的能力。即席分析可以帮帮助数据科学学家和关键业业务用户了解解业务数据的的行为。即席席处理中涉及及的复杂性来来自多种因素素:1、多个数据源源可用于相同同的域。2、单一的查询询可以有多个个结果。3、输出可以是是静态的,并并具有多种格格式(视频、音音频、图形和和文本)。4、输出可以是是动态和交互互式的。加强传统的数据据存储在大数据的初步步探索中,许许多企业选择择使用现有的的分析平台来来降低成本,并并依赖于

54、现有有的技能。加加强现有的数数据存储有助助于拓宽可用用于现有分析析的数据的范范围,包括驻驻留在组织边边界内外的数数据,比如社社交媒体数据据,它可以丰丰富主数据。通通过拓宽数据据范围,使之之包含现有存存储中的新事事实表、维度度和主数据,并并从社交媒体体获取客户数数据,组织可可以获得更深深入的客户洞洞察。但要牢记的是,新新的数据集通通常比较大,而而现有的提取取、转换和加加载工具可能能不足以处理理它。您可能能需要使用具具有大规模并并行处理能力力的高级工具具来解决数据据的数量、多多样性、真实实性和速度特特征。通知模式大数据洞察使人人类、企业和和机器可以通通过使用事件件通知而立即即采取行动。通通知平台必

55、须须能够处理及及时发送出去去的预计数量量的通知。这这些通知与大大量邮件或群群发短信不同同,因为内容容一般是特定定于使用者的的。例如,推推荐引擎可以以提供有关世世界各地的庞庞大客户群的的洞察,而且且可以将通知知发送给这样样的客户。启动一个自动响响应模式从大数据获得的的业务洞察,可可用于触发或或启动其他业业务流程或事事务。处理模式无论数据是处于于静止状态还还是在运动中中,都可以处处理大数据。具具体情况取决决于分析的复复杂性,有可可能不需要对对数据进行实实时处理。这这种模式解决决了对大数据据进行实时、近近实时或批量量处理的方式式。以下高级的大数数据处理类别别适用于大多多数分析。这这些类别通常常也适用

56、于基基于 RDBBMS 的传传统系统。惟惟一的区别是是庞大规模的的数据、多样样性和速度。在在处理大数据据时,要使用用机器学习、复复杂事件处理理、事件流处处理、决策管管理和统计模模型管理等技技术。历史数据分析模模式传统的历史数据据分析仅限于于预定义的数数据时间段,这这通常取决于于数据保留策策略。由于处处理和存储的的限制,超出出此时间段的的数据通常会会被归档或清清除。基于 Hadooop 的系统统和其他等效效的系统可以以克服这些限限制,因为它它们具有丰富富的存储以及及分布式大规规模并行处理理能力。运营营、业务和数数据仓库的数数据被移动到到大数据存储储,您通过使使用大数据平平台功能对它它们进行处理理

57、。历史分析包括分分析给定时间间段、季节组组合和产品的的历史趋势,并并与最新的可可用数据进行行比较。为了了能够存储和和处理如此庞庞大的数据,您您可以使用 HDFS、NoSQLL、SPSS 和 InfoSSpheree BigIInsighhts。高级分析模式大数据提供了很很多实现创意意洞察的机会会。不同的数数据集可以在在多种上下文文中存在关联联。发现这些些关系需要创创新的复杂算算法和技术。高级分析包括预预测、决策、推推理过程、模模拟、上下文文信息标识和和实体解析。高高级分析的应应用包括生物物统计数据分分析(例如,DNA 分析)、空间分析、基于位置的分析、科学分析、研究,等等。高级分析要求大量的计

58、算来管理大量的数据。数据科学家可以以指导您识别别合适的技术术、算法和数数据集,以及及在给定上下下文中解决问问题所需的数数据源。比如如 SPSSS、InfoSSpheree Streeams 和和 InfoSSpheree BigInnsightts 等工具提供供了这类功能能。这些工具具访问存储在在大数据存储储系统(比如如 BigTaable、HBasee,等等)中中的非结构化化数据和结构构化数据(例例如,JSOON 数据)。预处理原始数据据模式大数据解决方案案主要由基于于 MapReeduce 的 Hadooop 系统统和技术组成成,MapRReducee 是开箱即用用的分布式存存储和处理解解

59、决方案。然然而,从非结结构化数据提提取数据(例例如,图像、音音频、视频、二二进制提要,甚甚至是文本)是是一项复杂的的任务,需要要具有机器学学习能力并掌掌握自然语言言处理等技术术。另一个主主要挑战是如如何验证这些些技术和算法法的输出的准准确度和正确确性。要对任何数据执执行分析,数数据都必须是是某种结构化化格式。从多多个数据源访访问的非结构构化数据可以以按原样存储储,然后被转转化成结构化化数据(例如如 JSONN),并被再再次存储到大大数据存储系系统中。非结结构化文本可可以转换成半半结构化或结结构化数据。同同样,图像、音音频和视频数数据需要转换换成可用于分分析的格式。此此外,使用预预测和统计算算法

60、的高级分分析的准确性性和正确性取取决于用来训训练其模型的的数据和算法法的数量。下面的列表显示示了将非结构构化数据转换换成结构化数数据所需的算算法和活动:1、文档和文本本分类2、特征提取3、图像和文本本分割4、关联特征、变变量和时间,然然后提取包含含时间的值5、输出的准确确度检查使用用了混淆矩阵阵(conffusionn matrrix)等技技术和其他手手动活动数据科学家可以以帮助用户选选择合适的技技术和算法。即席分析模式处理大数据的即即席查询所带带来的挑战不不同于对结构构化数据执行行即席查询时时所面临的挑挑战,由于数数据源和数据据格式不是固固定的,所以以需要使用不不同的机制来来检索和处理理数据

61、。虽然大数据供应应商可以处理理简单的即席席查询,但在在大多数情况况下,查询是是复杂的,因因为必须在运运行时动态地地发现数据、算算法、格式和和实体解析。所所以需要利用用数据科学家家和业务用户户的专业知识识来定义下列列任务所需的的分析:1、识别并发现现计算和算法法2、识别并发现现数据源3、定义所需的的可以由计算算使用的格式式4、对数据执行行并行计算访问模式在大数据解决方方案中,有许许多数据源,还还有很多访问问数据的方式式,本节将介介绍最常见的的几种。Web 和社交交媒体访问模模式Interneet 是提供供许多目前可可以获得的洞洞察的数据源源。在几乎所所有分析中,都都会用到 WWeb 和社社交媒体

62、,但但获得这种数数据需要不同同的访问机制制。在所有数据源中中,因为 WWeb 和社社交媒体的多多样性、速度度和数量,所所以 Webb 和社交媒媒体是最为复复杂的。网站站大约有 440-50 个类别,每一一个类别都需需要使用不同同的方式来访访问数据。本本节将列出这这些类别,并并介绍一些访访问机制。从从大数据的角角度讲,高级级的类别是商商业站点、社社交媒体站点点,以及具有有特定和通用用组件的站点点。有关的访访问机制见图图 3。如果需需要的话,在在完成预处理理后,可将所所访问的数据据存储在数据据存储中。图 3. Weeb 和社交交媒体访问该图显示了 WWeb 和社社交媒体数据据访问需要执行以下步步骤来访问 Web 媒媒体信息。图 4. 大数数据访问步骤骤非结构化数据存存储中的 WWeb 媒体体访问步骤 A-1. 爬网程序读取原原始数据。步骤 A-2. 数据被存存储在非结构构化存储中。Web 媒体访访问为结构化化存储预处理理数据步骤 B-1. 爬网程序读取原原始数据。步骤 B-2. 对数据进进行预处理。步骤 B-3.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!