大数据时代应急数据质量治理研究

上传人:仙*** 文档编号:46369429 上传时间:2021-12-13 格式:DOC 页数:8 大小:145KB
收藏 版权申诉 举报 下载
大数据时代应急数据质量治理研究_第1页
第1页 / 共8页
大数据时代应急数据质量治理研究_第2页
第2页 / 共8页
大数据时代应急数据质量治理研究_第3页
第3页 / 共8页
资源描述:

《大数据时代应急数据质量治理研究》由会员分享,可在线阅读,更多相关《大数据时代应急数据质量治理研究(8页珍藏版)》请在装配图网上搜索。

1、. 郭路生,刘春年(南昌大学 管理学院,江西 南昌 330031)大数据时代应急数据质量治理研究*本文系国家自然科学基金项目“农业数字防灾减灾资源规划机理分析与系统实现: 基于EA和Ontology的研究”的研究成果,项目编号:71363044。Research on quality governance of emergency data in the big data era摘要:目的/意义 为了解决大数据时代应急数据质量问题,支撑基于大数据的应急管理和智能决策。方法/过程 首先定义了应急数据质量维度,然后分析了应急数据质量的现状和原因;重点探讨了应急数据治理的措施。结果/结论 应急信息环

2、境是一种复杂的大数据环境,数据质量低下,需要采用与大数据特点相适应的治理措施。在管理上,需要提高战略认识,建立大数据治理的组织、机制和标准,采用全生命周期的质量管控方法;在技术上,采用适应大数据的EA管控、元数据管理、主数据管理和数据质量监控等手段。关键字:数据质量;数据治理;大数据;EA;元数据管理;主数据管理Abstract:Purpose/Significance To solve the problem of emergency data quality in big data era, support the emergency management and intelligent

3、decision based on big data. Method/Process First, Dimension of emergency data quality is defined, then the present situation and cause of emergency data quality are analyzed, and the measures of emergency data governance are discussed. Result/Conclusion The emergency information is a complex big dat

4、a environment, the data quality is low, and it needs to adopt the measures of data governance which fit the characteristics of big data. In management, need to improve data quality consciousness, to establish the organization, mechanism and standard of big data governance, and to use the quality con

5、trol method in whole data life cycle; in technology, need to use EA control, metadata management, MDM, data quality monitoring and other means which fit to the big data environment. Key words: data quality;data governance;big data; EA; meta data manage; MDM;精品.1引言应急信息环境是一种跨部门、复杂的信息环境。随着计算机技术和网络技术在应急

6、领域的广泛使用,产生了海量的监测与监控信息、事件信息、交互信息、地理信息,这些数据已达到PB级别;同时具有突发性、异构性、分布式、动态性、及时性、不完全性等特点,符合大数据的特征,是一种典型的大数据。大数据技术的兴起为基于大数据的应急管理和智能决策提供了可能1,2,然而数据质量问题却成了大数据应用的“拦路虎”。没有高质量的大数据将对决策产生误导,甚至产生有害结果。据估算,数据错误每年造成美国工业界经济损失约占GDP的6%,98000名患者丧生,50%的数据仓库因数据质量而取消或延迟3。高亮认为:“数据治理是保证数据质量的必需手段,从全球范围来看,加强数据治理提升数据质量已成为企业提升管理能力的

7、重要任务4”。因此研究大数据时代应急数据质量治理具有重要的意义。宗威认为数据质量是有效分析和利用大数据的前提,大数据时代给数据质量的保证提出了新的挑战5。王宏志认为由于大数据具有规模大、速度快和多样性的特点,现有的方法难以适用于大数据质量治理,并提出大数据清洗的技术方案3。胡志伟6和王伟7均认为应建立一套大数据质量的治理机制,建立规范的数据标准和数据质量控制机制才能提高数据的质量。这些研究对大数据的数据质量治理进行了有益的探究,但总体来说研究较少,特别还没有看到针对应急领域的大数据质量方面的文献。本文将对大数据时代应急领域的数据质量的现状与问题进行分析,探索应急数据质量治理的措施,为基于大数据

8、的应急决策提供支撑。2 大数据时代应急数据质量的挑战与原因2.1 数据质量与数据质量的评估维度的定义“数据质量”是指数据资源满足用户使用要求的程度,即“fit for use”8。用户需求不同,数据质量的要求也不同。应急管理需要跨部门、跨警种的业务协同,需要跨部门的信息集成共享,为了实现信息的集成共享,对数据质量的规范性、一致性、唯一性和完整性有较高的要求;突发事件具有突发性和动态性,要求及时决策和响应,对数据质量的及时性和可用性有要求;突发事件具有危险性,错误的或不准确的数据将导致错误的决策,甚至带来更大的灾难,因此对数据质量的正确性和准确性有要求。综合应急信息的需求,参考精品.Dinett

9、e的数据质量十二个维度9,应急数据质量的评估维度定义为:数据规范性、唯一性、完整性、一致性、准确性、集成共享性、及时性和可用性。2.2 应急数据质量的挑战与原因2.2.1应急数据质量的挑战政府是信息资源的主要拥有者,约80%的信息掌握在政府手中。我国的应急管理采用分灾种、分部门的应急模式,各个部门以自己为中心建设了大量的信息系统,产生和收集了大量的数据,但同时也存在着大量的数据质量问题,主要表现在:存在大量的信息孤岛,难以共享,难以跨部门访问;各部门重复采集,信息系统中的数据大量重复,且不一致、不完整现象明显。应急数据的真实性、准确性不高。业务操作人员对数据质量缺乏足够重视,重建设,轻管理现象

10、明显。2.2.2 应急数据质量问题产生的原因影响数据质量的原因有多种, 既有技术因素,又有管理因素10。一般说来,影响应急数据质量的因素主要有: 缺乏总体规划,没有统一的数据标准。我国应急管理是一种“分部门、分灾种”的应急模式,缺乏跨部门的信息资源的总体规划,各部门各自为政,重复建设。由于采用了不同的元数据、分类和编码标准,形成了大量的信息孤岛和不一致数据,严重影响数据质量的集成共享性、唯一性、一致性和完整性。 数据质量意识不高,没有建立数据质量治理的机制。目前,应急管理建设了大量信息系统,采集了大量的数据,但普通缺乏数据质量的管理,大部分机构还没有建立数据质量治理的组织、制度、标准和技术手段

11、。即使有机构意识到数据质量的重要性,上马了数据质量项目,购买了数据质量管理软件,但往往被看成是IT项目,业务部门参与不够,还没有把数据治理提到与财务管理、人力资源管理同等重要的战略高度。 突发事件的特点决定的应急数据质量不可能太高。突发事件具有突发性、不确认性、危险性、动态性、及时响应性等特点。大量的应急信息在短时间瞬时爆发,且不断变化,信息采集的任务紧、时间紧迫、条件恶劣,数据质量不可能太高。 应急大数据环境给数据质量带来严重挑战。随着计算机技术和网络技术在应急领域的广泛使用,产生了海量的监测与监控信息、交互信息、地理信息,这些数据已达到PB级别,体量(Volume)巨大。这些数据既有结构化

12、的数据,又有大量的视频、音频、图片、地理位置信息、文本、网页、社交信息等非结构化的数据,具有多样性(Variety)。由于突发事件具有突发性、易变性、危险性等特点,要求大量的信息要在短时间高速处理,即具有高速性 (Velocity)。数据价值密度的高低与数据总量的大小成反比,应急数据的大体量决定的相应的价值密度比较低(Value)。因此,应急数据是一种典型的大数据,大数据的特征给应急数据质量带来严重的挑战。表1比较了大数据与传统数据质量计划的差别。精品.表1 大数据质量计划与传统数据质量计划的比较11维度传统数据质量计划大数据的质量计划处理频率处理是面向批量的实时的和面向批量的数据的多样率大部

13、分是结构化的结构化的、准结构化的和非结构化的置信度数据需要处在原始状态、以方便数据仓库中的分析“噪声”需要被过滤,但数据需要“足够好”。糟糕的数据质量可能会也可能不能阻碍分析工具获得业务洞察数据净化的时间选择在下载到数据仓库前,数据需要净化数据可能被“似是而非地”下载,因为关键数据元素和关系可能未充分理解,数据的体量和速度可能采取流式的、内存中的分析来净化数据,从而降低存储要求关键数据元素评估客户地址等关键数据元素的数据质量可数可能被模糊定义或错误定义,并有待进一步探索,因此,关键数据元素可能反复变化分析位置数据迁移到数据质量和分析引擎数据质量和分析引擎可进入数据中,以保证可接受的处理速度精品

14、.管理工作数据主管可管理大部分数据由于体量大和速度快,数据主管只能管理相对更小的数据精品.3 大数据时代应急数据质量治理措施数据质量治理是通过建立数据管理政策,流程和标准,以优化组织的数据资产为回报的决策和管理过程12。数据质量治理与财务管理、人力资源管理一样是一项管理业务,而不是IT项目12,需要从管理层面制订管理措施,并借助技术手段来进行数据质量治理,其总体流程如图1所示。精品.定义业务问题获得高层支持成熟度评估制订路线图建立组织与制度定义质量值过程管控元数据监管主数据监管大数据质量监管生命周期监管安全 稳私监管质量结果管理措施技术措施认知机制方法EA架构管控图1 应急数据质量治理流程精品

15、.3.1大数据时代应急数据质量治理的管理措施数据质量治理的管理措施可分为认知、制度和方法论三个层面。3.1.1认知层面的管控数据质量治理与财务管理、人力资源管理一样是管理业务,而不是IT项目,需要业务人员的广泛参考。数据质量治理的目的是为了优化和返回更多的数据资产,因此数据质量治理需要提高到与财务管理、人力资源管理同等的战略高度12。应急信息是一种典型的大数据,大数据分析技术的兴起为大数据的利用(比如基于大数据的智能应急决策)提供了可能,将产生巨大的业务价值,然而大数据的质量却成了“拦路虎”,因此,应急大数据的质量治理应成为优先方向。数据质量的治理是始于现状和未来的认知,现状和未来状态的认知是

16、科学制订一切数据治理措施和路线图的基础。这种认知通常需要进行成熟度评估。IBM数据治理成熟度模型从业务成果、组织结构和认识、管理人员、数据风险管理、政策、数据质量管理、信息生命周期管理、信息安全与隐私、数据架构、分类和元数据、审计信息日志和报告11个指标进行评估,把数据治理的成熟度分为5个等级13。根据数据治理成熟度的评估结果以及与未来目标的差距,列出弥补这些差距所需要关键人员、流程和技术计划并根据计划的优先级制定路线图。随着大数据对组织越来越重要,信息治理计划需要将大数据纳入路线图之中。3.1.2制度层面的管控数据治理组织一般采用三层的组织架构:企业级的应急数据治理委员会。由高级管理人员、业

17、务领导和IT领导组成。委员会负责制订数据治理计划的方向、制度、流程和标准,协调各部门关系4。部门级应急数据治理委员会和专项数据专家团队。具体的管理应急数据的业务人员和技术支持人员。针对大数据的质量治理,应该明晰大数据治理的目标和关键流程,识别大数据治理的利益相关者;酌情任命大数据主管;确定新增角色和现有角色的适当组合,确定各个角色应当承担的大数据责任。制度和标准的制订是数据质量管控的基础,数据标准包括元数据标准、分类标准、编码标准,是应急跨部门实现数据集成、应用集成和业务协同的基础。应急数据质量规则一般从数据规范性、唯一性、完整性、一致性、准确性、及时性和可用性等方面来定义。3.1.3 方法论

18、层面的管控应急数据治理采用全生命周期的过程管控方法,如图2所示。把数据治理的管理规范和标准体系注入到信息系统生命周期和数据生命周期中去,并通过交付物的评审去落实,通过工具的自动检查去固化精品.。信息系统的建设更关注系统生命周期,而BI、数据仓库和大数据平台更关注数据生命周期,重视数据标准的管控。精品.管理规范(组织、制度、流程)数据架构数据标准质量标准运行业务建模技术建模数据流测试质量测试数据服务开发规划规划需求设计开发测试上线数据质量管控贯穿全过程,“需求-设计-实现-使用”一致性创建/获取维护使用归档下线系统生命周期数据生命周期将数据管控的标准规范在建设中执行收集、分析和处理数据问题和需求

19、图2 全生命周期的数据质量过程管控精品.3.2 数据治理的技术措施应急数据质量产生的重要原因就是缺乏总体规划和统一的数据标准,EA作为一种先进的总体规划技术将在应急数据治理中发挥重要作用。EA架构的实施是通过相应的标准和制度来保证的,是数据治理的前提。元数据管理是标准和制度落地的技术措施,是数据治理的基础;主数据管理是对组织内核心的、共享的数据进行管理,是数据治理的关键;数据质量监控对组织内的数据进行剖析,发现错误、分析错误和更正错误,是数据质量治理的重要工具。各项技术措施对数据全生命周期的质量管控原理如图3所示。标准与制度企业架构元数据管理主数据管理数据生命周期数据质量监控图3 技术措施对数

20、据生命周期的质量管控3.2.1基于EA架构的应急大数据质量治理突发事件的应急响应需要各级政府、公安、消防、卫生、民政、水利、气象以及民众、NGO等社会各界人士的共同参与。需要各部门的信息共享来支撑业务的协同,需要高质量的数据来支持应急决策,然后,由于我国采用“分灾种,分部门”的应急模式,没有统一规划,存在大量的信息孤岛,数据质量低下,给应急决策和协同工作带来极大的困难。因此急需先进的顶层设计理论和工具进行规划。企业架构(EA)是一种先进的顶层设计的理论和工具,是对实现企业战略目标的核心业务、信息、应用和技术进行整体的、系统的描述,其本质是使一个组织的信息、流程和技术与该组织的战略相连接,即满足

21、其战略需求14。对于信息来说,就是要支撑其业务价值的实现,这与信息质量的含义:“fit for use”相吻合。美国应急管理委员会建立了应急企业架构,实施e-FEMA战略15以来,极大提高了应急数据的质量,特别是集成共享性、互操作性和一致性。我国应急领域急需建立一个跨部门的企业架构。这个企业架构必须考虑应急大数据业务价值,建立一个能发挥大数据价值的业务架构、应用架构、数据架构和技术架构。根据应急数据架构制订应急数据标准体系:元数据标准、分类标准、共享标准、数据质量标准,并且根据标准体系对应急数据全生命周期进行管控。为了保证企业架构和标准体系的有效执行,还需要建立相应的法律法规、政策制度和组织架

22、构。比如美国颁布了Clinger-Cohen法,设立首席信息官CIO体系,确保所有IT重大项目符合联邦企业架构参考模型。3.2.2基于元数据的数据质量治理元数据(Meta Data)是数据标准的技术表达,是标准实施的落地技术,也是数据管理的重要工具。元数据决定数据如何满足业务需求,即数据质量:“fit for use”,因此,元数据的管理,就成为成功的信息质量治理计划的一个关键要素。元数据管理实现数据标准化,提升数据质量的基本原理如图4所示。元数据是标准体系的映射,是标准与规范的落地手段,标准规范对数据生命周期的管控是通过元数据管理来实现的。应急大数据的体量、速度和多样性给建设和维护清晰的元数

23、据设施增加了新的挑战。对大数据而言,传送信息管理能力的元数据计划的任何失败,都会导致数据重复、关键信息无法访问等数据质量问题。精品.实现数据架构数据标准质量标准管理制度标准规范业务元数据技术元数据操作元数据管理元数据元数据 实现数据标准化,提供是共同的业务沟通语言,解决业务和数据的模糊性;保证数据的一致性和共享性,实现系统可集成性,提供高质量的数据 通过非冗余、非重复的元数据信息提高数据完整性、准确性 通过数据地图、血缘分析和影响分析提高数据质量的信心,分析数据质量原因,找到解决方案。 集中化BI系统的管理和应用;减少BI系统组件开发、实现、完善及维护的代价映射管理元数据定义元数据维护元数据服

24、务血缘分析影响分析数据地图数据审计元数据管理与应用信息规划业务建模技术建模数据服务开发数据管理数据生命周期标准管控管控服务指导分析服务指导数据标准化、提升数据质量实现图4 元数据管理实现数据标准化、提升数据质量的基本原理精品.随着大数据技术的在应急领域的应用越来越广泛,应急部门需要在原来的元数据管理策略增加大数据相关的内容,具体而言,可以采取如下的措施。构建关键大数据业务元数据。考虑到组织可以获取数据的容量和多样性,应该创建一个体现关键大数据业务术语的业务定义词库(本体)。及时跟进和理解各种大数据技术中的元数据,提供对其连续、及时地支持,比如MPP数据库、流计算引擎、Apache Hadoop

25、/企业级Hadoop、NoSQL数据库以及各种数据治理工具如审计/安全工具、信息生命周期管理工具等。将业务元数据和技术元数据进行链接,通过操作元数据(如流计算或ETL工具所生成的数据)监测大数据的流动;通过数据血缘分析在整个信息供应链中实现数据追溯;通过影响分析了解具体某个字段的变更会对信息供应链中其他组件中的字段造成哪些影响等。扩展应急部门现有的元数据管理角色,以适应大数据治理的需要。3.2.3 基于主数据管理的应急数据质量治理应急主数据(Master Data)是指描述核心应急业务实体的数据,比如应急预案、受灾者、应急机构、应急人员、应急物质、应急专家等;它是具有高业务价值的、需要跨部门的

26、、跨系统共享的数据。主数据管理(MDM)是实现应急信息共享和业务协同的关键,政府应建立一个应急主数据中心,对主数据统一管理;建立主数据管理规程,采用先进的技术手段为所有的利益相关者(应急部门、应急业务、应急系统、应急数据库和数据仓库等)维护主数据的一致性、准确性、唯一性和完整性。主数据管理是一种数据质量管控方法,关键是“管控”。图5展示了应急主数据管理体系的管控原理。标准规范机构组织通知注册准入申请维护审批废弃访问服务数据导入安全管理数据分发匹配查重查 询数据校验主数据管理系统管理流程提升数据质量跨部门数据共享应急决策支持指挥调度预警预测综合管理信息接报灾后评估图5 主数据管理体系的管控原理主

27、数据是组织的核心数据,具有高价值密度性和共享性,大数据具有体量大和低价值密度性,因此主数据和大数据具有互补性。主数据在大数据分析中,特别是实体识别中发挥重要作用,大数据分析也可以丰富主数据。大数据质量治理需要MDM支持,其关键措施有:提高主数据的质量,以支持大数据分析;利用大数据提高主数据质量;提高关键参考数据的质量和一致性,以支持大数据治理计划;审视社交媒体平台政策,以确定与主数据管理整合的程序;从非结构化文本中挖掘有用的信息,以丰富主数据。3.2.4实施大数据质量监管,提升应急大数据质量数据质量监管是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质

28、量问题,进行识别、度量、监控、预警等一系列管理活动。主要包括数据精品.剖析、数据评估、数据清洗、数据监控、错误预警、错误更正等内容。数据质量的监管需要借助软件工具来实现,如IBM和Informatic公司的数据质量监控平台。应急数据是一种典型的大数据,大数据的特征给数据质量监控带来严重的挑战,大数据质量监管具体措施如下: 在业务上与利益相关者合作,建立并评估大数据质量的置信区间。传统的数据质量治理以内部数据为主,大数据项目还会用到大量的外部数据,如何发现和解决这类数据质量问题比以前因难很多,需要与相关的企业协作共同解决。比如在突发事件之后,政府需要对网络舆情进行分析,需要采集微博、微信中的数据

29、,为了提高数据质量的可靠性,需要与新浪、腾讯等公司合作,一起评估大数据的质量置信区间。 利用半结构化和非结构化数据,提高人口稀疏的结构化数据质量; 通过流计算技术对动态数据进行实时处理,剔除噪音数据,提高数据质量,最后将输出结果作为静态数据存储到Hadoop平台、MPP数据库、关系型数据库/数据仓库或各种NoSQL数据库中,无需将中间结果进行保存。4 结语应急信息环境是一种复杂的大数据环境,数据质量低下,必须经过数据治理,才能支撑基于大数据的应急管理和智能决策。应急数据治理应充分考虑应急的特点和大数据的环境,从管理和技术两个维度进行治理。管理维度分为认知、制度和方法论三个层面。在认知层面,需要

30、把数据治理提高到数据资产管理的高度,需要业务人员的广泛参与和高层的介入;需要进行成熟度分析,制订度路线图。在制度层面,需要建立企业级数据质量治理的组织架构,并制订数据质量管控的制度和标准。在方法论层面采用全生命周期的质量管控方法。在技术维度,采用EA架构管控、元数据管理、主数据管理和数据质量监控等技术手段。无论是管理措施还是技术措施,均要考虑大数据的特点,采用与大数据特点相适应的措施。参考文献1 黄越,李涛. 大数据时代的灾难信息管理J. 南京邮电大学学报(自然科学版),2015,35(6):68-76.2 马奔,毛庆铎. 大数据在应急管理中的应用J. 中国行政管理,2015(3):136-1

31、41.3 王志红. 大数据质量管理:问题与研究进展J. 科技导报,2014,32(34):78-84.4 高亮. 数据治理:让数据质量更好J. 中国教育网络,2014,(12):64-66.5 宗威,吴锋. 大数据时代下数据质量的挑战J. 西安交通大学学报(社会科学版), 2013,33(5):38-43.6 胡志伟, 汪振强. 关于大数据治理的研究与分析J. 时代报告, 2014(7):177-179.7 王玮.大数据时代的商业银行数据治理研究J.中国金融电脑,2013(7):36-38.8 Wang,Allen,Harris.An Information Product Approach

32、for Total Information AwarenessJ.IEEE Transactions on knowledge and Data Engineering,2003(3):1-17.9 Danette McGilvray. Executing Data Quality ProjectEB/OL. 2016-4-22, 10 宫剑,高亮. 上海财经大学:提升数据质量之道J. 中国教育网络,2014(1):64-66.11 桑尼尔索雷斯(SUNIL SOARES). 大数据治理M.北京:清华大学出版社,2014:3-227.12 Informatic. Holistic Data G

33、overnance: A Framework for Competitive Advantage EB/OL. 2016-4-22. 13 桑尼尔索雷斯(SUNIL SOARES). IBM数据治理成熟度模型EB/OL. 2016-4-22. 14 赖茂生. EA、制度与顶层设计J. 电子政务,2010(7):7-10.15 FEMA. FEMA Enterprise IT Architecture V2.0 EB /OL. 2016-01-26. http:/www.fema.gov/pdf/library/it_vol1.pdf.16 程永. 大数据治理统一流程模型概述和明确元数据管理策略EB/OL. 2016-05-04. 作者简介:郭路生,男,1972年生,讲师,硕士。研究方向:应急管理、信息管理。刘春年,女,1974年生,教授,博士生导师。研究方向:信息管理。通讯作者。收稿日期:(2016-05-17)精品.如有侵权请联系告知删除,感谢你们的配合!精品

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!