数据使用质量评价研究

上传人:卷*** 文档编号:215874125 上传时间:2023-06-03 格式:DOC 页数:4 大小:17KB
收藏 版权申诉 举报 下载
数据使用质量评价研究_第1页
第1页 / 共4页
数据使用质量评价研究_第2页
第2页 / 共4页
数据使用质量评价研究_第3页
第3页 / 共4页
资源描述:

《数据使用质量评价研究》由会员分享,可在线阅读,更多相关《数据使用质量评价研究(4页珍藏版)》请在装配图网上搜索。

1、书山有路勤为径,学海无涯苦作舟。数据使用质量评价研究 大数据正在成为处理大量数据时遇到常见问题的新型解决方案,这些问题可能是多样化的,并且可能也会以大规模并行处理。根据要进行的分析类型,必须以特定方式收集和安排一些具体数据,以应对各种性质(技术、概念和方法)的新挑战,即收集的数据必须与感兴趣的领域或分析的背景相关,换句话说,数据必须对分析有价值。传统工作中,自有数据洞察可以通过商业智能技术完成,在很大程度上有益于其业务绩效。这些见解是通过对新类型的数据利用新类型分析来开展业务的新方法。现在当数据以特定不同格式或以不同速率进行时,经典的如基于关系数据库的处理结构化数据的能力是不够的,特别是在性能

2、和延迟方面。 数据使用质量模型 大数据解决方案可以被理解为完整的信息系统,如果相分析交易和分析数据,那么这些数据将扮演大数据输入的角色。在任何情况下我们都无法实现大数据分析的结果,但是其质量可能通过其他模型进行评估。有关输入数据的数据质量等级的测量可以参照iso/ic25012标准。本文模型涉及iso/ie5010中描述的所有类型质量之间的依赖关系,isoiec5010对质量的解释可以应用于数据,将数据理解为产品:数据满足定义要求的程度是数据的内部质量;数据表示的关系和适当性是数据的外部质量;为数据设定的目标的实现程度是使用中的质量。s/ic25012的数据质量模型有助于研究大数据解决方案输入

3、数据的内部和外部质量,但不能用于研究使用中的质量。本工作中介绍的as数据使用中的质量模型用于填补使用中数据质量的空白,从而可以评估大数据项目中数据的使用质量。也就是说,这个新模型旨在提供一种方法,从质量的角度为预期用途(即通过大数据分析产生可信赖的结果)获得数据合理的程度和适当程度。根据这种基于质量理念的观点,本文在评估时同时提出了主要的数据质量问题。 2使用质量水平 大数据项目中的使用质量水平是数据的充分性,以达到分析的目的。根据mera字典,使用质量水平可以被定义为对某些需求目的或要求足够满意的状态或能力。根据这一定义,数据的充分性是足以实现分析目标和目的的数据状态或能力。换句话说,要符合

4、通过特定大数据解决方案进行分析的特定特征。本文工作将特征分为四类:可访问性、上下文、代表性以及内在性。作为研究过程的一部分,这四个类别在大数据背景下重新分为两个特征:语境充分性和操作充分性。首先来简化特征:代表性、可访问性和内在性。这种简化的主要原因在于数据必须可以使用可用于大数据分析的资源和技术来处理,这三个类别适合于单个特征的定义,我们称之为操作充分性。关于语境充分性,我们承认时间方面是语境的一部分。尽管如此,由于实时分析的重要性日益增加,因此需要对时间方面进行单独评估。因此,本文确定了三大关键数据质量特征,这些特征对于大数据分析环境中的数据非常重要,分别是:上下文充分性、时间充分性和操作

5、充分性。 3as数据质量使用模型中每个特征的定义 上下文充分性指的是数据集在分析的相同感兴趣域内使用的能力,独立于任何格式(例如,结构化与非结构化),任何大小或流入速度。从这个意义上说,重要的是数据首先是相关和完整的,使用的数据量是适当的;其次是独特且语义上可互操作的,因此考虑到给定的上下文并且由于重复而没有不一致性,数据必须是可理解的;再就是语义准确,数据必须代表大数据分析环境中的真实实体;最后是可信的,所有数据来源必须可信,数据必须由允许开发分析的同一组人员访问,且符合规定的规定和要求。时间充分性是指数据在适当的时间段内进行分析。例如,相似的年龄或在历史数据特定持续时间内,意味着数据指的是

6、类似的时间段。重要的是要注意通过分析的数据操作的时间方面不包括在该定义中,而是仅包括数据本身的时间方面。因此,处理的数据应该是:(1)时间并发:指在类似或适当的时间段内发生的事实。例如,如果分析集中在过去的事件上,那么数据必须与相关的事物相对应;(2)及时更新:数据必须针对手头的任务进行适当更新;(3)频繁:在进行某种趋势分析时,使用数据生成与所需的未来时段(所需频率)相关的结果。大数据解决方案具体分析可以独立于数据质量使用水平的评估来执行。通过3s使用质量模型提供的评价水平,可以用于提高对分析结果健全性的意识指标。从这个意义上讲,数据清理时间挑战的性能问题也得以实现。数据的动态将始终是其外部质量的一部分,关键元素将通过设置数据约束的业务规则来识别,测量外部数据质量时则将考虑到使用isoic2501的特性。 4结论 本文提出的数据质量使用模型可应用于任何大数据特定实施,因为其措施独立于任何情况,要求或技术。评估的执行方式是不必移动数据。相反,本文的数据质量使用模型是在大数据解决方案中实现的。并且数据管理员能够决定是评估数据子集还是完整数据集。由于完成了大数据数据质量计划的所有常见挑战,因此可以引用数据质量使用模型作为评估大数据项目中数据质量的适当解决方案。 第 4 页 共 4 页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!