数据中心质量保证方案

上传人:非****1 文档编号:61039974 上传时间:2022-03-10 格式:DOCX 页数:11 大小:222.16KB
收藏 版权申诉 举报 下载
数据中心质量保证方案_第1页
第1页 / 共11页
数据中心质量保证方案_第2页
第2页 / 共11页
数据中心质量保证方案_第3页
第3页 / 共11页
资源描述:

《数据中心质量保证方案》由会员分享,可在线阅读,更多相关《数据中心质量保证方案(11页珍藏版)》请在装配图网上搜索。

1、数据中心质量保证方案广东第二师范学院第一章引言高校数据中心作为校情决策分析的数据来源,为保证数据中心的质量,通常需要进行数据处理.主要包括以下几个重要的步骤、数据审查、数据清9oo3s.,pO%表,o洗、数据转换和数据验证四大步骤Q该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与调查要求一致,是否全面;还包括利用描述性统计分析厂检查各个字段的字段类型、字段值的最大值、最小值、平均数”中位数等,记录个数、缺失值或空值个数等电(二)数据清洗该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进疗清洗使“脏”数据变为“干挣数据,有利于后续的统计分

2、析得出可靠的结论,当然,数据清理还包括对重复记录进行删除。(三)数据转换数据分析强调分析对象的可比性艮但不同字段值由于计量单位等不同,。往往造成数据不可比:对一些统计指标逃行综合评浙畴如果统计指标的性质、讦量单位不同,也容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化以及属性构造等(四)数据验证该步骤的tr的是初步评估和判断数据是否满足统计分析的需要,决定是否需翦增四翻梦数耦量加利用荷单的谶微将翦依及血弟爵,堂老钝折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确

3、保不把错:误和偏差的数据带盘到数据分析中去i第二章数据质量的基本要素首先,如何评估数据的质量,或者说怎么样的数据才是符合要求的数据?可以从4个方面去考虑,这4个方面共同构成了数据质量的4个基本要素。完整性2. 1完整性数据的记录和藉息是否完整,是否存在缺失的情况.I数据的缺失主要有记录的缺失和记录中某个字段信息的缺失两者都会造成统计结果的不准确$所以完整性是数据质量最基础的保障,而对完整性Pe,p.3P.的评估相对比较容易:,n2.2一致性数据的记录是否符合规范,是否与前后及其他数据集合保持统一疝数据的一致性主要包括数据记录的规范和数据逻辑的一致性数据记录的规范主要是数据编码和格式的问题,比如

4、教工号是7位的数字、学号是11位的数字,性别码包括2个类目,了地址一定是用*分隔的4个0-255的数字组成,及一些定义的数据约束,比如完整性的非空约束、唯一值约束等;:数据逻辑性主要是指标统计和计算的一致性,比如PVAUY,新用户比例在0-1之间等Q数据的一也懂审核是鬣据流量审核中比续量要也是比较箕杂的一块92.3准确性数据中记录的信息和数据是否准确,是否存在异常或者错误的信息证导致一致性问题的原因可能是数据记录的规则不一,但不一定存在错误;而准确性关注的是数据记录中存在的错误,比如字符型数据的乱码现象也应该归到港确性的考核范崎另外就是异常的数值,异辑大或潜异常小的数值,不符合有效性要求的数值

5、,如学生数一定是整数*年龄一般在L100之间?转化率一生是介于0到1的值等.对数据准确性的审核有时会遇到困难,因为对于没有明显异常的错误值我们很难发现.2.4及时性A.R:1.u,.p丁“数据中心的数据及时性主要反映在数据交换和数据分析的时效性上。数据交换中部分业务数据的时效性要求极高,如人员岗位的变动及时到费产的账单及时到财其他及时性要求不高的数据交换也有时效的要求:如1小时。、天、三天等.虽然说数据分析的实时性要求并不是太高,但井木意味着就没有要求, 数据分析可以接受当天的数据要第二天才能分析查看,但如果数据要延时两 Q F7/7-,、下”s L2 Pn 1. O -4 R 1三天才能电来

6、.或者每周的报告要两周后才能出来耍那么分析的靖稔可能已经失去曦忸同时,窠些蜃时分析松筋醺蟹常到小时或者务钟装的数据,这些需求对数据的时效性要求极高。所以及时性也是数据质量的组成要.,%。、素之第三章数据审查基于数据质量的4个要素,可以对数据进行审查,以评估数据是否满足完整性、一致性力准确性和及时性这4方面的要求,其中数据的及时性主要跟数据的同步和处理过程的效率相关,更篓的是通过监控ODI任务的方式来保证数据的及时性,所以这里的数据择南主要指的是评估数据的完整性、一致性和准确性轨审查数据的完整性.首先是记录的完整性,一般使用统计的记录数和唯* rL一 pV-WV3.1完整性审查一停上数。比如图书

7、管的每天借阅量是相对恒定曲,大就在looG班上下被郎加果某天的借阅量下阵到了口清I加本,那粮有句能记录域失了;或者甫粘敏哲问记系应谈在一天的乞力喇靖分布,曲果某罹点莞圣凌有用户访问记录,那么很有可能网站在当时出了问题或者那个时刻的日志记录传输事现了问题;再如统il教师、学生的籍贯分布时,一般会包括全国的320产A,7,.八丁:P.7.个省份直辖市,如果统计的省份唯一值个数少于32,那么很有可能数据也存在缺失a完整性的另一方.0,o.a,0J0”.h0;.,记录中某个字段的数据缺失i可以使用统计信息中的里指(NULL)的个数进行审榔如果算布字段的信总理论上必篇存在?比:如教师的,所属单位、学生的

8、班.级等,那么这些率段的空值个数的统计就应该是0,这些字段我们可以使用非空(NOTNULL)约束来保证数据的完整性:对于某些允许空的字段,比如教职工的职称信息不一定存在;但比值的占比基本值定a比如取称为空的教师比例通常在10%-205二.我砧同样可以够用球计的空值个数来讦算空值占比.如果空值的占比明显增大;很有可能这个字段的记录出现了问题人信息出现缺失。3.2一致性审查如果数据记录格式有标准的编码规则*那么对数据记录的一致性检验比较简单,只要验证所有的记录是否满足这个编码规则就可以,最简单的就是使用字段的长度-唯一值个数这些统计量。比如对教职工的工号是7位数字,那么字段的最长和最短字符数都应该

9、是7如果字段必须保证唯一,那么字段的唯一值个数跟记录数应该是一致的,比如用户的身份证号一手机?再如地域的省份直辖市一定是统一编码的;,记录的T定是“上海&而不是“上海市却,此浙江叫而不是“浙江省”,可以把这些唯一值映射到有效的32个省市的列表,如果无法映射,:那么字段通不过一致性检验。一致性中逻辑规则的验证相对比较复杂,很多时候指标的统计逻辑的一致性需要底层数据质量的保证,同时也要有非常规范和标准的统计逻辑的定义,所有指标的计算规则必须保证1致。我们经常犯的错误就是汇总数据和细分数据加起来的结果对不上,导致这个问题很有可能的原因就是数据在细分的时候把那鹿无法明碓归到某个细分项的数据给排除了一比

10、如在细分学生=A毕业去向,如果我们无法将某些非直接进入的来源明确地归到升学、就业、出国等这些既定的来源分类,但也不应该直接过滤掉这些数据*而应该给一个,未知来源”的分类,以保证根据来源细分之后的数据加起来还是可以与总体的数据保持一致。如果需要审核这些数据逻辑的一致性,我们可以建立.一些“有效性规则,比如AB,如果C=B/A,那么C的值应该在0,0的范围内等,数据无法满足这些规则就无法通过一致性检验口*91%o、,Ja”3. 3准确性审查;数据的准确性可能存在于个别记录I也可能存在于整个数据集,.如果整韬螭翼的窠力浮段的燃据存簿祺,比如常见的数量级的记录辘谑,*种错编很容易黑班利雨铳计褴耕的平蜘

11、明和中位力也可熏发现这类同感A当数据集中存在个别的舁常值时;同蟆使用最大党最小值的统计量去审施或者使用箱线图也可以让异常记录一目了然.还有几个准确性的审核问题,字符乱码的问题或者字符被截断的问题,可以使用金市来发现这类问题一面的数据记录基本符合正态分布或者类正态分布,那么那些占比异常小的数据项很可能存在问题;比如某个字符记录占叁代的占出兵着Q,I*而其他的占由源在3%以E那么修看雨能送不争符记录有异常对于数值范围既定的数据,也可以有效性的限制大超过数据有效的值域定义数据记录就是错误的如果数据并没有显著异常,但仍然可能记录的值是错误的,只是这些值与正常的值比较接近而己,这类准确性检验最困难.一般

12、只能与其他来源或者统计结果进行比对来发现此类问题,第4章数据清洗业务数据源所提供的数据内容不可能完美,存在着“脏数据I即数据有空缺、噪音等缺陷而且在数据中心的各数据之间,其内容也存在着不一袤版配为于融猿造aa煽萨对*霸加底标第臬的彭扁程原略随采取各种有效的措施对其进行处理,这一过程称为“数据清洗用4.1数据抽取完成之后的数据集所存在的问题4. 1.1不完整的数据这一类数据主要是一些应该有的信息缺失,如教职工的所属单位“性别、编制类别;.主表与明细表不能匹配等a4 .L2错误的数据这一类错误通常产生的原因有两个:一、业务系统不够健全,在接收输入后没有进行判断直榛写入后咨敷痴睡或甑比如除值簸熊鑫僖

13、盛孚军常字符串数据后面有一个回车操作、日期格式不正确、日期越界等7数据抽取的过程中产生的错误数据.5 61.3重复的数据附序这一羹藕一一特别是维表般出现这种嫡T盏箕数据话录的所有字段导出来,让客户确认并整理。“脏数据好会对建立的数据中心造成不良影响,.扭曲从数据中获得的信息,直接影响数据中心的运行效果,进二步影响数据挖掘及分析)最终影响决策管理.因此,为了使数据中心的记录更准确J一致,.消除重复和异常记录就变得很重要,所以数据清洗工作是相当必要的.数据清洗作为数据处理的一个重要环节1在数据中心构建过程中占据重要位置对于任何数据中心而言,数据清洗过程都是必不可少的a4. 2数据清洗的步骤4. 2

14、.1定义和确定错误的类型4. 2.1.1数据审查数据审查是数据清洗的前提与基础,通过详尽的数据审查来检测豢据中的错误或不一致情况一除了手动检查数据或者数据样本之外,还可以使用一些分析工具或程序来获得关于数据属性的元数据.从而发现数据集中存在的问题数裾可5. 2.1.2定义清洗转换规则,根据上一发进行蝴分析得到的结果来定义清洗转换规则与工作流;根据数据源的个数一数据源中不一致数据和无脏数据”多少的程度,需要执行大量.*.严F0.*o.-。.,。二,的数据转换和清洗步骤华6. 2.2搜寻并识别异常的数据422.1检测数据异常检测数据集中的数据异常,需要花费大量的人力、物力和时间,而且这个本身很容易

15、出错,尽量利用一些振法自动检测数据集中白.【据疗常,方法主察益塞壬繇擀做J聚美声檄韧视则的方法,生2.2.2检测重复记录的算法消除重复记录可以针对两个数据集或者一个合并后的数据集,首先需要检测出标识同一个现实实体的重复记录a即匹配过程峰检测重复记录的算法主要有:基本的字段匹配算法,递归的字段匹配算法.Cosine相似度函数.7. 2.3纠正所发现的错误近1*6在数据源执行预先定义好的并且已经得到验证的清洗转换规则和工作流,当直接在源数据上进行清洗时,需要备份源数据?以防需要撤销上一次或ro*T户几次的清洗操作。清洗时根据“脏数据”存在形式的不同,执行一系列的转换步骤来解决数据质M问题二为处理单

16、数据源问题并且为其与其他数据源的合并做好准备,一般在各个数据源上或该分别进行几种类型的转换,主要包括:生以乳工从自由格式的属性字段中抽取值(属性分离)自由格式的属性一般包含着很多的信息,而这些信息有时候需要细化成多个属也.欢而您一费支盘局面重复记录的清洗可4.23.2确认和改正这一步骤处理输入和拼写错误,并尽可能地使其自动化.基于字典查询的拼写检查对于发现拼写错误是很有用的。4.Z3.3标准化为了使记录实例匹配和合并变得更方便九应该把属性值转换成一个一致和统一的格式。4.2.4干净数据回流当数据被清洗后,干净的数据应该替换原来的“脏数据”工这样可以提高系统的数据质量,还可避免将来再次抽取数据后

17、进行重复的清洗工作,4.3数据清洗的评价标准4.3.1数据的可信性可信性包括精确性、完整性、一致性有效性唯一性等指标。完整性:(3)一致性:有效性,唯一性;描述数据是否存在缺失记录或缺失字段.描述同一实体的同一属性的值在不同的系统是否一致。描趣据是否与其对成的客观重体的特征相Mb描述数据是否满足用户定义的条件或在一定的域值范闱内.描述数据是否存在重复记录.。.f彳,kO4.3.2数据的可用性数据的可用性考察指标主要包括时间性和稳定性学时间性:描述数据是当前数据还是历史数据.稳定性才描邮据是清是确定的p是否辐宥效期内。4.4常见的数据清洗算法4.4.1,空缺值的清洗A对于空缺值的清洗可以采取忽略

18、元组,人工填写空缺值,使用一个全局变量填充空缺值.使用属性的平均值、中间值、最大值、最小值或更为复杂的概率统计函数值来填充空缺值。4.4.2噪声数据的清洗Q1-1产噪声数据:指丸点义的数据、损坏数据w髓常采用分箱(Big咽困通过考察属性值的周围值来平滑属性的值.属性值被分布到一些等深或等宽的,rprrr.,br.T*CwF*箱”中,一用箱中属性值的平均值或中值来替换“箱”中的属性值:计算机和人工检查相结合肆计算机检测可疑数据,然后对它们进行人工判断:使用简单规则库检测和修正错误;使用不同属性间的约束检测和修正错误;使用外部数据源检测和修正错误。4.4.3不一致数据的清洗*fL对于有些事务,所记录的数据可能存在不一致,有些数据不一致,可以使用其他材料人工加以更正.例如,数据输入时的错误可以使用纸上的记录加以更正知识工程工具也可以用来检测违反限制的数据?例如,知道属性间的函数依赖,可以查.Dwb.XOBQ._n3IO*T.aJI1t优先队掰算悔近邻拼算法(Sorted一NeighborhoodMethod)3m端7

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!