含多敏感属性数据重发布的隐私保护技术研究

上传人:zhan****gclb 文档编号:176594728 上传时间:2022-12-23 格式:DOCX 页数:64 大小:292.78KB
收藏 版权申诉 举报 下载
含多敏感属性数据重发布的隐私保护技术研究_第1页
第1页 / 共64页
含多敏感属性数据重发布的隐私保护技术研究_第2页
第2页 / 共64页
含多敏感属性数据重发布的隐私保护技术研究_第3页
第3页 / 共64页
资源描述:

《含多敏感属性数据重发布的隐私保护技术研究》由会员分享,可在线阅读,更多相关《含多敏感属性数据重发布的隐私保护技术研究(64页珍藏版)》请在装配图网上搜索。

1、代号10701学号1075490084分类号U D CTP 393.08密编级号公 开题(中、英文)目含多敏感属性数据重发布的隐私保护技术研究Research on Privacy Preserving Data Republicationof Multi-Dimensional Sensitive Attributes作者姓名刘小猛学校指导教师姓名职称 马文平教授工 程 领 域电子与通信工程企业指导教师姓名职称 赵永刚工程师论文类型应用基础技术提 交 论 文 日 期二一三年三月西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学分和优良的科学道德,本人声明所呈交的论文是我个人在导师

2、指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关的法律责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子

3、科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在本人签名:导师签名:年解密后适用本授权书。日期日期摘要摘要随着 21 世纪信息时代的到来,科学技术的迅猛发展也带动了科技产业的快速成长,计算机、网络和存储技术的高速发展使得海量的数据得于实现,因特网的快速成长使得个人与组织之间的信息分享变得也越来越普遍。然而个人的某些非意愿透露的隐私信息在合理的分享过程中,会被他人恶意的收集与使用,因此有必要对个人隐私信息进行保护。目前保护个人隐私的技术主要是匿名化,早期

4、针对个人隐私保护技术的研究都是针对数据的单次发布,而现实生活中所见的数据集都是在时刻变化的,数据发布方需要不断地对数据集进行记录的删除与添加,而常见的隐私保护发布技术如果直接应用在动态数据集上则会产生一些隐私泄露;另外在个人隐私的保护上,个人记录如果含有多个敏感属性,也会有隐私被揭露的可能。本文在相关研究的基础上,针对含多敏感属性的数据表在动态重发布过程中采用的隐私保护发布技术做了进一步的研究,以医疗数据为例,系统讨论了已有方法应用在多敏感属性数据重发布过程中所产生的泄露风险,首先针对含多敏感属性的数据表分组问题,采用最大敏感覆盖度分组方法进行分组,同时继承了 l-多样性原则的隐私保护要求,引

5、入了强 l-多样性和弱 l-多样性概念,可以在满足上述原则的基础上使记录尽可能多地分到对应等价组内,分组效率高;其次针对具有高敏感度的敏感属性在数据的多次发布过程所带来的隐私泄露问题,引入敏感属性变化方向集概念,并继承 m-不变性思想,分析并设计了一种匿名模型来解决上述问题,以保证每次新增的记录能尽可能地代替被删除的记录,维持并加强隐私保护力度,减少记录隐匿的个数,保证数据的可用性;最后针对需要重发布的数据表与前几次已发布的数据表进行对比,查找是否存在其他推理通道并做进一步的分析。实验结果表明,该模型能进一步加强隐私保护的力度,并能同时维持原有数据的可用性,具有较少的信息损失度。关键词:隐私保

6、护多敏感属性 数据重发布匿名化AbstractAbstractWith the advent of the information era in the 21st century, scientific technologywhich has been rapid developed also contributed to the fast growth of the relatedindustry,high-speed development of computer, network and storage technology makesthe mass of data to be gen

7、erated and collected, thus the requirements of informationsharing between individual and organization will be common.However, some personalprivacy information of unexpectedly revealed will be collected and used maliciously byothers in the reasonable process of information sharing,so it is necessary

8、to prevent thepersonal privacy from being leaked before the publication of data table including privateinformation.Anonymization is an effective approach to prevent privacy leakage,previous reaserch on technology of privacy preserving is about “one-time” release ofstatic datasets,but the datasets is

9、 ever-changing in real life. We often need to add ordelete the records in the orginal datasets constantly,but if the existing technology ofPrivacy Preserving Data Publishing is applied in the dynamic datasets,much privacyinformation will be leaked than before.personal records including multi-dimensi

10、onalsensitive attributes is also a issue in privacy preserving,which will reveal the privacy.This paper mainly discusses the technology of privacy preserving data publishingapplied to the republication of the data table including multi-dimentional sensitiveattributes on the basis of previous studies

11、. we make a further study on this reaserch onmedical datasets,and we systematically discuss the various risk of privacy leakagewhich is caused by the previous approach used in privacy preserving data re-publishing.First we adopt the group technology named Maximum Sensitive Inclusive toaddress the pr

12、oblem about data table including multiple sensitive attributes.It inheritesl-diversity principles of privacy preserving requirements and imports the concepts ofstrong l-diversity principles and weak l-diversity principles,so that the records can beput in the corresponding equivalent group as more as

13、 possible.Secondly,in allusion toprivacy leaking problem caused in data re-publishing of high sensitive attributes,weimport the concepts of change-as-direction set and inherit the idea of m-Invariance. Atlast we analyse and design a Anonymity Model to solve the problem above,making surethat the newl

14、y added records could substitute for the deleted records well.Theexperiment results show that the model can further strengthen the privacy protection,and can also maintain the utility of original data while having less loss of information.Keywords:Privacy Preservingmultiple sensitive attributesRe-Pu

15、blishingAnonymization目录目录第一章 绪论. 11.1 研究背景及意义. 11.2 国内外研究背景. 31.3 论文内容与论文组织安排. 4第二章 隐私保护数据发布基础. 72.1 数据挖掘基础. 72.1.1 数据挖掘简介. 72.1.2 数据预处理. 82.2 数据隐私保护技术基础 . 82.2.1 隐私泄露的种类和风险. 82.2.2 隐私泄露度量与信息损失评估. 92.2.3 隐私保护模型介绍. 102.2.4 匿名化技术介绍. 122.3 本章小结 . 15第三章 数据重发布与多维敏感属性的隐私泄露分析. 173.1 多敏感属性问题分析 . 173.1.1 问题具

16、体分析. 173.1.2 常见算法的不足分析. 183.2 数据重发布问题分析 . 203.2.1 问题具体分析. 203.2.2 常见算法的不足分析. 213.3 动态重发布多敏感属性分析 . 233.4 本章小结 . 27第四章 多敏感属性动态数据重发布匿名算法研究. 294.1 相关定义 . 294.2 属性相关集概念 . 304.3 动态重发布匿名原则 . 334.4 相关匿名算法 . 354.5 本章小结 . 39第五章 实验结果与相关分析. 415.1 实验环境与数据来源 . 415.2 实验结果分析 . 425.2.1 隐私泄露度. 43含多敏感属性数据重发布的隐私保护技术研究5

17、.2.2 附加信息损失度. 435.2.3 记录隐匿率. 445.3 本章小结 . 45第六章 总结与展望. 476.1 工作总结 . 476.2 研究展望 . 47致谢. 49参考文献. 51第一章 绪论1第一章 绪论1.1 研究背景及意义随着社会的不断进步和科技的不断发展,互联网技术也得到了飞速的发展,并加速了社会的信息化进程。信息化时代的到来所带给人们最直接的影响就是信息数量的不断增加,加上计算机、网络以及存储技术的发展,各种各样的数据信息都被保留下来,这就给我们如何充分利用这些数据带来了一些新的思考;出于对信息容量不断膨胀的考虑,科学家甚至整个社会越来越需要充分利用这些数据来获得更多的

18、裨益,因此大量与信息相关的数据访问、信息共享以及数据挖掘等新兴学科的研究也慢慢开展。基于上述研究的需要,这些数据往往需要对外发布,然而这些数据通常都含有大量的个人隐私,例如个人独有的身份信息,以及和他人共有的但不愿意透露的敏感信息等等。因此,如果直接将这些数据对外进行发布,将在很大程度上增加个体隐私信息泄露的风险,对个人以及他人的生活带来很大的困恼。随着社会文明程度的加深,人们越来越重视自己的个人隐私。通过一些隐私事件我们发现个人隐私泄露所带来的巨大危害,所以有必要在数据发布之前对数据中的个体隐私进行保护,然而现有的隐私保护技术主要依赖于特定的政策和规定以限制发布数据的类型和数量。这些方法在很

19、大程度上影响了数据的真实性,使得数据可用性变得很低,不利于现有技术对数据的充分使用。例如,我们常见的医疗数据信息发布,直接拥有患者个体记录的医院需要对外发布医疗数据,以供相关医疗研究机构对这些数据进行研究,比如对某类疾病的覆盖情况、影响该类疾病的相关因素以及这类疾病的传播情况等。然而,这些医疗信息的发布都是公开的,里面包含很多人们不希望他人知道的个人隐私,如果不对这些数据采取相关的保护措施,将可能造成个体隐私的大量泄露,甚至给个人生活带来不可预知的危害。通过对一些隐私泄露事件的研究与分析发现,个人隐私的泄露来源主要包括个人记录中可直接唯一标识个人身份的标识属性(如姓名、身份证号等)以及间接标识

20、个人身份的准标识属性(quasi-identifiers QI,如出生年月、性别、籍贯、家庭住址等)32;还有一类个人隐私,它不是一个人的身份标识,但却是个人不愿公开的个体属性,例如疾病、收入、婚姻状况等。这类隐私的泄露也是具有同样的危害性;所以作为数据发布者,有必要有责任要在发布数据前针对以上个体隐私进行保护,以防止带有恶意企图的攻击者从公开的数据表中获取目标个体的隐私信息。例如下面表 1.1 为某医疗机构对外发布一些个体的病例记录给相关的研究机构进行研究,根据公共意识,Name(姓名)就是标识个人身份的标识属性,需要直2含多敏感属性数据重发布的隐私保护技术研究接删除不予发布;另外,Dise

21、ase(疾病)作为个人不愿公开的敏感属性,如果按照传统的隐私保护措施,也需要删除,但是研究机构需要研究的就是这类敏感属性。因为研究机构研究的是敏感属性在统计学上的分析,但同时也要防止攻击者利用这些敏感属性针对特定个体进行标记。将表 1.1 进行上述处理后,得到表 1.2 所示,假设带有不良企图的研究者(攻击者)想要获取特定个体的敏感信息,他知道这个个体的年龄为 27,性别为男,区号为 710071,并且知道它的记录就在表 1.2 中,那么攻击者就可以很轻松地确定这个个体对应表中的第三条记录。因此,攻击者就知道这个特定个体的敏感信息“Disease”为“HIV”。表 1.1 原始数据表表 1.2

22、 匿名数据表随着人们对隐私的关注越来越多,隐私保护技术也得到广泛的研究和发展。而隐私保护技术中通常采用匿名模型来对发布数据表中个体敏感信息进行匿名隐藏,其中常用的匿名化操作就是泛化,通过泛化可以保证隐私不被泄露,同时又能维持数据的真实性和可用性。随着研究的不断进展,针对单敏感属性的隐私保护数据发布技术已越来越不能满足现在对隐私的需求,而现实中发布的数据表往往含有多个敏感属性,而且这些敏感属性可能会存在一定的联系。例如针对医疗数据,每条个体记录往往含有个体所患的疾病以及相应的主治医生,而医生一般都有自己主治的疾病范围,他只能治疗一种或几种有限的疾病。因此,攻击者如果能进一步掌握特定个体就诊的医生

23、信息,就会进一步加大推测特定个体疾病属性的概率。又如,企业发布员工工作统计信息数据,每个员工记录都包含了该员工的职位与薪水等敏感信息,如果攻击者获取了该员工的职位信息,将能增加推测该员工薪水信息的概率。在实际生活中,多个敏感属性往往是有关联的,所以针对多敏感属性的研究很有必要。ID年龄区号性别疾病122710075男消化不良223710201女感冒327710071男HIV434710024男胃癌526710073女肺炎ID姓名年龄区号性别疾病1张三22710075男消化不良2赵四23710201女感冒3李五27710071男HIV4王六34710024男胃癌5曾七26710073女肺炎第一章

24、 绪论3与此同时在现实应用中,数据表的发布也具有动态性,往往一个数据表需要经常多次对外发布,而每次的数据表相对上次发布的数据表存在一些记录的增加或删除。再以上面医疗数据发布为例,医疗机构需要定期统计一段时间内的疾病信息,并发布患者的病例记录。但随着时间的推移,患者的疾病信息也会不断更新,有可能转化为其他的疾病;也可能患者个体已死亡或出院,此时需要删除该个体记录;当然也有新的患者入院治疗,数据表就需要添加相应的个体记录。因此数据表在经过了这些变化后,需要重新对外公开发布。针对以上问题,本文从两个方面分别研究多敏感属性数据发布和动态数据集的数据发布隐私保护技术,并通过分析,将两者结合起来设计相应的

25、隐私保护模型和相关算法。1.2 国内外研究背景一次数据的使用过程包括数据收集与数据发布。数据收集是指数据发布方收集数据拥有者的个体信息,一般来说,数据发布方对于数据拥有者来说是值得信任的。数据发布是指数据发布方对外向数据接收方发布数据,而这里数据接收方对于数据拥有者是不信任的,所以数据发布方有义务有责任要对发布的数据进行隐私保护。收集发布数据拥有者数据收集者数据接收者图 1.1 数据发布基本模型一般来说,我们常说的数据挖掘就是在数据发布方到数据接收方这个过程当中,此时的数据接收方就是数据控掘工作者,数据发布方发布的数据一般都存在公共的数据库或者面向数据挖掘任务的数据仓库中。目前,国内外的相关研

26、究认为,对数据发布的个人隐私信息处理方法主要有三类2:1)数据扰动技术,对原有的敏感属性值添加其他数据,改变其值以保护隐私,例如数据阻塞4、数据交换等;2)数据加密技术,采用信息加密技术针对敏感属性数据进行加密处理,数据挖掘者无法获知完整的个体记录,如针对分布式数据集的安全多方计算方法(Secure Multiparty Computation)5;3)数据限制发布技术,根据隐私保护要求有选择性地针对属性进行限制发布,如泛化和抑制技术。4含多敏感属性数据重发布的隐私保护技术研究而目前国内外研究者研究的方向多采用数据限制发布技术,它具有上述两种技术的优点同时又弥补上述两种技术的不足,现在已经有了

27、不少研究成果。Samarati 等人6提出了 K-anonymity 模型,针对数据表采用了泛化和匿名操作,该模型要求发布的数据中单条记录都至少与其他 K-1 条记录具有不可区分性,即他们的准标识属性值被泛化成相同的属性值。然而一个数据拥有者有多条记录存在同一张数据发布表中,并且攻击者获知这一背景知识的话,那该模型就不具备匿名性了。针对此问题,Wang、Fung 等人7提出了(X,Y)-anonymity 模型,X 和 Y是两个互不相交的属性集合,该模型要求 X 中的任一值都与 Y 中的 K 个值相对应,以此满足上述对隐私保护的要求。但是当多个记录具有相同的敏感属性值时,攻击者仍然可能通过属性

28、连接来获取个体的隐私信息。因此,MachanavajjhaLa 等人8提出了 l-diversity 多样性算法,来防止相似攻击,它要求数据发布表在满足k-anonymity 模型的基础上,每个等价组中至少要有 l 个可以很好表示的敏感属性值。然则仅仅是 l-diversity 模型并不能防止概率相似性攻击,当一个等价组中某个敏感值出现较多的话,攻击者仍然会以一定概率获取个体敏感信息。Truta 等9针对上述问题提出了(p,k)-anonymity 模型,针对敏感值的不同敏感度,简化了 l 参数的设置。Wong 等10提出了(,k)-anonymity 模型,它要求每个等价组中的任意一个敏感属

29、性值出现的频率不大于 。然而 是一个固定的值,一旦设置,所有的等价类中敏感属性值都被统一约束,适应性较差。针对此问题,后来杨静等人11提出了新的基于敏感值的(,k)-anonymity 模型,来保护特定敏感属性值。李凝辉等人12针对 l-diversity 多样性算法的不足,提出了 t-closeness 模型,它要求每一个等价组内的敏感值分布与它在整个数据集中的分布之间相差不超过阈值 t,然而这并不能保证数据的实用性,弱化了敏感属性与准标识属性之间的关联。1.3 论文内容与论文组织安排本文从特定情况下的隐私保护数据发布问题中进行深入的研究与分析,主要针对多敏感属性以及动态数据重发布的隐私保护

30、技术进行研究,假设攻击者具有一定的背景知识,本文针对此情况做了以下方面的研究工作:首先,简要介绍了隐私保护对数据挖掘等研究工作的重要性,然后对现有的隐私保护数据发布技术做了简单综述,并分析了这些隐私保护数据发布技术的适用场景和不足之处。其次,详细研究分析了多敏感属性隐私保护数据发布和动态数据重发布的问题,以及现有常见算法的不足之处。最后,针对多敏感属性与动态数据重发布过程中的隐私泄露情况,并结合第一章 绪论5m-Invariance 模型,研究并设计了含有永久敏感值的多敏感属性动态数据重发布匿名模型。本文一共分为六章,具体安排如下:第一章 绪论,主要介绍了本文的研究背景及意义、国内外研究现状,

31、最后介绍了本文的主要研究工作及内容安排。第二章 隐私保护数据发布基础,首先简介了数据挖掘的基础知识,以及隐私保护在数据挖掘中的作用;其次重点对数据隐私保护技术做了全面的综述,详细分析了隐私泄露的多种情况以及相应的保护手段。第三章 数据重发布与多维敏感属性的隐私泄露研究,首先分析了数据重发布过程中容易产生的隐私泄露情况以及现有的隐私保护算法的不足之处;而后又分析了多维敏感属性数据发布过程中容易产生的隐私泄露情况以及对应的隐私保护算法的不足之处,最后再着重分析当前多维敏感属性数据重发布隐私保护模型的研究现状。第四章 多敏感属性动态数据重发布匿名算法研究,首先在分析现有的面向多敏感属性动态重发布模型

32、的基础上,引入一些相关规则和概念,并建立了一个针对含永久敏感属性值的多维敏感属性数据重发布模型。第五章 实验环境与相关分析,针对本文提出的算法模型进行了实验,并对实验结果进行了一定分析。第六章 总结与展望,是对全文的一个总结,并对下一步的工作进行了展望。第二章 数据隐私保护相关基础7第二章 隐私保护数据发布基础2.1 数据挖掘基础数据挖掘可以看作是信息化技术自然进化的结果,它是一个多学科交叉融合的应用学科,这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、可视化技术、知识发现甚至人工智能20。自 20 世纪 60 年代以来,数据库和信息技术已经系统地从原始文件处理演变成复杂的、功能

33、强大的数据库系统。自20 世纪 70 年代以来,数据库系统的研究和开发已经发展到了关系型数据库系统,直到 20 世纪 80 年代,数据库技术发展到了高级数据库管理系统,数据挖掘也应运而生,并在 90 年代随着数据库技术的发展而得到突飞猛进的发展。现在数据挖掘已经在多个领域得到应用,数据挖掘的相关研究也在不断发展和进行当中。本节将简介数据挖掘技术以及所要了解到的数据挖掘中的数据预处理过程。2.1.1 数据挖掘简介数据挖掘是指从大量的、复杂的、不可预见的数据当中,自动地发现那些令人感兴趣的并且有用的信息,再将它以人们可见的形式呈现出来这一过程21。这些信息包括频繁模式、分类模型、聚类模型以及异常检

34、测模型等。数据挖掘的目的就是通过挖掘出这些有用的模式信息,从而对现有的数据做出有趣的描述或对未知的数据做出可靠的预测。典型的数据挖掘过程主要包括以下几个步骤(可以进行迭代):(1) 数据预处理,包括数据清理、数据集成、数据选择、数据变换等过程。(2) 数据挖掘,根据数据挖掘任务,使用智能方法提取数据模式。(3) 模式评估,根据某种兴趣度度量,识别代表知识的真正有趣的模式。(4) 知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识。做为一种通用技术,数据挖掘可以挖掘任何类型的数据,数据挖掘应用常见的数据形式主要有数据库数据、数据仓库数据和事务数据。其中数据库数据又以关系型数据库数据居多。常

35、见的数据挖掘算法包括分类挖掘、聚类挖掘、关联规则挖掘以及异常检测。其中分类挖掘比较常见,以决策树为主要手段,通过建立分类器,将记录分类到相应的类标签当中。而聚类挖掘则是将数据记录聚成类或簇,使得同一个簇内的记录高度相似,不同簇的记录之间高度相异。关联规则挖掘则主要是挖掘多个属性之间的关联和相关性。异常检测则是检测出不适用任一个挖掘模式的记录,8含多敏感属性数据重发布的隐私保护技术研究常将这类记录记作离群点,可用于欺诈检测、医疗分析和入侵检测。2.1.2 数据预处理数据预处理作为数据挖掘的第一步,也是最重要的一步。数据发布方向数据接收方公开发布数据前,就要对数据进行预处理,以便进行相关的数据隐私

36、保护以及转换成适合数据挖掘的数据类型。然而这只是数据预处理的一部份,当数据接收方接收到发布的数据表时,还要对数据进行清理、集成与变换等。因为不同的数据形式针对不同的数据挖掘算法;另外,数据库和数据仓库中的数据往往是不完整和不一致的;所以我们要对数据进行预处理以便能在保证个体隐私信息的同时尽量提高数据挖掘的精度。2.2 数据隐私保护技术基础隐私保护数据发布是针对数据在发布给第三方使用之前,对数据的隐私信息进行保护以防止被泄露的一种技术,这种发布方法可以在保护隐私的前提下有效地保证数据的可用性。近年来,隐私保护数据发布技术发展迅速,新的技术不断涌现,发布的适用场景也在逐渐扩大,本章主要是介绍了一些

37、数据发布过程中隐私泄露及保护的情况,以及匿名化的基础知识。2.2.1 隐私泄露的种类和风险基于攻击者所采用的攻击手段,主要有两种隐私泄露模型:第一种隐私泄露是指攻击者可能通过从外部数据源获取与发布的数据表中个体属性相关的信息,并将两者“链接”起来,从而获得可以推理敏感信息的通道,造成个体隐私的泄露,这种隐私泄露我们称之为“链接攻击”,它包括记录链接攻击、属性链接攻击和表链接攻击。这三种攻击都是假设攻击者知道目标个体的准标识属性,并进一步假设知道目标个体存在发布的数据表中,从而产生了推理通道。因此,链接攻击又被称作推理泄露问题。下面简单介绍下这三种链接攻击:(1) 记录链接攻击记录链接攻击是指攻

38、击者根据目标个体的准标识属性,找出具有相同准标识属性的记录组成一个等价组,再根椐目标个体的其他属性和背景知识,并以一定的概率推测出目标个体的敏感信息。常见的 k-anonymity 和(X,Y)-anonymity 模型都是针对此类攻击而建立的。k-anonymity 模型要求在每个目标个体只有一条记录的基础上,规定每条记录至少与其他 k-1 条记录具有不可区分性。这样保证 k 条记录第二章 数据隐私保护相关基础9组成的等价组内所有记录的准标识属性都相同,攻击者无法通过准标识属性唯一确定目标个体。相同的,(X,Y)-anonymity 模型也具有防止此类攻击的作用。(2) 属性链接攻击属性链接

39、攻击是指攻击者在确定目标个体存在发布数据表中所属等价组的情况下,分析该等价组内敏感属性值的分布状况,并以一定概率推测出目标个体的敏感信息。常见的算法有 l-diversity 多样性算法、(,k)-anonymity 模型、t-Closeness算法等。这些模型都是通过降低准标识属性与敏感属性之间的关联性来达到保护敏感信息的目的。(3) 表链接攻击前面两种链接攻击都是假设攻击者已知目标个体存在发布数据表中,而表链接则是推测目标个体的记录是否存在发布数据表中。还有一类隐私泄露则是攻击者利用背景知识,在发布数据前其先验信念和后验信念发生较大变化,我们称之为概率攻击,针对此类隐私泄露的保护模型一般遵

40、循不提供信息原则8。从分析泄露的敏感属性值来看,泄露的属性值可以是确定的,也可以是近似的。比如分类属性,攻击者可以以一定概率推测目标个体属于哪一类敏感属性。又比如数值属性,攻击者可能不确定目标个体的敏感属性值具体是哪个,但能通过背景知识知道该敏感属性值的范围,从而进一步确定目标个体的敏感信息。因此,隐私泄露通常包括确定性泄露、否定性泄露以及概率性泄露。而基于对隐私保护力度的评价,则主要是通过对隐私泄露的多少来衡量的。这里隐私泄露的多少指的是泄露风险。一般来讲,隐私泄露风险指的是攻击者根据掌握的目标个体属性及背景知识,推测出其敏感信息的概率大小。攻击者了解的越多,推测隐私的概率就越大。比如,我们

41、可以假设 S 代表敏感信息,K 代表攻击者所掌握的背景知识,则隐私泄露风险 r(S,K)=p(S/K)。例如,我们常见的l-diversity 多样性算法就保证,数据集中敏感信息的泄露风险不会超过 1/l。2.2.2 隐私泄露度量与信息损失评估如何评价一个隐私保护算法的可靠性,我们通常用隐私泄露度量来表示。前面说到,隐私泄露风险是指攻击者通过从其他数据集获取目标个体的相关信息以及背景知识,在发布数据表中推测目标个体敏感信息的可能。这种隐私泄露风险属于记录联接22,它是指两个数据集 A 和 B,A 中记录与 B 中具有相同属性的记录匹配情况。在数据发布中主要有以下两种度量:(1) 概率度量:数据

42、集 A 中有 m 条记录,数据集 B 中有 n 条记录。A 与 B 则可能存在 m * n 条匹配。则 A 中任意记录 a 和 B 中任意记录 b 一致性是 a 和 b 的二10含多敏感属性数据重发布的隐私保护技术研究元函数。通过这些函数值就可以将不同的记录分成多个情况,以此度量隐私泄露的风险。(2) 距离度量:找出数据集 A 中任意一条记录 a 与其他记录的距离,再从这些距离当中找到两个离 a 最近的记录,并判断这两个记录是否和记录 a 匹配。若匹配则成功,若不匹配则不成功。还有一种针对数据重发布的隐私泄露度量,即数据重发布过程中的易受攻击记录41:n定义 2.1 元数据集. 对于第 n 次

43、数据发布,元数据集 Un 表示为 Un= iU=1Ti ,其中Ti 为第 i 次发布的数据集。定义 2.2 生命周期. 对于任一记录 t Un,则记录 t 的生命周期则为x|t T *x ,1 x n。定义 2.3 候选敏感集(CSS). 如果记录 t 是数据表 T 中的一个记录,那么 t 在 T *j中的候选敏感集 t. CSS j即为 t 在 T *j 中所属等价组内的所有敏感属性的集合。定义 2.4 易受攻击的记录. 如果 t Un,同时它的生命周期为x,y。当且仅当t.CSSxI t.CSSx+1I I t.CSSy 只有一个元素存在,则 risk(t)=1,表明记录 t 是易受攻击的

44、。通过计算每次发布的数据中易受攻击的记录个数占所有记录的百分比,可以衡量数据重发布过程中的隐私保护力度。除了隐私泄露风险以外,在数据发布过程中还要注意数据发布的质量,即数据的可用性。信息损失度(Information Loss)主要指的是经过隐私保护技术处理数据后信息的丢失程度。如果数据信息损失过多,则信息的丢失程度就越大,发布数据的实用性就越低。总体来讲,隐私保护的程度一般用隐私泄露风险和数据可用性来衡量。我们通常将隐私保护技术用在数据发布过程中的匿名处理过程,而数据的信息损失大小也取决于发布过程中选择处理数据的方法,不同的方法将导致数据信息的损失也不同。因此,在实验的过程中适当地参考目前已

45、有的一些匿名方法,再结合本文所述的模型进,比较信息损失的程度。信息损失的度量方法目前有很多种,普遍采用的是一种称为信息熵的计算方法,但是由于数据发布的应用场景不同,通用的信息损失度量方法不一定适用所有的应用场景,因此,在计算信息损失大小的时候一定要考虑到发布的不同场景以避免造成计算的偏差。2.2.3 隐私保护模型介绍随着隐私保护的关注越来越广泛,隐私保护的研究范围也越来广泛。受到数据发布的应用场景限制,隐私保护的研究主要面向两个方向进行:即静态数据集的隐私保护技术研究和动态数据集的隐私保护技术研究。第二章 数据隐私保护相关基础11早期的隐私保护都是面向静态数据集的研究,主要是因为当时数据的信息

46、量少,再加上数据的更新缓慢,每次的更新间隔时间过长,所以早期的研究者们对每次的数据发布过程都是以静态数据集为基础来研究相关的隐私保护技术。在众多的隐私保护模型中,比较典型和常用的有 k-anonymity、l-diversity 和 t-Closeness。其中 k-anonymity 是最早被提出来的隐私保护模型,现有许多其他的隐私保护模型都是在它的基础上不断完善发展的。隐私保护模型往往都是针对一定的隐私泄露情况设计的,常见的隐私泄露情况主要有身份识别、敏感属性识别以及高概率推断等。(1) 身份识别是指攻击者依托背景知识,针对发布数据中个体记录的属性值唯一标识目标个体的身份信息。一般情况下,

47、攻击者都是利用记录的准标识属性值作为背景知识来进行推断的,如果准标识属性值不能唯一标识目标个体,那么就能 起 到 保 护 目 标 个 体 身 份 信 息 的 目 的 。 常 见 的 隐 私 模 型 有 k-anonymity 、(X,Y)-anonymity 以及 Nergiz 等23提出的 multi-relational k-anonymity 模型。它们都是通过将记录分成若干个等价组,每个组内至少有 k 条记录,同一个等价组内的所有准标识属性值都被泛化到相同的值。这样目标个体的记录就不能通过准标识属性唯一被标识。(2) 敏感属性标识也是常见的攻击目的之一,攻击者无需唯一标识目标个体的身份信息,仅需通过准标识属性值确定目标个体属于哪一个等价组,再以一定的背景知识和概率推测出目标个体的敏感属性。因此,为了避免敏感属性被泄露,就要使同一个

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!