隐私保护数据发布技术解析
1. 数据挖掘中的聚合分布利用
在数据挖掘中,算法所确定的聚合分布可用于多种数据挖掘问题,如聚类、分类和协同过滤等。这是因为这些数据挖掘问题可以通过数据的聚合统计信息来实现,而非原始数据记录。
以分类问题为例,可以从数据中重建每个类别的概率分布,这些分布可直接用于朴素贝叶斯分类器。其他分类器,如决策树,也可以进行修改以适应聚合分布,关键在于利用聚合分布来设计决策树的分裂准则。
不过,这种方法对于依赖单个数据记录值的异常检测等数据挖掘问题并不适用。一般来说,由于异常值容易泄露隐私信息,异常分析对于大多数私有数据集而言是一个难题。
2. 隐私保护数据发布概述
隐私保护数据发布与隐私保护数据收集不同,它假设所有记录已由可信方掌握,该方希望发布这些数据用于分析。例如,医院可能希望发布患者的匿名记录,以研究各种治疗方案的有效性。
这种数据发布形式非常有用,因为几乎任何数据挖掘算法都可以应用于发布的数据。攻击者若要确定个人的敏感信息,必须掌握以下两方面信息:
- 数据记录归属 :虽然可以使用身份证号码等识别属性来确定身份,但这些属性通常在数据发布前会被去除。然而,简单的清理方法往往不够,攻击者可能会利用年龄和邮政编码等其他属性进行关联攻击。
- 敏感属性 :数据记录中包含大多数人不愿与他人分享的敏感属性。例如,医院发布医疗数据时,记录可能包含与疾病相关的敏感属性。
数据集中的不同属性在识别个人或泄露敏感信息方面可能发挥不同作用,主要有以下三种类型的属性:
|属性类型|描述|示例|
超级会员免费看
订阅专栏 解锁全文

69

被折叠的 条评论
为什么被折叠?



