隐私保护数据发布:k - 匿名模型解析
1. 聚合分布与数据挖掘
在数据挖掘中,算法确定的聚合分布可用于多种数据挖掘问题,如聚类、分类和协同过滤。这是因为这些数据挖掘问题都可以通过数据的聚合统计信息来实现,而非原始数据记录。
1.1 分类问题中的应用
在分类问题中,可以从数据中重建每个类别的概率分布。以朴素贝叶斯分类器为例,这些分布可直接用于其分类过程。其他分类器,如决策树,也可进行修改以处理聚合分布,关键在于利用聚合分布来设计决策树的分裂准则。
1.2 不适用于异常检测
然而,这种方法对于依赖单个数据记录值而非聚合值的异常检测等数据挖掘问题并不适用。因为异常值往往会泄露私人信息,所以在大多数私有数据集中,异常分析是一个难题。
2. 隐私保护数据发布概述
隐私保护数据发布与隐私保护数据收集不同,它假定所有记录已由可信方持有,该方希望发布这些数据以供分析。例如,医院可能希望发布患者的匿名记录,以研究各种治疗方案的有效性。
2.1 数据发布的作用
这种数据发布形式非常有用,因为几乎任何数据挖掘算法都可以应用于发布的数据。但攻击者若要确定个人的敏感信息,需要掌握两方面的信息:
1. 数据记录的归属 :虽然可以使用识别属性(如社会安全号码)来确定身份,但这些属性通常在数据发布前会被删除。然而,简单的清理方法往往不够,攻击者可能会使用其他属性(如年龄和邮政编码)进行关联攻击。
2. 敏感属性 :数据记录中包含大多数人不愿与他人共享的敏感属性。例如,医院发布医疗数
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



