Precise and Fast Cryptanalysis for Bloom Filter Based Privacy-Preserving Record Linkage论文总结

原创已于 2022-10-15 08:14:24 修改 · 347 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#安全 #网络 #人工智能

于 2022-10-08 15:14:31 首次发布

2022暑假学期专栏收录该内容

50 篇文章

订阅专栏

本文提出一种针对基于Bloom过滤器的隐私保护记录链接技术的有效密码分析方法。该方法无需了解编码参数，通过高精度q-gram识别，实现敏感属性值的高效重新识别。实验证明，即使面对多种强化措施，该攻击仍能成功。

Precise and Fast Cryptanalysis for Bloom Filter Based Privacy-Preserving Record Linkage论文总结

Abstract
1 INTRODUCTION
2 BACKGROUND AND RELATED WORK
3 BLOOM FILTER ENCODING AND HARDENING
4 PRECISE AND EFFICIENT Q-GRAM BASED CRYPTANALYSIS ON BLOOM FILTERS
5 COMPLEXITY ANALYSIS AND LIMITATIONS
6 EXPERIMENTAL EVALUATION
7 CONCLUSIONS AND FUTURE WORK

Based Privacy-Preserving Record Linkage论文总结)

Abstract

最近的研究表明，用于PPRL的Bloom过滤器容易受到密码分析攻击，这些密码分析攻击可以重新识别这些Bloom过滤器中编码的某些敏感值。
尽管以前的此类攻击方法很慢，并且需要了解各种编码参数，但我们提出了一种新颖的高效攻击，该攻击利用了如何将属性值编码到Bloom过滤器中。
我们的攻击方法不需要了解所使用的编码功能或其参数设置。它能够正确地用高精度的q-gram重新识别，这些q-gram不可能被散列到某些Bloom过滤器位位置，并且使用这些重新识别的q-gram，它可以重新识别具有高精度的属性值。
我们的方法比早期的PPRL密码分析攻击要快得多

1 INTRODUCTION

最近的研究表明，基于BF的技术可能容易受到旨在重新识别BFS[14]、[15]、[16]、[17]、[18]中编码的敏感属性值的密码分析攻击。
这些攻击使用一组BFS中的频率计数和位模式将频繁的位模式映射到频繁的纯文本值。然而，现有的密码分析攻击是不实用的，因为它们假设攻击者知道在BF编码期间使用的某些参数设置，和/或它们具有高计算成本。

在这篇论文中，我们扩展了我们最近提出的攻击方法[14]，该方法利用了如何将Q图散列到BFS中。对于每个位位置，该方法识别一组可能的Q-grams和一组不可能的Q-grams，然后仅使用这些可能的Q-grams的集合来重新识别属性值。
然而，正如我们的实验所示，这些集合的识别精度较低（即它们包含没有散列到某个位位置的Q-grams），从而导致重新识别的准确率较低。相比之下，我们的新攻击方法使用了具有更高精度的不可能Q-grams。

提出了一种新的方法来识别BF中必须散列到特定位位置的q-grams（我们称之为这些分配的Q-Gram)，以及两种新的方法来细化和扩展可能的、不可能的和分配的q-grams集。
然后，我们提出了一种基于不可能的q-grams集合的属性值重新识别的新方法。

实验评估，证实了它在BF位位置上以高精度重新识别q-grams的能力。

2 BACKGROUND AND RELATED WORK

最近在PPRL中的研究开发了基于扰动的技术，例如使用差分隐私的噪声添加[7]、推广（如k-匿名）或嵌入空间[5]，[6]。这些技术促进了可伸缩的PPRL，代价是与隐私和链接质量的权衡。

BFS容易受到密码分析攻击，这些攻击旨在基于频率信息和背景知识重新识别编码值。

我们最近提出了一种有效的攻击方法[14]，它独立于所使用的BF编码方法工作，并且不需要对所应用的编码参数设置有任何了解。基于与频繁BF对齐的频繁属性值，为每个BF位位置标识可能的和不可能的q-grams集。使用可能的Q-图集合，基于BF位模式重新识别属性值。

3 BLOOM FILTER ENCODING AND HARDENING

使用记录级的BFS会增加隐私性，但是由于只能计算两个记录之间的单个相似度（而使用属性级的BFS时，每个属性只能计算一个相似度），因此可能导致链接质量下降[5]。

用于PPRL的BF编码的最初建议使用双散列方案(DH)
然而，DH有一个缺点，即它生成的比特模式数量大大减少，可以被密码分析攻击利用[15]，[18]。
作为替代方案，最近提出了随机哈希(RH)[23]，其中k个哈希函数的随机种子基于待编码值中的实际q-grams，导致更多样化的比特模式，这些模式不能被以前的一些攻击方法成功攻击[15]，[18]。
然而，正如我们在第6节中的实验所示，我们提出的攻击可以在DH和RH编码方法上都成功。

使BF编码更加安全的第一种方法是使用记录级而不是属性级BF。对于记录级BFS，可被密码分析攻击利用的频率信息要少得多

BFS的另一种强化方法是XORFolding，其中长度为L位的BF被分成长度为L/2的两半，然后对这两个较短的BF应用位异或(XOR)，将它们组合成一个新的BF[24]。 异或操作使得不可能重建原始bf中的实际0或1位值。
一种不同的强化方法是平衡[23]，其中长度为L位的BF与其反拷贝（所有位翻转）相连，然后是2L位的置换。因此，从数据库生成的所有BFS都将其比特的一半设置为1（即，具有统一的汉明权重L)，因此可被攻击利用的频率信息较少。在第6节的实验中，我们证明了即使使用了XORFolding或平衡，我们的攻击也是成功的。