Precise and Fast Cryptanalysis for Bloom Filter Based Privacy-Preserving Record Linkage论文总结
Based Privacy-Preserving Record Linkage论文总结)
Abstract
最近的研究表明,用于PPRL的Bloom过滤器容易受到密码分析攻击,这些密码分析攻击可以重新识别这些Bloom过滤器中编码的某些敏感值。
尽管以前的此类攻击方法很慢,并且需要了解各种编码参数,但我们提出了一种新颖的高效攻击,该攻击利用了如何将属性值编码到Bloom过滤器中。
我们的攻击方法不需要了解所使用的编码功能或其参数设置。它能够正确地用高精度的q-gram重新识别,这些q-gram不可能被散列到某些Bloom过滤器位位置,并且使用这些重新识别的q-gram,它可以重新识别具有高精度的属性值。
我们的方法比早期的PPRL密码分析攻击要快得多
1 INTRODUCTION
最近的研究表明,基于BF的技术可能容易受到旨在重新识别BFS[14]、[15]、[16]、[17]、[18]中编码的敏感属性值的密码分析攻击。
这些攻击使用一组BFS中的频率计数和位模式将频繁的位模式映射到频繁的纯文本值。 然而,现有的密码分析攻击是不实用的,因为它们假设攻击者知道在BF编码期间使用的某些参数设置,和/或它们具有高计算成本。
在这篇论文中,我们扩展了我们最近提出的攻击方法[14],该方法利用了如何将Q图散列到BFS中。 对于每个位位置,该方法识别一组可能的Q-grams和一组不可能的Q-grams,然后仅使用这些可能的Q-grams的集合来重新识别属性值。
然而,正如我们的实验所示,这些集合的识别精度较低(即它们包含没有散列到某个位位置的Q-grams),从而导致重新识别的准确率较低。 相比之下,我们的新攻击方法使用了具有更高精度的不可能Q-grams。
提出了一种新的方法来识别BF中必须散列到特定位位置的q-grams(我们称之为这些分配的Q-Gram),以及两种新的方法来细化和扩展可能的、不可能的和分配的q-grams集。
然后,我们提出了一种基于不可能的q-grams集合的属性值重新识别的新方法。
实验评估,证实了它在BF位位置上以高精度重新识别q-grams的能力。
2 BACKGROUND AND RELATED WORK
最近在PPRL中的研究开发了基于扰动的技术,例如使用差分隐私的噪声添加[7]、推广(如k-匿名)或嵌入空间[5],[6]。 这些技术促进了可伸缩的PPRL,代价是与隐私和链接质量的权衡。
BFS容易受到密码分析攻击,这些攻击旨在基于频率信息和背景知识重新识别编码值。
我们最近提出了一种有效的攻击方法[14],它独立于所使用的BF编码方法工作,并且不需要对所应用的编码参数设置有任何了解。 基于与频繁BF对齐的频繁属性值,为每个BF位位置标识可能的和不可能的q-grams集。 使用可能的Q-图集合,基于BF位模式重新识别属性值。
3 BLOOM FILTER ENCODING AND HARDENING
使用记录级的BFS会增加隐私性,但是由于只能计算两个记录之间的单个相似度(而使用属性级的BFS时,每个属性只能计算一个相似度),因此可能导致链接质量下降[5]。
用于PPRL的BF编码的最初建议使用双散列方案(DH)
然而,DH有一个缺点,即它生成的比特模式数量大大减少,可以被密码分析攻击利用[15],[18]。
作为替代方案,最近提出了随机哈希(RH)[23],其中k个哈希函数的随机种子基于待编码值中的实际q-grams,导致更多样化的比特模式,这些模式不能被以前的一些攻击方法成功攻击[15],[18]。
然而,正如我们在第6节中的实验所示,我们提出的攻击可以在DH和RH编码方法上都成功。
使BF编码更加安全的第一种方法是使用记录级而不是属性级BF。 对于记录级BFS,可被密码分析攻击利用的频率信息要少得多
BFS的另一种强化方法是XORFolding,其中长度为L位的BF被分成长度为L/2的两半,然后对这两个较短的BF应用位异或(XOR),将它们组合成一个新的BF[24]。 异或操作使得不可能重建原始bf中的实际0或1位值。
一种不同的强化方法是平衡[23],其中长度为L位的BF与其反拷贝(所有位翻转)相连,然后是2L位的置换。 因此,从数据库生成的所有BFS都将其比特的一半设置为1(即,具有统一的汉明权重L),因此可被攻击利用的频率信息较少。 在第6节的实验中,我们证明了即使使用了XORFolding或平衡,我们的攻击也是成功的。
4 PRECISE AND EFFICIENT Q-GRAM BASED CRYPTANALYSIS ON BLOOM FILTERS
我们的新方法大大提高了重新识别属性值的质量
与以前的攻击不同,我们的方法不需要任何关于编码过程中使用的参数的知识,如实际的哈希函数及其编号k,也不需要使用哈希方法(如DH或RH)。
4.1 Q-Gram Candidate Set Generation

4.2 Q-Gram Position Assignment
4.3 Q-Gram Set Refinement and Expansion

4.4 Attribute Value Re-Identification

5 COMPLEXITY ANALYSIS AND LIMITATIONS

6 EXPERIMENTAL EVALUATION
7 CONCLUSIONS AND FUTURE WORK
提出了一种新的有效的攻击方法,该攻击方法是针对PPRL的包含编码敏感属性评估的BFS。 与之前针对PPRL的BFS的攻击不同,我们的方法只要求攻击者能够访问属性值及其频率的公共数据库,而不需要有关所使用的BF编码的信息。
本文提出一种针对基于Bloom过滤器的隐私保护记录链接技术的有效密码分析方法。该方法无需了解编码参数,通过高精度q-gram识别,实现敏感属性值的高效重新识别。实验证明,即使面对多种强化措施,该攻击仍能成功。

758

被折叠的 条评论
为什么被折叠?



