在数据隐私日益重要的今天,如何在保护数据隐私的前提下进行数据交集操作成为了学术界和工业界共同关注的焦点。其中,两方私有集合交集(Private Set Intersection, PSI)作为一种重要的密码学应用,允许两个参与方在不知道对方完整集合的情况下,共同计算出双方集合的交集。本文将深入解读由梁之源等人撰写的论文《Benchmark of Two-party Private Set Intersection》,探讨PSI的基本概念、技术原理、应用场景以及最新进展。
一、PSI的基本概念
PSI的核心目标是允许两个参与方(通常称为发送方和接收方)在保护各自数据隐私的前提下,共同计算出它们集合的交集。在这个过程中,双方均不会了解到交集之外的其他信息。这种隐私保护特性使得PSI在许多场景中都具有广泛的应用价值。
论文原文标题:《GOGGLE: GENERATIVE MODELLING FOR TABULAR DATA BY LEARNING RELATIONAL STRUCTURE》
这篇论文介绍了一种名为GOGGLE的深度生成模型,用于学习和利用表格数据中的关系结构以更好地建模变量依赖,并通过引入正则化和先验知识来提高模型性能。与传统的完全连接层不同,该方法使用消息传递机制,能够捕捉稀疏、异构的关系结构。实验结果表明,该方法在生成真实样本文本方面表现良好,并且可以有效地应用于下游任务中。
!GOGGLE: GENERATIVE MODELLING FOR TABULAR DATA BY LEARNING RELATIONAL STRUCTURE
论文方法
方法描述.本文提出了一种基于关系结构的生成模型——GOOGLE(Graph-guided Generative Modeling for Omitted Variable Leverage)。该模型利用学习到的关系结构来指导生成过程,并通过信息传播的方式处理依赖于其他变量的变量。具体来说,模型包括两个主要组件:可学习的关系结构和基于消息传递神经网络的生成模型。关系结构表示为一个加权无向图,其中节点是随机变量,边表示它们之间的依赖关系。生成模型使用消息传递机制在图上执行多轮信息传播,以确定每个变量的值。最后,模型将噪声向量作为输入,通过生成模型生成数据样本。
论文原文标题:《Local Differentially Private Heavy Hitter Detection in Data Streams with Bounded Memory》
本文介绍了一种名为HG-LDP的新框架,旨在实现在有限内存空间内准确检测数据流中的前k个高频项,并提供严格的本地差分隐私保护。该框架解决了传统LDP技术在处理大数据集和内存限制时存在的“准确性、隐私性和内存效率”之间的不良权衡问题。通过设计新的LDP随机化方法,该框架能够有效地应对大规模项目域和内存空间受限的问题。实验结果表明,与基准方法相比,该框架能够在保证高精度的同时节省2300倍的内存空间。该框架的代码已经公开发布。
论文方法
方法描述。该论文提出了一种名为HG-LDP的框架,用于在数据流中跟踪Top-k项并保证用户隐私。该框架包含三个模块:随机化模块、存储模块和响应模块。随机化模块位于用户端,用于随机化用户的敏感数据;存储模块和响应模块位于服务器端,其中存储模块使用空间节省的数据结构。具体来说,使用HeavyGuardian(HG)数据结构来存储随机化的数据,并根据指数衰减策略更新计数。响应模块负责从HG中获取热门项目及其相应的计数,并将其映射到发布列表中,在发布之前对所有计数进行偏差校正。
论文原文标题:《Not Just Summing: The Identifier or Data Leakages of Private-Join-and-Compute and Its Improvement》
本篇论文探讨了在隐私保护下进行数据交互的问题,并针对Google提出的Private-Join-and-Compute库中存在的一些安全漏洞进行了分析和改进。具体来说,该库中的PIS协议和Reverse PIS协议在输入数据结构和处理过程中可能存在用户标识符泄露的风险。为了解决这些问题,本文提出了基于差分隐私技术的改进PIS协议,并对开源库进行了优化。通过使用Tamarin工具进行形式化分析和安全性证明,本文证明了改进后的PIS协议能够成功抵御已知攻击,并且不会带来明显的额外开销。
什么是可信执行环境及其重要性
随着云计算、大数据和人工智能技术的快速发展与广泛应用,数据处理的安全性和隐私保护显得尤为重要。可信执行环境(Trusted Execution Environment, TEE)作为一种关键的技术手段,在保障计算过程中信息的安全方面扮演着不可或缺的角色。
可信执行环境是指在硬件层面提供的一种安全区域,在此区域内运行的应用程序和数据可以得到严格的隔离与保护,不受操作系统或物理主机的干扰。通过TEE技术,可以在虚拟机、容器等环境下创建一个独立且受保护的空间,确保敏感信息的安全性。
在TEE环境中执行的操作被认为是最安全可信的。任何试图访问这些数据的行为都会被严格监控和限制,从而极大地降低了恶意软件或黑客攻击的风险,有效保护了用户的数据隐私与资产安全。