2024年代尔夫特理工大学、慕尼黑工业大学等提出增强表格数据合成的CTAB-GAN+

2024-11-17 2024-11-17 1383 字 3 分钟

隐私计算数据隐私

原标题：《CTAB-GAN+: enhancing tabular data synthesis》

发表平台：Frontiers in Big Data

摘要

本文介绍了一种新的条件表格生成对抗网络（CTAB-GAN+），旨在生成高质量的合成数据，同时提供严格的隐私保护。CTAB-GAN+通过添加下游损失来提高合成数据的效用，使用Wasserstein损失和梯度惩罚来改善训练收敛性，并引入了针对混合连续-分类变量和不平衡数据的新编码器。此外，CTAB-GAN+使用差分隐私随机梯度下降（DP-SGD）进行训练，以确保隐私保护。实验结果表明，CTAB-GAN+在多个数据集和学习任务中，能够在给定的隐私预算下，将机器学习效用（如F1分数）提高至少21.9%。

2024年代尔夫特理工大学、慕尼黑工业大学等提出增强表格数据合成的CTAB

解决的主要问题

本文主要研究领域为表格数据合成和差分隐私保护。随着大数据时代的到来，合成数据在数据分析和模型训练中发挥着重要作用，但同时也面临着隐私泄露的风险。现有的生成对抗网络（GAN）在生成高质量合成数据方面取得了显著进展，但在隐私保护方面存在不足。本文旨在通过改进GAN模型，同时提高合成数据的质量和隐私保护水平，解决这一问题。

主要方法和技术

CTAB-GAN+的主要方法和技术包括：

下游损失：CTAB-GAN+引入了下游损失，即在训练过程中加入分类或回归任务的损失函数，以提高生成数据在实际任务中的效用。
Wasserstein损失和梯度惩罚：使用Wasserstein损失（WGAN）结合梯度惩罚（WGAN-GP），以改善模型训练的稳定性和收敛性。
新型编码器：针对混合连续-分类变量和不平衡数据，设计了新的编码器，以更好地处理这些类型的数据。
差分隐私随机梯度下降（DP-SGD）：在训练生成器和辅助模型时使用DP-SGD，以确保生成过程中的隐私保护。
子采样技术：通过子采样技术减少隐私成本，即在训练模型时使用较小的子集代替整个数据集。

实验设置与实验结果

实验设置：

数据集：实验使用了七个广泛使用的机器学习数据集，包括Adult、Covertype、Credit、Intrusion、Loan、Insurance和King。
基线方法：与九种最先进的表格数据生成算法进行了比较，包括IT-GAN、CTGAN、TVAE、TableGAN、CWGAN和MedGAN（无隐私保护设置），以及PATE-GAN、DP-WGAN和GS-WGAN（有隐私保护设置）。
评价指标：使用机器学习效用（如准确率、AUC、F1分数）和统计相似性作为评价指标。

实验结果：

无隐私保护设置：CTAB-GAN+在所有基线方法上平均提高了至少33.5%的准确率和56.4%的AUC。
有隐私保护设置：在相同的隐私预算（ε=1和ε=100）下，CTAB-GAN+在F1分数上分别平均提高了至少7.8%和21.9%。

总结

本文的重要贡献在于提出了一种新的条件表格生成对抗网络CTAB-GAN+，通过多种技术创新，显著提高了合成数据的质量和隐私保护水平。具体而言，CTAB-GAN+通过引入下游损失、使用Wasserstein损失和梯度惩罚、设计新型编码器以及采用差分隐私随机梯度下降等方法，有效解决了现有GAN模型在生成高质量合成数据时的隐私保护问题。实验结果表明，CTAB-GAN+在多个数据集和学习任务中表现出色，能够在给定的隐私预算下显著提高机器学习效用。这些成果为合成数据在实际应用中的安全性提供了有力支持。