数据合成是一种最通用的、最有商用前景的隐私保护应用。数据合成的目标是通过一个满足差分隐私的算法发布一个完整的合成数据库,之后所有的查询请求将通过合成数据库来直接回答,从而避开带有隐私信息的原数据库。该设计的优点是:(1)普适性,因为发布的是完整数据库,所以支持大部分查询操作和数据挖掘应用;(2)复用性,合数据库可以一直使用,而不用担心过多的回答会加重隐私泄漏。最早的数据合成算法的思路是首先从数据库生成列联表,然后通过拉普拉斯机制随机加噪生成带噪列联表,最后还原出一个带噪的合成数据库。但是,这一思路在面向高维数据时会产生严重的问题:(1)列联表的大小是数据维度的指数倍,这导致高维带噪列联表很难被计算出来;(2)由于列联表的大小远大于数据库,因此信息在列联表中的分布极其稀疏,在加入噪音后,列联表的信噪比将变得非常低,使得其无法反映原数据库的有用信息。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 差分隐私的应用之数据合成小议