差分隐私的数据流关键模式挖掘方法

引用

摘要：

频繁模式挖掘是数据挖掘的重要任务之一,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式.但是由于相邻时间戳的统计信息可以作为背景知识增强攻击者的推理能力,所以从包含个人信息的数据流中挖掘关键模式比静态场景下更容易泄露隐私.分析指出了数据流关键模式挖掘的隐私泄露问题及原理,并提出了一种满足差分隐私的数据流关键模式挖掘算法DP-CPM,该算法在每个时间戳设计一种两阶段机制:差异计算阶段和噪音挖掘阶段.该机制既考虑了隐私和数据效用之间的权衡,又考虑了挖掘时间和维护开销之间的权衡.为了提高数据流中连续发布时的数据效用性,在第1阶段通过计算差异来决定当前时间戳是返回低噪音统计值还是精确的近似统计值.如果是返回低噪音统计值,算法进入噪音挖掘阶段.在噪音挖掘阶段,首先通过判断查询集筛选出关键模式候选集,然后通过给筛选出的候选集里的模式支持度加入服从拉普拉斯分布的随机噪音,得到最终的噪音支持度.最后,给出了严格的理论分析和大量的实验,表明DP-CPM算法的有效性和执行效率.

关键词：关键模式、数据流、差分隐私、数据挖掘、隐私泄露

所属期刊栏目：30

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金61502111,61763003,61672176,61762016,61562007;广西自然科学基金2016GXNSFAA380192;广西科技基地与人才专项AD16380008;广西高等学校千名中青年骨干教师培育计划;“八桂学者”工程专项经费资助项目;广西区域多源信息集成与智能处理协同创新中心

在线出版日期：2019-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共19页

页码：648-666

英文信息展示

期刊专题