差分隐私下的一种频繁序列模式挖掘方法

引用

摘要：

频繁序列模式挖掘是数据挖掘领域的1个基本问题，然而模式本身及其支持度计数都有可能泄露用户隐私信息。差分隐私（differential privacy ，DP ）作为一种新出现的隐私保护技术，定义了一个相当严格的攻击模型，通过添加噪音使数据失真达到隐私保护的目的。由于序列数据内在序列性和高维度的特点，给差分隐私应用于频繁序列模式挖掘带来了挑战。对此提出了一种基于交互式差分隐私保护框架的频繁序列模式挖掘算法Diff‐FSPM （differential‐privacy frequent sequential pattern mining ）。该算法利用指数机制获取最优序列长度，并采用一种维规约策略获得原始序列数据集的规约表示，有效降低序列维度的影响；应用前缀树压缩频繁序列模式，利用拉普拉斯机制产生的噪音扰动频繁模式的真实支持度计数，同时采用闭频繁序列模式和M arkov假设，有效分配隐私预算，并利用一致性约束后置处理，增强输出模式的可用性。理论角度证明算法满足ε‐差分隐私，实验结果验证算法具有较好的可用性。

关键词：频繁序列模式、数据挖掘、差分隐私、隐私保护、前缀树

分类号：TP18(自动化基础理论)

资助基金：国家科技重大专项基金项目2012ZX01039-004；中国科学院战略性先导科技专项基金项目XDA06010600；中国博士后科学基金一等资助项目2014M560123；国家自然科学基金项目61202285

在线出版日期：2016-03-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：2789-2801

英文信息展示

期刊专题