DOI：10.3969/j.issn.1671-1122.2020.10.005

基于距离与误差平方和的差分隐私K-means聚类算法

引用

摘要：

K-means算法具有简单、快速、易于实现等优点,被广泛应用于数据挖掘领域,但在聚类过程中容易造成隐私泄露.差分隐私对隐私保护做了严格定义,且能够对隐私保护量化分析.为解决差分隐私保护中K-means聚类算法在初始中心点选择上具有盲目性而造成聚类可用性低的问题,文章提出一种BDPK-means聚类算法,该算法利用距离与簇内误差平方和的方法选取合理的初始中心点进行聚类.理论分析证明,该算法满足 ε-差分隐私.实验证明,相同条件下与现有DPK-means算法相比,BDPK-means算法可提高聚类的可用性.

关键词：隐私保护、数据挖掘、差分隐私、K-means聚类、误差平方和

分类号：TP309(计算技术、计算机技术)

资助基金：国家自然科学基金[61962005

在线出版日期：2020-12-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：34-40

英文信息展示

期刊专题