10.11896/j.issn.1002-137X.2015.10.028
基于半监督聚类的文档敏感信息推导方法
针对当前多文档聚合推导引起的敏感信息泄露问题存在风险大、隐蔽性高的特点,提出了一种基于半监督聚类的文档敏感信息推导方法.首先,为确保在较小的时间开销下获得高质量的约束信息,设计了一种新颖的二阶约束主动学习算法,它通过选择不确定性最大的样本点来生成信息量最大的约束闭包;然后,在引入约束信息的基础上结合DBSCAN提出一种新的半监督聚类算法,它能够有效解决DBSCAN算法存在的边界模糊问题,提高文档聚类准确性;最后,在半监督聚类结果的基础上,对相似文档进行敏感信息可能性测度.实验表明,半监督聚类算法准确率提升明显,推导方法能够有效推导出敏感信息.
半监督聚类、DBSCAN、主动学习、敏感信息、模糊数学、推导方法
42
TP393(计算技术、计算机技术)
国家高技术研究发展计划863计划项目2012AA012704
2015-11-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
132-137