10.3778/j.issn.1002-8331.2012.09.030
基于层次聚类识别数据集前n个全局孤立点
孤立数据的存在使数据挖掘结果不准确,甚至错误.现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此,提出一种有效的全局孤立点检测方法,该方法进行凝聚层次聚类,根据聚类树和距离矩阵来可视化判断数据孤立程度,确定孤立点数目.从聚类树自顶向下,无监督地去除离群数据点.在多个数据集上的仿真实验结果表明,该方法能有效识别孤立程度最大的前n个全局孤立点,适用于不同形状的数据集,算法效率高,用户友好,且适用于大型高维数据集的孤立点检测.
孤立点检测、层次聚类、数据挖掘
48
TP311(计算技术、计算机技术)
广西大学科研基金XJZ100258
2012-06-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
101-103,107