10.3778/j.issn.1002-8331.1406-0183
一种基于Hadoop的高效K -Me doids并行算法
针对传统 K -Me doids算法对初始聚类中心敏感、收敛速度慢,以及在大数据环境下所面临的内存容量和CPU处理速度的瓶颈问题,从改进初始中心选择方案和中心替换策略入手,利用Hadoop分布式计算平台结合基于Top K 的并行随机采样策略,实现了一种高效稳定的 K -Medoids并行算法,并且通过调整Hadoop平台,实现算法的进一步优化。实验证明,改进的K-Medoids算法不仅有良好的加速比,其收敛性和聚类精度均得到了改善。
K-Me doids、分布式计算、Hadoop、并行采样
TP301(计算技术、计算机技术)
2015-09-06(万方平台首次上网日期,不代表论文的发表时间)
共8页
47-54