基于Spark框架的聚类算法研究
大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout MapReduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。
大数据、Hadoop、Spark、机器学习、聚类、KMeans
TP311(计算技术、计算机技术)
2015-03-25(万方平台首次上网日期,不代表论文的发表时间)
共3页
56-57,60