基于Spark的并行DBSCAN算法的设计与实现
随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注.主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量.最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响.结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6.
Spark、并行DBSCAN算法、DAG、并行化策略
44
TP301.6(计算技术、计算机技术)
北京市自然科学基金2112011;中央高校基本科研业务费基金2050205
2018-01-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
524-529