10.11896/j.issn.1002-137X.2017.08.009
基于Spark的MapReduce相似度计算效率优化
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求.为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率.通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右.
相似度计算、MapReduce、Spark优化、能耗优化
44
TP393.09(计算技术、计算机技术)
国家自然科学基金项目61562078,61262088,71261025;新疆维吾尔自治区自然科学基金2016D01B014;新疆财经大学博士启动基金2015BS007
2017-10-11(万方平台首次上网日期,不代表论文的发表时间)
共8页
46-53