10.16652/j.issn.1004-373x.2016.08.003
基于Spark的PFP-Growth并行算法优化实现
随着数据量的增大,FP?Growth算法压缩数据思想的优势就体现出来,基于MapReduce框架的PFP?Growth算法实现该算法在Hadoop平台上的并行化,但是MapReduce框架每次对作业进行操作都要将中间结果输出存储到磁盘,影响算法的效率。为了提高关联挖掘的效率,基于Spark平台,运用均衡分组的思想对该算法进行改进,同时在对具有很长前缀情况进行共享前缀的拆分,通过4个步骤使IPFP?Growth算法在Spark上实现。实验结果表明在Spark平台上优化过后的算法在性能上要优于PFP?Growth算法。
并行化、Spark、关联挖掘、PFP-Growth
39
TN911-34
江苏省973项目BK2011022;国家自然科学基金重点项目612724420
2016-05-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
9-13