10.3969/j.issn.1671-1815.2017.27.040
I-Apriori:一种基于Spark平台的改进Apriori算法
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理.提出一种基于Spark平台的改进Apriori算法-I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率.实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率.
内存计算框架、数据挖掘、关联规则算法、布隆过滤器
17
TP311.1(计算技术、计算机技术)
国家自然科学基金61402529
2017-11-30(万方平台首次上网日期,不代表论文的发表时间)
共6页
243-248