10.11896/j.issn.1002-137X.2016.9.005
基于MapReduce的数据倾斜连接算法
连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法.根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布.重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率.通过与传统连接算法的对比,证明了所提算法的有效性和实用性.
数据倾斜、MapReduce、连接算法、负载均衡
43
TP311.1(计算技术、计算机技术)
湖北省自然科学基金重点项目2015CFA067,2013CFA115;湖北省教育厅科研项目计划D20151001;武汉市科技攻关计划项目2013012401010851
2016-10-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
27-31