10.3969/j.issn.1002-137X.2013.03.007
一种周期性MapReduce作业的负载均衡策略
MapReduce任务负载均衡主要是通过分区函数来实现的,Hadoop默认的分区函数并不能很好地保证reducer的负载均衡.针对周期性的业务处理提出了一种基于权重计算的负载均衡策略,周期性任务的数据分布与历史数据相比具有相似性.本策略根据历史数据运行的信息运算出数据权重信息(文中用权重表示每条记录的处理复杂度),再通过Map阶段抽样分析当前这批数据的分布特征来预测待处理数据带权重的整体近似分布情况,从而指导Reduce分区,以保证其负载均衡.通过简单的例子仿真了整个策略的运作过程,并且对比了与TeraSort思路的不同点.最后通过分析用户访问视频的日志证明了文中提到的策略比默认的策略性能提高了接近1倍.
MapReduce、TeraSort、负载均衡、周期性
40
TP311.1(计算技术、计算机技术)
国家自然科学基金61272087,61073008,60773148,60503039;北京市基金4082016,4122039
2013-04-16(万方平台首次上网日期,不代表论文的发表时间)
共3页
38-40