期刊专题

10.7544/issn1000-1239.2016.20148281

基于MapReduce的多元连接优化方法

引用
多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的“木桶效应”,通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.该研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接、社交网络中社团发现的链式连接等应用的性能.

多元连接、执行计划、I/O代价、性能优化、MapReduce编程模型、负载均衡

53

TP393(计算技术、计算机技术)

国家自然科学基金重大项目61433008;国家自然科学基金青年基金项目61202088;国家博士后科学基金面上项目2013M540232;中央高校基本科研业务费专项基金项目N120817001;教育部高等学校博士学科点博导基金项目20120042110028This work was supported by the Major Program of the National Natural Science Foundation of China61433008;the National Natural Science Foundation for Young Scholars61202088;the Science Foundation of China for Post-doctor2013M540232;the Fundamental Research Funds for the Central UniversitiesN120817001;the PhD Programs Foundation of Ministry of Education of China20120042110028

2016-06-01(万方平台首次上网日期,不代表论文的发表时间)

共12页

467-478

暂无封面信息
查看本期封面目录

计算机研究与发展

1000-1239

11-1777/TP

53

2016,53(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn