10.7544/issn1000-1239.2017.20151062
一种正交分解大数据处理系统设计方法及实现
MapReduce等计算框架的出现开启了大数据处理新纪元,以Hadoop,Spark为代表的大数据处理系统具有大吞吐率、跨平台、高可扩展的优势,并得到广泛应用.然而,为避免与具体的操作系统、硬件平台绑定,这些系统的设计与优化集中在计算模型、调度算法等方面,无法充分利用底层平台的优势.提出了一种基于正交分解的大数据处理系统设计与优化方法,将系统分解为松耦合的多个功能正交的模块,使存储、处理功能分离出来,交给能够利用底层平台操作系统甚至硬件资源的存储、执行引擎,原大数据系统退化为调度平台;进而,提出基于锁无关机制的存储底层优化策略和基于指令超级优化的执行引擎底层优化策略.以此为指导,以Hadoop作为兼容和改进的对象,实现了原型大数据处理系统Arion.Arion既能保持Hadoop的跨平台、高可扩展的优势,又能消除任务执行的瓶颈,其本地化的设计与优化手段对非Hadoop平台同样有效.通过在原型系统上的实验证明,Arion能够提升大数据处理任务的执行效率,最高达7.7%.
大数据处理系统、计算框架、本地化、锁无关、超级优化、执行引擎
54
TP391(计算技术、计算机技术)
国家自然科学基金项目61202061,61202413;中国科学院计算技术研究所创新课题项目20146080;the National Natural Science Foundation of China61202061,61202413;the Innovation Program of Institute of Computing Technology,Chinese Academy of Sciences20146080
2017-06-21(万方平台首次上网日期,不代表论文的发表时间)
共12页
1097-1108