10.3778/j.issn.1002-8331.1406-0081
Hadoop中处理小文件的四种方法的性能分析
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集.但是在实际应用中,却存在着大量的小文件.一般情况下有四种处理海量小文件的方法,分别为默认输入格式TextInputFormat、为处理小文件而设计的CombineFileInputFormat输入格式、SequenceFile技术以及Harballing技术.为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异.实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率.
Hadoop、小文件处理、Hadoop的分布式文件系统(HDFS)、MapReduce、大数据
52
TP311(计算技术、计算机技术)
安徽省自然科学基金1308085QF114;安徽省高等学校省级自然科学研究项目KJ2013A015
2016-07-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
44-49