10.3969/j.issn.1673-808X.2012.04.012
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引.采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能.实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强.可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能.
MapReduce、倒排索引、Hadoop集群
32
TP311(计算技术、计算机技术)
国家自然科学基金61163057
2012-10-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
307-312