10.3969/j.issn.1671-1122.2018.01.009
基于MapReduce的开源代码并行爬取方法研究与实现
随着互联网上开源代码越来越多,设计程序时寻找和复用已有的开源代码已经成为软件工程的一种趋势.为了快速和精准地搜索开源代码,文章设计了基于MapReduce计算模型的源代码并行爬取方法,并编写代码,实现了源代码并行爬取系统.文章首先分析当前各种开源代码库,选择合适的代码爬取场所和爬取对象,明确并行爬取的工作流程和目标;然后给出源代码并行爬取的Map方法和Reduce方法,基于此设计一套开源代码并行爬取算法;最后利用集群计算环境实现开源代码的并行爬取.实验表明,多机并行搜索源代码与传统方法相比,速度明显提高,且搜索的返回结果可信度更高.
软件工程、源代码搜索、并行爬取、MapReduce、开源代码
TP309(计算技术、计算机技术)
国家高技术研究发展计划863计划2009AA012201;同济大学实验教学改革基金0800104214
2018-05-07(万方平台首次上网日期,不代表论文的发表时间)
共9页
58-66