10.3969/j.issn.1009-3044.2009.11.033
网络爬虫的设计与实现
Web爬虫有两种爬取策略,基于Webcrawler(web爬虫)设计的BFS(广度优先)策略,文章使用MD5算法,来进行O(1)时间复杂度的链接判重.为了避免频繁的查询DNS服务器,建立DNS缓存.另外,也因一般行为模式的考量,在中加入了IP范围控制技术,网页过滤方法,和多线程并发技术.最后,给出了此爬虫所需的时间分析,以供评估并后续发展.
Webcrawler、广度优先爬取、多线程、DNS缓存、url判重
5
TP393(计算技术、计算机技术)
2009-06-10(万方平台首次上网日期,不代表论文的发表时间)
共2页
2867-2868