DOI：10.3969/j.issn.1009-3044.2009.11.033

网络爬虫的设计与实现

引用

摘要：

Web爬虫有两种爬取策略,基于Webcrawler(web爬虫)设计的BFS(广度优先)策略,文章使用MD5算法,来进行O(1)时间复杂度的链接判重.为了避免频繁的查询DNS服务器,建立DNS缓存.另外,也因一般行为模式的考量,在中加入了IP范围控制技术,网页过滤方法,和多线程并发技术.最后,给出了此爬虫所需的时间分析,以供评估并后续发展.

关键词：Webcrawler、广度优先爬取、多线程、DNS缓存、url判重

所属期刊栏目：5

分类号：TP393(计算技术、计算机技术)

在线出版日期：2009-06-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：2867-2868

英文信息展示

期刊专题