DOI：10.3969/j.issn.1006-2475.2009.03.009

一种Deep Web爬虫的设计与实现

引用

摘要：

随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.

关键词：Deep Web、Web爬虫、表单

分类号：TP393(计算技术、计算机技术)

在线出版日期：2009-04-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：31-34

英文信息展示

期刊专题