DOI：10.16660/j.cnki.1674-098X.2005-5699-5960

基于页面集的异步刷新页面爬取技术研究

引用

摘要：

对于网络爬虫来说,页面都是"静态"的.在实际的HTML页面中,静态的数据很少,并且很多数据通常通过异步刷新的方式填充到页面中.如何在静态页面中捕获异步刷新填充的数据是网络爬虫研究的关键.为了解决异步刷新获取的问题,多个相互关联的HTTP请求被合并,并加以解析.此外,进一步提出了页面集的概念,即对需要抓取的数据进行归类,将同一被抓取的链接中所有的请求链接归在同一个集合中进行处理,使得数据的层次更清晰.

关键词：网络爬虫、静态页面、请求、异步刷新、页面集

所属期刊栏目：17

分类号：TP393(计算技术、计算机技术)

在线出版日期：2020-11-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：127-128,131

英文信息展示

期刊专题