10.16660/j.cnki.1674-098X.2005-5699-5960
基于页面集的异步刷新页面爬取技术研究
对于网络爬虫来说,页面都是"静态"的.在实际的HTML页面中,静态的数据很少,并且很多数据通常通过异步刷新的方式填充到页面中.如何在静态页面中捕获异步刷新填充的数据是网络爬虫研究的关键.为了解决异步刷新获取的问题,多个相互关联的HTTP请求被合并,并加以解析.此外,进一步提出了页面集的概念,即对需要抓取的数据进行归类,将同一被抓取的链接中所有的请求链接归在同一个集合中进行处理,使得数据的层次更清晰.
网络爬虫、静态页面、请求、异步刷新、页面集
17
TP393(计算技术、计算机技术)
2020-11-12(万方平台首次上网日期,不代表论文的发表时间)
共3页
127-128,131