期刊专题

10.16660/j.cnki.1674-098X.2005-5699-5960

基于页面集的异步刷新页面爬取技术研究

引用
对于网络爬虫来说,页面都是"静态"的.在实际的HTML页面中,静态的数据很少,并且很多数据通常通过异步刷新的方式填充到页面中.如何在静态页面中捕获异步刷新填充的数据是网络爬虫研究的关键.为了解决异步刷新获取的问题,多个相互关联的HTTP请求被合并,并加以解析.此外,进一步提出了页面集的概念,即对需要抓取的数据进行归类,将同一被抓取的链接中所有的请求链接归在同一个集合中进行处理,使得数据的层次更清晰.

网络爬虫、静态页面、请求、异步刷新、页面集

17

TP393(计算技术、计算机技术)

2020-11-12(万方平台首次上网日期,不代表论文的发表时间)

共3页

127-128,131

暂无封面信息
查看本期封面目录

科技创新导报

1674-098X

11-5640/N

17

2020,17(24)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn