10.3969/j.issn.1672-6944.2021.17.020
基于Selenium的网络爬虫的设计与实现
在互联网高速发展的时代,各大网站对网页元素的数据有着各自的加密方式,使得程序员在数据爬取时遇到的问题越来越多.文章以某文档网站为例,在此文档网站中使用Selenium—一种基于Web的自动化测试工具来模拟浏览器行为,通过其提供的一些方法在画布上查询出图像数据,进而将HTML5的canvas元素进行解析,成功将该网站中的文档图片爬取了出来.
Selenium技术;网络爬虫;JavaScript脚本语言
18
2020年度大学生研究训练计划SRTP项目;项目编号:2020099
2021-11-08(万方平台首次上网日期,不代表论文的发表时间)
共2页
39-40