DOI：10.3969/j.issn.1672-6944.2021.17.020

基于Selenium的网络爬虫的设计与实现

引用

摘要：

在互联网高速发展的时代,各大网站对网页元素的数据有着各自的加密方式,使得程序员在数据爬取时遇到的问题越来越多.文章以某文档网站为例,在此文档网站中使用Selenium—一种基于Web的自动化测试工具来模拟浏览器行为,通过其提供的一些方法在画布上查询出图像数据,进而将HTML5的canvas元素进行解析,成功将该网站中的文档图片爬取了出来.

关键词：Selenium技术;网络爬虫;JavaScript脚本语言

所属期刊栏目：18

资助基金：2020年度大学生研究训练计划SRTP项目;项目编号:2020099

在线出版日期：2021-11-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：39-40

英文信息展示

期刊专题