10.3969/j.issn.1003-9767.2021.22.045
基于爬虫的分布式信息采集处理平台的设计
针对网络信息的指数级增长,面对大量且复杂的信息,无法快速有效地从中获取满足要求信息的情况,本文提出了基于爬虫技术的分布式信息采集处理平台的设计.该平台基于爬虫技术,将信息采集、数据分析处理、个性化推送等合为一体.用户输入关键字词、链接地址等信息,平台内部的爬虫即可根据参考信息在指定网站上进行分布式爬取,采集后的数据经过聚类、自然语言处理等算法的分析处理,转变为成为符合用户需求的数据,最后采用可视化展示等多种形式将信息推送给用户.
爬虫;数据采集;数据分析
33
TP311.56;TP316(计算技术、计算机技术)
2022-02-23(万方平台首次上网日期,不代表论文的发表时间)
共3页
143-145