10.3969/j.issn.1671-7775.2016.03.008
一种基于 P2P 技术的分布式微博爬虫系统
微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息。由于传统网页爬虫无法获取完整的微博信息,微博 API 又有诸多限制,因此针对新浪微博,设计了一种基于 P2P 技术的微博爬虫系统。该系统避免了新浪 API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集。通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持。
网络爬虫、P2P、分布式、微博、模拟登录
37
TP311(计算技术、计算机技术)
国家自然科学基金资助项目61373006,61502247
2016-06-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
296-301