10.11925/infotech.2096-3467.2021.1125
融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例
[目的]解决传统主题爬虫容易出现爬取率低和主题相关度不足的问题.[方法]基于Shark-Search算法,提出两步式动态扩充主题词表的主题爬虫算法Two-step Dynamic Shark-Search(TDSS),将传统算法中主题相关性计算拆分为链接主题相关性和页面主题相关性两个单独步骤.通过相关资料和工具建立并拓展的主题词表,并在爬虫运行过程中从主题相关页面提取新的关键词补充到主题词表中,提升主题判断的效果.[结果]在相同的实验环境下,TDSS主题爬虫方法比对比算法的爬准率最多高14.2%,采集效率最多高35%.[局限]动态主题词扩展算法需进一步完善,主题词表过度扩充会降低爬准率.[结论]基于TDSS的主题爬虫能够有效提高获取主题信息的准确率,爬取更多与主题相关的网页.
主题爬虫、Shark-Search、主题相关度、主题词表
6
E91;TP391(军事技术基础科学)
江苏省社会科学基金项目20TQB004
2022-11-28(万方平台首次上网日期,不代表论文的发表时间)
共9页
52-60