面向图书主题的爬虫算法研究
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法.该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法.通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势.
主题爬虫、开放式分类目录系统、向量空间模型、语义扩展度
44
TP302.1(计算技术、计算机技术)
北京市科技创新服务能力协同创新项目PXM2016_014223_000025
2018-01-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
460-463,469