10.3778/j.issn.1002-8331.1303-0512
主题搜索引擎中爬虫搜索策略的研究
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。
网络爬虫、主题搜索引擎、搜索策略、向量空间模型
TP391(计算技术、计算机技术)
甘肃联合大学科研能力提升计划项目No.2012YBTS05。
2014-01-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
116-119,128