10.3969/j.issn.1671-1815.2009.04.023
基于网页特征关键词的近似检测算法
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.
近似网页、搜索引擎、网页消重
9
TP391.1(计算技术、计算机技术)
2009-04-01(万方平台首次上网日期,不代表论文的发表时间)
共5页
919-923