10.7544/issn1000-1239.2014.20130340
搜索引擎索引网页集合选取方法研究
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
搜索引擎、内容签名、文本聚类、机器学习、线性回归模型
51
TP391.3(计算技术、计算机技术)
国家“九七三”重点基础研究发展计划基金项目2015CB358700;国家自然科学基金项目60903107,61073071
2014-11-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
2239-2247