10.3969/j.issn.1000-0135.2002.02.001
搜索引擎中Robot搜索算法的优化
目前的搜索引擎越来越暴露出不足之处,当用户使用搜索引擎时输入特定关键词之后,返回的查询结果往往有数千甚至几百万之多,而且其中包含大量的重复信息与垃圾信息,用户从中筛选出自已感兴存的网页仍然需要耗费很长的时间.另外一种情况就是,Web上明明存在某些重要网页,却没有被搜索引擎的robot发现.本文针对这种现象,重点讨论搜索引擎中的搜索策略,改善搜索算法,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表.根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank,使URL列表能够根据重要性调整排列顺序.初步的试验结果表明,本文的优化算法可以较大程度地改进搜索引擎的整体性能.
搜索引擎、超链接、Robot PageRank
21
G354(情报学、情报工作)
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
130-133