10.3969/j.issn.1003-3513.2008.03.010
基于后缀树的中文新闻重复网页识别算法
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法.该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化.实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义.
后缀树、重复网页、Ukkonen算法、匹配统计算法
TP391;G202(计算技术、计算机技术)
2008-09-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
55-61