10.3321/j.issn:1002-8331.2007.28.054
基于新闻网页主题要素的网页去重方法研究
网页检索结果中,用户经常会得到内容相同的冗余页面.提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法.该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度.实验结果表明,该方法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率.
新闻主题要素、模糊匹配、去重算法
43
TP391(计算技术、计算机技术)
国家自然科学基金60475022;山西省自然科学基金20041041;山西省留学回国人员科研启动基金2002004
2007-12-03(万方平台首次上网日期,不代表论文的发表时间)
共4页
177-180