10.3772/j.issn.2095-915x.2017.03.014
一种采用SpotSigs算法的中文新闻网页相似性检测方法
互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难.本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响.以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能.
SpotSigs算法、新闻网页、相似性检测、先行词选取
3
G35(情报学、情报工作)
国家自然科学基金项目"基于论文和专利资源的技术机会发现研究"71403255;"十二五"国家科技支撑计划项目"面向科技情报分析的信息服务资源开发与支撑技术研究"2015BAH25F01
2017-08-04(万方平台首次上网日期,不代表论文的发表时间)
共9页
116-124