期刊专题

10.3772/j.issn.2095-915x.2017.03.014

一种采用SpotSigs算法的中文新闻网页相似性检测方法

引用
互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难.本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响.以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能.

SpotSigs算法、新闻网页、相似性检测、先行词选取

3

G35(情报学、情报工作)

国家自然科学基金项目"基于论文和专利资源的技术机会发现研究"71403255;"十二五"国家科技支撑计划项目"面向科技情报分析的信息服务资源开发与支撑技术研究"2015BAH25F01

2017-08-04(万方平台首次上网日期,不代表论文的发表时间)

共9页

116-124

暂无封面信息
查看本期封面目录

情报工程

2095-915X

10-1263/G3

3

2017,3(3)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn