10.3778/j.issn.1002-8331.1902-0246
Simhash算法在文本去重中的应用
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash).该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析.仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果.
Simhash、信息熵、词频-逆向文件频率、权重优化、文本去重
56
TP301(计算技术、计算机技术)
国家重点研发计划;四川省教育厅项目;四川省高校科研创新团队项目;四川省学术和技术带头人培养支持经费资助项目;四川省应用基础项目;四川省重点研发计划项目;四川省科技支撑计划项目
2020-06-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
246-251