10.3969/j.issn.1000-386x.2013.01.001
基于SolrCloud的分布式相似性检测系统
文档相似性检测中,很多文本的资源是碎片化存储,实现全局的文本查重,在没有统一管理的情况下,不可能短时间将数据集中,数据仍旧是分散存储,为实现全局的检查,采用基于SolrCloud的分布式查重。论文在b位Minwise Hash的基础上,提出了弹性细粒度相似性检测方法;通过分析多粒度特征提取的特点,设置项目模板进行正则表达式匹配,提升了相似性检索的效率,最后通过系统实现验证该系统的有效性。
SolrCloud、相似性检测、哈希、分布式
TP301.6(计算技术、计算机技术)
2016-11-18(万方平台首次上网日期,不代表论文的发表时间)
共5页
79-83