连接位Minwise Hash算法的研究
在信息检索中,Minwise Hash算法用于估计集合的相似度.b位Minwise Hash则通过存储Hash值的b位来估计相似度,从而节省了存储空间和计算时间.基于b位Minwise Hash的理论框架提出了连接位Minwise Hash算法,给出了连接位的相似度无偏估计和存储因子.通过理论证明了连接位Minwisc Hash算法不需要损失很大的精度却可以成倍地减少比对的次数,提升了算法的性能.理论分析和实验验证了此方法的有效性.
相似性检测、相似度估计、Hash、存储因子、连接位
50
TP301.61.1(计算技术、计算机技术)
国家自然科学基金项目M1121008,60873081,60970095,61003033;教育部"新世纪优秀人才"支持计划基金项目NCET-10-078;湖南省杰出青年基金项目11JJ1012
2013-05-17(万方平台首次上网日期,不代表论文的发表时间)
共8页
883-890