10.3969/j.issn.1671-1122.2016.11.003
一种基于改进模糊哈希的文件比较算法研究
模糊哈希算法广泛应用于同源相似文件的检索、恶意代码检测、电子数据取证等领域。模糊哈希算法首先依据文件长度和文件内容检测对文件进行分片,再对每一个分片进行滚动哈希运算,最后将各分片的哈希值连接在一起,形成文件指纹,实现了具有局部敏感特性的近似最邻近搜索。文章采用了关键词触发的变长分片策略和基于simhash的滚动哈希计算方法对现有的模糊哈希算法进行改进,克服了分片长度依赖于文件长度、触发条件与分片中内容无紧密联系、运算性能受滚动窗口长度制约的缺陷。基于多种语料库的文件比较实验表明,文章提出的改进模糊哈希算法可以有效地实现同源相似文件的发现,且具备支持多级信息粒度比较的能力。
模糊哈希、局部敏感、文件比较、滚动哈希
TP309(计算技术、计算机技术)
国家信息安全专项20131309
2016-12-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
12-18