基于语义指纹的中文文本快速去重
针对中文文本,抽取出文本内容特征,结合Sirnhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度.整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程.实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作.
语义指纹、Simhash、Single-Pass、文本去重
TP391.3(计算技术、计算机技术)
国家自然科学基金项目"科研团队动态演化规律研究"项目71273196的研究成果之一
2013-10-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
41-47