10.3969/j.issn.1671-1815.2017.19.011
关键属性组的相似重复记录检测方法研究
对相似重复记录的检测是数据预处理中的关键环节.针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度.最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性.
统一互信息、关键属性组、降低维度、相似重复记录、噪声属性
17
TP391.1(计算技术、计算机技术)
新疆维吾尔自治区高技术计划项目201512103;新疆维吾尔自治区重点实验室项目2016D03019;新疆维吾尔自治区高层次人才引进工程Y639401201;中国科学院西部博士项目XBBS201315
2017-09-01(万方平台首次上网日期,不代表论文的发表时间)
共7页
65-71