10.3321/j.issn:1002-8331.2005.01.052
一种使用双阈值的数据仓库环境下重复记录消除算法
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据.已有研究都是通过设定一个相似度阚值来判断两条记录是否为重复记录.过大的阈值将导致返回率下降,过小的阈值将导致误检率上升.文章提出了一种双阈值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率.
重复记录消除、数据仓库、外键参照、双阈值
41
TP311(计算技术、计算机技术)
国家高技术研究发展计划863计划2002AA4Z3430
2005-04-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
168-170,216