10.3969/j.issn.1002-137X.2012.z3.057
数据清洗及其一般性系统框架
数据清洗是提高数据质量的重要手段之一.从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架.数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修.对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念.提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证5部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架.
数据质量、数据清洗、相似重复记录、不完整记录、框架
39
TP311(计算技术、计算机技术)
中国博士后科学基金特别资助项目201003797;中国博士后科学基金项目20090461425;江苏省博士后科研资助计划0901014B;解放军理工大学预研基金项目20110604
2013-01-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
207-211