10.11896/j.issn.1002-137X.2017.02.013
基于元组相似度的不完备数据填补方法研究
随着互联网及信息技术的发展,数据缺失、损坏等问题越来越普遍,尤其随着数据收集工作从人工转向机器,存储介质的不稳定性及网络传输出现遗漏等原因都导致数据缺失更加严重.数据库中大量的缺失值不仅严重影响了用户查询质量,还对数据挖掘与数据分析结果的正确性造成了影响,进而误导决策.目前,对缺失数据的填补还没有一种比较通用的方法,大部分策略都是针对某一类型的缺失值问题进行处理.因此,针对不同缺失类型同时出现在不完备数据中的复杂情况,提出了一种基于元组相似度的不完备数据填补方法(IATS).采用数据挖掘的方法提取出不完备数据集中的加权关联规则,并根据此规则进行常规缺失数据的填补,而对于数据集的异常缺失问题,又引入数据推荐算法,采用推荐筛选策略进行元组相似度的计算并实现相应填补,在很大程度上提高了数据的有效利用率和用户查询结果的质量.实验表明,IATS策略在保证填补率的前提下具有更好的准确率.
海量数据、缺失类型、加权关联规则、元组相似度
44
TP311(计算技术、计算机技术)
国家自然科学基金项目61472169,61472072;国家科技支撑计划项目2012BAF13B08;国家“973”重点基础研究发展计划前期研究专项2014CB360509;辽宁省科学事业公益研究基金项目2015003003;辽宁大学科研基金科技类项目LDQN2015001
2017-04-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
98-102,106