10.13546/j.cnki.tjyjc.2016.12.004
基于统计相关的缺失值数据处理研究
针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法.首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值.以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高.
缺失值、统计相关、决策树、支持向量机、神经网络
O21(概率论与数理统计)
安徽省教育厅自然科学基金重点项目KJ2016A767;芜湖职业技术学院自然科学基金项目Wzyzr201618
2016-07-13(万方平台首次上网日期,不代表论文的发表时间)
13-16