10.3969/j.issn.1002-137X.2014.05.047
基于加权Bayes分类器的流数据在线分类算法研究
传统的分类算法在对模型进行训练之前,需要得到整个训练数据集.然而在大数据环境下,数据以数据流的形式源源不断地流向系统,因此不可能预先获得整个训练数据集.研究了大数据环境下含有噪音的流数据的在线分类问题.将流数据的在线分类描述成一个优化问题,提出了一种加权的Naive Bayes分类器和一种误差敏感的(ErrorAdaptive)分类器,并通过真实的数据集对提出的算法进行了验证.实验结果表明,文中提出的误差敏感的分类器算法在系统没有噪音的情况下分类预测的准确性要优于相关的算法;此外,当流数据中含有噪音时,误差敏感的分类器算法对噪音不敏感,仍然具有很好的预测准确性,因此可以应用于大数据环境下流数据的在线分类预测.
大数据、决策树、分类算法、流数据
41
TP311(计算技术、计算机技术)
国家自然科学基金61170121
2014-06-03(万方平台首次上网日期,不代表论文的发表时间)
共4页
227-229,234