10.3778/j.issn.1002-8331.1611-0016
基于Storm的流数据KNN分类算法的研究与实现
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类.近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据.考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的K近邻,最后再将所有片集K近邻归约得出整体K近邻,实现待分类向量的分类.实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求.
Storm、KNN算法、流数据、大数据、数据划分
53
TP301(计算技术、计算机技术)
国家自然科学基金61462076,61662067
2017-10-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
71-75,97