针对标记数据不足的数据流分类器

引用

摘要：

大部分数据流分类算法解决了数据流无限长度和概念漂移这两个问题。但是，这些算法需要人工专家将全部实例都标记好作为训练集来训练分类器，这在数据流高速到达并需要快速分类的环境中是不现实的，因为标记实例需要时间和成本。此时，如果采用监督学习的方法来训练分类器，由于标记数据稀少将得到一个弱分类器。提出一种基于主动学习的数据流分类算法，该算法通过选择全部实例中的一小部分来人工标记，其中这小部分实例是分类置信度较低的样本，从而可以极大地减少需要人工标记的实例数量。实验结果表明，该算法可以在数据流存在概念漂移情况下，使用较少的标记数据对数据流训练出分类器，并且分类效果良好。

关键词：数据流、分类、概念漂移、主动学习

分类号：TP181(自动化基础理论)

在线出版日期：2015-03-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：124-128

英文信息展示

期刊专题