结合主动学习与置信度投票的集成自训练方法

引用

摘要：

基于集成学习的自训练算法是一种半监督算法，不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记，后者这种情形可能会误标记靠近决策边界的样本，而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同，从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略，选择置信度高且投票一致的无标记样本加以标注，同时利用主动学习对投票不一致而置信度较低的样本进行人工标注，以弥补集成自训练学习只关注置信度高的样本，而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。

关键词：集成自训练算法、主动学习、加权K最近邻(KNN)、朴素贝叶斯、置信度

所属期刊栏目：52

分类号：TP181(自动化基础理论)

资助基金：重庆市科委科研项目No.cstc2014jcyjA40011。

在线出版日期：2016-10-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：167-171,230

英文信息展示

期刊专题