10.3321/j.issn:0254-4164.2007.08.002
基于自适应数据剪辑策略的Tri-training算法
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.
半监督学习、数据剪辑、自适应策略、PAC可学习、Tri-training
30
TP181(自动化基础理论)
国家自然科学基金60671011;黑龙江省杰出青年科学基金JC200611;黑龙江省留学回国人员科技项目;哈尔滨工业大学校科研和教改项目HIT.2003.53
2007-10-08(万方平台首次上网日期,不代表论文的发表时间)
共14页
1213-1226