噪声标签重标注方法

引用

摘要：

样本标签的完整性对于有监督学习问题的分类精度有着显著影响,然而在现实数据中,由于标注过程的随机性和标注人员的不专业性等因素,数据标签不可避免地会受到噪声污染,即样本的观测标签不同于真实标签.为降低噪声标签对分类器分类精度的负面影响,文中提出一种噪声标签纠正方法,该方法利用基分类器对观测样本进行分类并估计噪声率,以识别噪声标签数据,再利用基分类器的分类结果对噪声标签样本进行重新标注,得到噪声标签样本被修正后的样本数据集.在合成数据集与真实数据集上的实验结果表明,该重标注算法在不同基分类器和不同噪声率干扰下对分类结果都有一定的提升作用,在合成数据集上对比无降噪声算法,其正确率提升5％左右,而在CIFAR和MNIST数据集上的高噪声率环境下,该重标注算法的F1值比Elk08和Nat13平均高7％以上,比无噪声算法高53％.

关键词：噪声标签学习、重标注标签、逻辑回归、朴素贝叶斯

所属期刊栏目：47

分类号：TP301(计算技术、计算机技术)

资助基金：国家自然科学基金项目61872186,61802205,91846104

在线出版日期：2020-07-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：79-84

英文信息展示

期刊专题