半监督AUC优化的Boosting算法及理论
ROC曲线下面积(Area Under the ROC Curve,AUC)是类不均衡/二分排序等问题中的标准评价指标之一.本文主要聚焦于半监督AUC优化方法.现有大多数方法局限于通过单一模型进行半监督AUC优化,对如何通过模型集成技术融合多个模型则鲜有涉及.考虑上述局限性,本文主要研究基于模型集成的半监督AUC优化方法.具体而言,本文提出一种基于Boosting算法的半监督AUC优化算法,并提出基于权重解耦的加速策略以降低算法时间/空间复杂度.进一步地,在优化层面,本文通过理论分析证明了所提出的算法相对于弱分类器的增加具有指数收敛速率;在模型泛化能力层面,本文构造了所提出算法的泛化误差上界,并证明增加弱分类器个数在提升训练集性能的同时并不会带来明显的过拟合风险.最后,本文在16个基准数据集上对所提出算法的性能进行了验证,实验结果表明所提出算法在多数情况下以0.05显著水平优于其他对比方法,并可在平均意义上产生0.9%~11.28%的性能提升.
AUC优化、集成学习、半监督学习、提升法、Rademacher复杂度
45
TP391(计算技术、计算机技术)
科技创新新一代人工智能重大项目;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;中央高校基本科研业务费专项;中国科学院战略性先导科技专项;博士后创新人才支持计划;中国科学院青年创新促进会项目;阿里巴巴集团ARF项目
2022-08-24(万方平台首次上网日期,不代表论文的发表时间)
共20页
1598-1617