10.11896/j.issn.1002-137X.2019.05.031
基于概率采样和集成学习的不平衡数据分类算法
集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景.为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost.该算法主要包括3个步骤:首先,依据少数类高斯混合分布得到的概率模型,进行过采样构造平衡数集,扩大少数类的潜在决策域;其次,每轮训练个体分类器时,根据上一轮的错分样本综合考虑样本和特征的加权,过滤冗余噪声特征;最后,通过个体分类器的加权投票得到最终的集成分类器.8组UCI数据分类结果表明,该算法不仅有效提高了少数类的分类精度,同时还弥补了Boosting类算法对噪声特征敏感的缺陷,具有较强的鲁棒性.
不平衡数据分类、集成学习、特征选择、概率分布
46
TP391(计算技术、计算机技术)
2019-06-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
203-208