10.3778/j.issn.1002-8331.2011.01.038
一种基于过抽样技术的非平衡数据集分类方法
非平衡数据集的分类问题是机器学习领域的一个研究热点.针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS.该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术.在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点.新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力.在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性.
数据挖掘、非平衡数据集、Boosting、错分样本、支持向量机
47
TP181(自动化基础理论)
国家高技术研究发展计划863the National High-Tech Research and Development Plan of China under Grant 2008AA042902,2009AA04Z162;高等学校学科创新引智111计划资助the 111 Project under Grant B07031
2011-05-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
139-143