10.3969/j.issn.1002-137X.2013.11.055
两层聚类的类别不平衡数据挖掘算法
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题.传统分类算法有很大的偏向性,少数类分类效果不够理想.提出一种两层聚类的类别不平衡数据级联挖掘算法.算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界.实验结果表明,该算法具有处理类别不平衡数据分类问题的优势.
数据挖掘、分类、不平衡数据、K均值聚类
40
TP391(计算技术、计算机技术)
佛山市科技发展专项资金项目2011AA100061;佛山市产学研专项资金项目2012HC100272;佛山市教育局智能教育评价指标体系研究项目DX20120220
2013-12-06(万方平台首次上网日期,不代表论文的发表时间)
共5页
271-275