混合蛙跳算法在文本分类特征选择优化中的应用
[目的]由于文本数据存在许多与分类不相关的冗余词项,引入混合蛙跳算法进行特征选择优化,提高分类准确率.[方法]分别使用CHI和IG预选出不同维度的特征集合,再引入改进后的混合蛙跳算法对预选特征集合进行二次优选,每只青蛙的位置代表一种特征选择规则,将分类准确率作为算法的适应度函数.SVM和KNN分类器用于实验中分类准确率的计算.[结果]引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%.[局限]在少部分特征维度下出现过拟合现象.[结论]采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰,从而提高文本分类准确率.
特征选择、文本分类、混合蛙跳算法
TP391(计算技术、计算机技术)
本文系国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”项目编号:71373291和广东省科技计划项目“面向主题的中文语料库构建方法与技术”项目编号:2015A030401037的研究成果之一.
2017-03-23(万方平台首次上网日期,不代表论文的发表时间)
91-101