10.3778/j.issn.1002-8331.1707-0329
一种结合改进CHI和RFFS的特征选择算法研究
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类算法准确率高的特点,提出一种将改进CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法.先利用TDF-CHI算法计算特征词的文档频率及词频与类别的相关程度来进行特征选择,去除冗余特征;再通过RFFS算法度量剩余特征的重要性,进行二次特征选择,优化特征集合,使分类器的性能进一步提升.为了验证改进算法的优越性,利用新闻文本数据,在常用的分类器上进行测试.实验表明,改进算法相比传统CHI算法所选特征词具有更好的分类效果,提高了分类器的准确率和召回率.
特征选择、TDF-CHI、随机森林特征选择(RFFS)、文本分类
54
TP391(计算技术、计算机技术)
吉林省科技发展计划重点科技攻关项目20150204036GX;吉林省省级产业创新专项资金项目2017C051
2018-11-28(万方平台首次上网日期,不代表论文的发表时间)
共8页
133-140