10.3772/j.issn.1000-0135.2010.04.022
一种基于类别的组合型文本特征选择
文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度.
文本分类、特征选择、互信息方法、特征加权
29
TP3;TP1
国家自然科学基金资助项目70571087
2010-09-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
744-748