10.3969/j.issn.1000-0135.2009.01.003
文本分类中一种基于选择的二次特征降维方法
特征选择和特征抽取是文本分类中特征降维的主要方法.目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果.本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的.对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好.
文本分类、特征选择、互信息、期望交叉熵
28
TP3;F27
国家自然科学基金资助项目70571087
2009-02-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
23-27