10.11896/j.issn.1002-137X.2015.5.011
一种基于开方检验的特征选择方法
开方检验是目前文本分类中一种常用的特征选择方法.该方法仅关注词语和类别间的关系,而没有考虑词与词之间的关联,因此选择出的特征集具有较大的冗余度.定义了词语的“剩余互信息”概念,提出了对开方检验的选择结果进行优化的方法.使用该方法可以得到既有很强表征性又有很高独立性的特征集.实验表明,该方法表现良好.
文本分类、特征选择、开方检验、互信息
42
TP391(计算技术、计算机技术)
教育部博士点基金资助项目2010081110053
2015-06-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
54-56,77