10.3969/j.issn.1002-137X.2009.11.048
基于优化的文档频和Beam搜索的特征选择方法
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的.
词频、文档频、粗糙集、Beam搜索、属性约简
36
TP301(计算技术、计算机技术)
四川省科技计划项目2008GZ0003;四川省科技厅科技攻关项目07GG006-014
2010-01-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
196-199