10.3969/j.issn.1002-1965.2008.05.042
基于同义词词林的文本特征选择与加权研究
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法.该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征.实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度.
文本分类、特征选择、特征加权、同义词词林
27
TP3;H
国家自然科学基金资助项目60673089;唐山市重点实验室项目06360301A-6
2008-07-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
130-132