10.3969/j.issn.1002-1965.2008.03.002
向量空间模型中特征加权的研究
随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF·IDF方法对特征加权.但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF·GINI.实验结果显示,这种加权方法具有很好的分类性能.
文本分类、特征选择、基尼指数、特征加权、向量空间模型
27
G35(情报学、情报工作)
国家自然科学基金60673089
2008-05-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
5-7,10