10.3321/j.issn:1000-0054.2006.04.021
基于特征有序对量化表示的文本分类方法
文本分类技术应尽可能包含语言中各种各样的约束信息,但目前常用的文本表示方法却忽视组成文本的语言特征顺序.该文采用基于聚类的方法实现语言特征有序对的快速量化表示,并由此导出新的基于特征有序对的文本表示方法以揭示文本中所呈现出的语言特征顺序信息.运用向量空间质心法,分别依据词对和词类对表示文本并在3个数据集上进行实验.结果表明性能优于基于单纯词或单纯词类的文本表示方法,宏平均F1值绝对提高分别为3%~4%和5%~7%(相对改善分别是4%~5%和8%~10%). 由此说明特征顺序信息对提升文本分类性能具有重要作用.
文本分类、特征选择、特征抽象、特征变换、奇异值分解
46
TP391(计算技术、计算机技术)
国家科技攻关项目2001AA114071
2006-06-05(万方平台首次上网日期,不代表论文的发表时间)
共4页
527-529,533