DOI：10.3772/j.issn.1000-0135.2011.09.007

基于SVM的中文查询分类

引用

摘要：

在问答系统中用户的查询是以自然语言问句的形式出现的,查询分类对生成合适的答案有着重要的指导性作用.现有文献大多基于SVM统计学习模型实现查询分类.文章详细分析了中文查询分类的典型特征及其编码过程,并给出了LibSVM分类器的参数优化及核函数选取方法.比较了词袋特征(bag-of-word)和词性与词袋绑定特征(bag-of-word/pos)在LibSVM(RBF)、LibSVM(Linear)和Liblinear三个分类器上的分类精度.实验结果表明,在问题训练集规模较大、特征维数较高的情况下,Liblinear分类器具有更好的性能.同时,得出一个结论:bag-of-word/pos特征对英文查询分类有一定的贡献;对于中文查询分类,虽然理论上增加特征有利于提高SVM分类器的精度,但由于绑定词性特征后可能会引入噪声,进而降低查询分类的精度.

关键词：问答系统、查询分类、SVM、核函数

所属期刊栏目：30

分类号：TP3;TM7

资助基金：计算机软件新技术国家重点实验室开放课题基金项目KFKT2010B02;安徽省高校省级自然科学研究项目KJ2007B245;安徽省高校省级自然科学研究重点项目KJ2011A48

在线出版日期：2011-11-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：946-950

英文信息展示

期刊专题