DOI：10.3321/j.issn:1002-8331.2006.26.054

基于字符串核的免分词中文文本分类方法

引用

摘要：

文本分类是获取文本信息的重要一步,现有的分类方法主要是基于统计理论和机器学习的,其中著名的有Bayes[1]、KNN[2]、SVM[3]、神经网络等方法.实验证明这些方法对英文分类都表现出较好的准确性和稳定性[4].对于中文文本分类,涉及对文本进行分词的工作.但是中文分词本身又是一件困难的事情[5].论文尝试一种基于字符串核函数的支持矢量机方法来避开分词对中文文本分类,实验表明此方法表现出较好的分类性能.

关键词：核函数、SVM、字符串核

所属期刊栏目：42

分类号：TP301(计算技术、计算机技术)

在线出版日期：2006-10-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：170-172

英文信息展示

期刊专题