DOI：10.3321/j.issn:1002-8331.2006.15.048

一个面向文本分类的中文特征词自动抽取方法

引用

摘要：

文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求.

关键词：中文特征词自动抽取、文本分类、汉字结合模式

所属期刊栏目：42

分类号：TP311(计算技术、计算机技术)

在线出版日期：2006-06-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：165-167

英文信息展示

期刊专题