DOI：10.3321/j.issn:1002-8331.2005.07.024

基于词频统计的中文分词的研究

引用

摘要：

论文介绍了一个基于词频统计的中文分词系统的设计和实现.通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典.词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率.这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试.文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合.

关键词：中文分词、词频统计、互信息、N元统计模型、t-测试

所属期刊栏目：41

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金60173041;湖南省自然科学基金02JJY2094

在线出版日期：2005-04-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：67-68,100

英文信息展示

期刊专题