10.3321/j.issn:1002-8331.2005.07.024
基于词频统计的中文分词的研究
论文介绍了一个基于词频统计的中文分词系统的设计和实现.通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典.词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率.这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试.文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合.
中文分词、词频统计、互信息、N元统计模型、t-测试
41
TP393(计算技术、计算机技术)
国家自然科学基金60173041;湖南省自然科学基金02JJY2094
2005-04-07(万方平台首次上网日期,不代表论文的发表时间)
共3页
67-68,100