DOI：10.3321/j.issn:1002-8331.2003.01.006

基于汉语二字应成词的歧义字段切分方法

引用

摘要：

文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息[1]及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题.实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献[1]所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度.

关键词：互信息、t-信息差、二字应成词、自动分词、歧义字段

所属期刊栏目：39

分类号：TP391(计算技术、计算机技术)

资助基金：国家高技术研究发展计划863计划2001AA114101

在线出版日期：2004-01-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：17-18,26

英文信息展示

期刊专题