10.3321/j.issn:1002-8331.2003.01.006
基于汉语二字应成词的歧义字段切分方法
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息[1]及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题.实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献[1]所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度.
互信息、t-信息差、二字应成词、自动分词、歧义字段
39
TP391(计算技术、计算机技术)
国家高技术研究发展计划863计划2001AA114101
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共3页
17-18,26