现代汉语通用分词系统中歧义切分的实用技术
歧义切分技术是中文自动分词系统的关键技术之一.特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求.从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种"规则+例外"的实用消歧策略.对1亿字<人民日报>语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%.
中文信息处理、通用分词系统、歧义切分
43
TP391.12(计算技术、计算机技术)
中国科学院资助项目60272055;国家科技攻关项目2001AAll4111;教育部科学技术基金00128;教育部人文社会科学重点研究基地项目02JAZJD740007
2006-07-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
1122-1128