基于统计的汉语词性标注方法的分析与改进
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析.为了充分利用训练语料库,提高标注正确率,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进,提高了标注性能.封闭测试和开放测试的正确率分别达到96.5%和96%.
词性标注、n元语法、语料、语法属性
11
TP18(自动化基础理论)
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
473-480