基于双语协同训练的最大名词短语识别研究
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.
最大名词短语、半监督学习、标注投射、双语协同训练、短语识别
26
TP18(自动化基础理论)
国家重点基础研究发展计划9732013CB329300;国家自然科学基金61132009,61201352,61202244
2016-08-19(万方平台首次上网日期,不代表论文的发表时间)
共11页
1615-1625