10.3778/j.issn.1002-8331.2010.31.037
英中可比语料库中多词表达自动提取与对齐
多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域.为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE.采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围.利用GIZA++对齐算法提取时译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对.实验结果表明上述方法可以有效提高MWE提取和对齐的准确率.
三元组可比语料库、多词表达(MWE)、语义模板
46
TP391(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 60872118
2011-02-23(万方平台首次上网日期,不代表论文的发表时间)
共6页
130-134,187