10.13803/j.cnki.issn1009-9743.2019.02.006
浅议多种重映射融合的汉英词对齐法
针对自动词对齐工具Giza++只允许源语言到目标语言的一对多映射,并生成了很多不对称的对齐,进而直接影响到词对齐的质量和准确性这一缺陷,文章通过研究发现,基于不同预处理机制的词对齐有着不同的系统上可见优势,相对于采用单一预处理机制,机器学习算法可以从基于多预处理机制的词对齐信息中获益.在此基础上,提出基于多预处理机制的多种重映射融合词对齐方法这一设想,并通过实验验证:通过分词预处理形成尽可能含有正确分词方案的方案集,通过对齐预处理获得尽可能多的可靠对齐点,并通过对齐重映射实现对齐的对称化,随后,将对齐重映射的所有相关特征训练一个对齐融合模型,并将这个对齐融合模型作为监督系统,以显著增加词对齐的准确性.
汉英词对齐、Giza++工具、多预处理机制、重映射融合
20
H315.9(英语)
2016年海南省自然科学基金项目“基于多预处理机制的多种重映射融合汉英自动词对齐系统研究—以海南旅游文本汉英翻译网上平行语料库创建为例”编号:20167238成果之一.2016年海南省哲学社会科学规划课题“海南城市外宣翻译的跨文化文本重构研究”编号:HNSKQN16-134
2019-07-31(万方平台首次上网日期,不代表论文的发表时间)
共5页
29-33