基于特征比较和最大熵模型的统计机器翻译错误检测
首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率,分析其对错误检测性能的影响;然后,将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合,利用最大熵分类器预测翻译错误,并在汉英NIST数据集上进行实验验证和比较.实验结果表明,不同的单词后验概率对分类错误率的影响是显著的,并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率,提高译文错误预测性能.
错误检测、词后验概率、语言学特征、最大熵分类器
49
TP391(计算技术、计算机技术)
国家自然科学基金61100085;陕西省教育厅专项科研计划项目11JK1029;西安理工大学青年科技研究计划项目105211017
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
81-87