利用双语词典检索英汉跨语言剽窃文档对应内容

引用

摘要：

[目的]在英汉跨语言剽窃文档中检索翻译对应内容.[方法]基于双语词典进行相似分析,合并整理词典以提高词语级匹配的准确率和效率,利用整体词频分布、匹配位置特征等解决歧义和多重匹配问题,根据词的对应情况、词的位置信息等综合加权计算句子及段落的相似度.[结果]在真实翻译语料上的实验结果表明,检索的准确率为0.841,召回率为0.748.[局限]未登录词的翻译关系不易根据词典判定.[结论]基于双语词典检索跨语言相似内容的方法简单易行,适用面广.

关键词：跨语言剽窃、相似度、歧义、双语词典、未登录词

分类号：TP18(自动化基础理论)

资助基金：本文系校级科研专项基金项目“基于平行语料库的学生译文自动评价研究与实现”项目编号:2009JJ056和全国教育科学规划课题“计算机辅助音译系统的研究与实现”项目编号:GPA115033的研究成果之一.

在线出版日期：2014-09-04（万方平台首次上网日期，不代表论文的发表时间）

页码：114-119

英文信息展示

期刊专题