10.13232/j.cnki.jnju.2023.04.008
基于领域知识图谱和对比学习的汉越跨境民族文本检索方法
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了 4.1%.
跨境民族文化、跨境民族知识图谱、跨语言检索、对比学习、信息检索
59
TP301(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;云南省自然科学基金重点项目
2023-11-02(万方平台首次上网日期,不代表论文的发表时间)
共10页
610-619