DOI：10.11925/infotech.2096-3467.2022.0698

面向藏族传统节日的汉藏双语命名实体识别研究

引用

摘要：

[目的]研究资源稀少语言中预训练模型的表现,为构建藏语知识图谱、语义检索提供帮助.[方法]本研究采集人民网、人民网藏文版等新闻网站中藏族传统节日的汉藏双语文本数据,并比较多种预训练语言模型与词向量在汉藏双语情景下对命名实体识别任务的表现,同时分析了命名实体识别模型的两种特征处理层(BiLSTM层与CRF层)对实验结果的影响.[结果]实验结果表明:相较于词向量,汉语以及藏语的预训练语言模型在该任务上的F1性能分别提升0.010 8及0.059 0.特别是在实体数量较少的情景下,预训练模型相比词向量可提取更多的文本信息,并且训练时间缩短40％.[局限]藏语数据与汉语数据并非平行语料,且藏语数据中的实体数量少于汉语数据.[结论]预训练语言模型不仅在汉语文本领域有显著效果,在藏语这种资源稀少的语种也能取得很好的表现.

关键词：命名实体识别、藏族传统文化、预训练语言模型

所属期刊栏目：7

分类号：TP391;G350(计算技术、计算机技术)

在线出版日期：2023-09-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：125-135

英文信息展示

期刊专题