10.3969/j.issn.1006-2475.2023.01.008
基于藏文BERT的藏医药医学实体识别
藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型.本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型.该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性.实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%.
藏文、藏医药、命名实体识别、BERT、双向长短期记忆
TP391(计算技术、计算机技术)
科技部重点研发计划;西藏自治区科技创新基地自主研究项目;西藏大学研究生高水平人才培养计划项目
2023-03-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
43-48