10.11925/infotech.2096-3467.2022.0812
基于多任务和迁移学习的中文医学文献实体识别研究
[目的]利用迁移学习和多任务学习解决中文医学文献实体识别冷启动和边界定位难的问题,进一步提高识别准确性.[方法]提出一种基于迁移学习和多任务学习的中文医学文献实体识别方法,构建混合深度学习BERT-BiLSTM-IDCNN-CRF的医学文献实体识别模型,通过实例迁移、模型迁移和特征迁移丰富医学语义特征,利用多任务学习构建粗粒度三分类任务以辅助实体识别任务有效利用实体边界信息,最后引入自注意力机制和Highway网络捕获全局重要信息并优化深层网络训练,提出TLMT-BBIC-HS模型.[结果]TLMT-BBIC-HS模型在中文糖尿病医学文献数据集上F1值达92.98%,较基准模型BERT-BiLSTM-CRF和BERT-IDCNN-CRF分别提高15.99个百分点和16.44个百分点.[局限]未验证模型的领域适应性.[结论]TLMT-BBIC-HS模型可实现医学知识的迁移共享,更适用于中文医学文献实体识别任务,可为医疗健康信息抽取、知识图谱和问答系统构建提供有效支持.
医学文献实体识别、多任务学习、迁移学习、注意力机制、Highway网络
7
G350;TP391(情报学、情报工作)
2023-11-10(万方平台首次上网日期,不代表论文的发表时间)
共10页
136-145