医疗文本的小样本命名实体识别
针对医疗文本命名实体识别缺乏足够标记数据的问题,提出了一种新的命名实体识别神经网络和数据增强方法.该方法首先利用汉字的拼音和笔画来扩展Bert词向量,使Bert词向量能够包含更多先验知识;接着将命名实体识别模型与分词模型进行联合训练,以增强模型对于实体边界的判别能力;最后采用改进的数据增强方法处理训练数据,能够在避免模型过拟合的同时增加模型对于命名实体的识别效果.在CCKS-2019提供的电子病历文本上的实验结果表明,所提出的方法在小样本情况下能有效提高命名实体识别的准确率,在训练数据减少一半的情况下,识别率仍能保持没有明显下降.
命名实体识别、小样本、数据增强、联合训练、特征融合
26
TP391.1(计算技术、计算机技术)
国家自然科学基金面上项目;黑龙江省自然科学基金杰出青年项目;哈尔滨市杰出青年人才基金;黑龙江省自然科学基金面上项目;黑龙江省普通本科高等学校青年创新人才项目;黑龙江省教育厅科学技术研究项目;哈尔滨理工大学青年拔尖创新人才;中国博士后基金
2021-09-22(万方平台首次上网日期,不代表论文的发表时间)
共8页
94-101