面向中文电子病历文书的医学命名实体识别研究——一种基于半监督深度学习的方法
电子病历文书详细记录患者诊疗全过程,蕴藏的医学知识是电子病历中最丰富的,因此挖掘电子病历文书潜在的知识结构具有十分重要的价值.面向非结构化电子病历知识挖掘的首要工作是命名实体识别,现有的医学领域命名实体识别方法面临标注数据质量偏低、标注数据不足的问题,同时现有方法中均只考虑文本的序列特性,忽略文本中词间、字间的依赖关系,限制了命名实体识别效果.本文提出一种基于半监督深度学习的医学命名实体识别方法,即结合具有专家权威的中文百科半自动化实体标注法及BERT-GCN-CRF框架,对电子病历文本进行医学命名实体识别抽取.以真实电子病历文本作为实验对象,该模型获取的准确率、召回率、F1值均有明显提高,其中P、R和F1综合平均值分别为84.6%、84.0%和84.2%,同时人工标注工作量显著减少.本文提出的方法对电子病历的非结构化文本挖掘工作有重要意义.
医学命名实体识别;电子病历文书;知识挖掘;半监督深度学习;BERT-GCN-CRF
11
G302;R-02(科学研究理论)
国家重点研发计划;江苏省重点研发计划
2022-03-16(万方平台首次上网日期,不代表论文的发表时间)
共11页
105-115