面向中文电子病历文书的医学命名实体识别研究——一种基于半监督深度学习的方法

引用

摘要：

电子病历文书详细记录患者诊疗全过程,蕴藏的医学知识是电子病历中最丰富的,因此挖掘电子病历文书潜在的知识结构具有十分重要的价值.面向非结构化电子病历知识挖掘的首要工作是命名实体识别,现有的医学领域命名实体识别方法面临标注数据质量偏低、标注数据不足的问题,同时现有方法中均只考虑文本的序列特性,忽略文本中词间、字间的依赖关系,限制了命名实体识别效果.本文提出一种基于半监督深度学习的医学命名实体识别方法,即结合具有专家权威的中文百科半自动化实体标注法及BERT-GCN-CRF框架,对电子病历文本进行医学命名实体识别抽取.以真实电子病历文本作为实验对象,该模型获取的准确率、召回率、F1值均有明显提高,其中P、R和F1综合平均值分别为84.6％、84.0％和84.2％,同时人工标注工作量显著减少.本文提出的方法对电子病历的非结构化文本挖掘工作有重要意义.

关键词：医学命名实体识别;电子病历文书;知识挖掘;半监督深度学习;BERT-GCN-CRF

所属期刊栏目：11

分类号：G302;R-02(科学研究理论)

资助基金：国家重点研发计划;江苏省重点研发计划

在线出版日期：2022-03-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：105-115

英文信息展示

期刊专题