DOI：10.11925/infotech.2096-3467.2020.0167

基于BiLSTM-CRF中文临床文本中受保护的健康信息识别

引用

摘要：

[目的]为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案.[方法]选择一家区域卫生信息平台电子健康档案中的出院小结作为实验数据,根据《健康保险可携性与责任法案》(HIPAA)所规定的18项PHI结合实验数据特征确定7个PHI类别及其下包含的15个PHI类型.基于BiLSTM-CRF模型有效地从非结构化的临床记录中识别受保护的健康信息.[结果]对所有实体类别识别的准确率、召回率以及F值分别达98.66％、99.36％以及99.01％,并对识别错误的标签进行总结分析.[局限]结合语料特征对模型性能的优化有待完善,并且对于自动识别PHI后的临床文本质量未进行评估.[结论]BiLSTM-CRF模型在不需要特征工程的情况下实现了命名实体自动化识别,有利于促进临床信息共享与利用.

关键词：中文临床文本、受保护的健康信息、长短期记忆网络、隐私信息、命名实体识别

所属期刊栏目：4

分类号：TP391(计算技术、计算机技术)

资助基金：本文系四川省科技计划项目重点研发基金项目“海量健康数据信息挖掘脱敏技术研究及应用”项目编号:2018GZ0201

在线出版日期：2021-02-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：124-133

英文信息展示

期刊专题