DOI：10.11925/infotech.2096-3467.2022.0908

面向中文医学文本命名实体识别的神经网络模块分解分析

引用

摘要：

[目的]对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响.[方法]基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命名实体识别任务发布的基准语料,对比分析神经网络模型的符号表示层和上下文编码层采用不同神经网络模块时的性能差异.以此为基础,分别构建将多神经网络模块集成、并联、串联的实体识别模型,比较并分析其性能差异.[结果]符号表示层使用hfl/chinese-macbert-base、hfl/chinese-roberta-wwm-ext、hfl/chinese-bert-wwm-ext等预训练语言模型能显著提高识别性能,平均Fl值分别达到0.881 6、0.881 6、0.881 2;在上下文编码层融合神经网络模块能够提高识别性能.其中,基于集成的神经网络性能最优,Fl值分别达到0.933 0、0.8211、0.918 1.[局限]实验仅基于中文医学文本语料,所得结论有待在其他语种的语料上进行验证.[结论]基础神经网络模块的类型和多神经网络模块的协同方式显著影响神经网络在中文医学文本命名实体识别任务上的表现.

关键词：命名实体识别、神经网络、模块分解、中文医学文本

所属期刊栏目：7

分类号：TP391(计算技术、计算机技术)

资助基金：国家社会科学基金20BTQ092

在线出版日期：2023-05-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：26-37

英文信息展示

期刊专题