DOI：10.11925/infotech.2096-3467.2023.0931

基于融合多策略对比学习的中文医疗术语标准化研究

引用

摘要：

[目的]应对中文医疗术语标准化存在的短文本、相似性高、单蕴含与多蕴含等挑战,研究基于融合多策略对比学习的召回-排序-数量预测研究框架.[方法]首先,融合文本统计特征和深度语义特征进行候选召回,依据相似度分数获取候选实体集;其次,候选排序将原始术语、标准实体、来自候选召回的候选实体结合预训练模型与对比学习策略训练向量表示,依据余弦相似度重新排序;再次,数量预测通过多头注意力更新原始词的向量表示,预测原始术语中蕴含标准实体的数量;最后,融合候选召回和候选排序的相似度分数,基于数量预测结果按照顺序选取对应标准实体.[结果]在中文医疗术语标准化数据集Yidu-N7k上进行性能评估,与统计模型、主流深度学习模型进行比较,融合多策略对比学习的标准化框架的准确率达到92.17％,对比基于预训练的二分类基线模型最多提高0.94个百分点.同时,在自制的150例女性乳腺癌钼靶检查报告数据集上,融合多策略对比学习的标准化框架的准确率达到97.85％,性能最优.[局限]实验只在医疗数据集上展开,在其他领域的有效性需进一步研究.[结论]多策略的候选召回可以全面地考虑文本信息能够应对短文本挑战;对比学习的候选排序能够捕捉文本细微差距能够应对相似性高挑战;多头注意力的数量预测能够增强向量表示能够应对单蕴含与多蕴含挑战.融合多策略对比学习的中文医疗术语标准化方法为促进医学信息挖掘和临床研究提供了潜力.

关键词：医疗术语标准化、多策略候选召回、对比学习、乳腺癌钼靶、检查报告

所属期刊栏目：8

分类号：TP393(计算技术、计算机技术)

在线出版日期：2024-08-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：144-157

英文信息展示

期刊专题