期刊专题

10.11925/infotech.2096-3467.2023.0931

基于融合多策略对比学习的中文医疗术语标准化研究

引用
[目的]应对中文医疗术语标准化存在的短文本、相似性高、单蕴含与多蕴含等挑战,研究基于融合多策略对比学习的召回-排序-数量预测研究框架.[方法]首先,融合文本统计特征和深度语义特征进行候选召回,依据相似度分数获取候选实体集;其次,候选排序将原始术语、标准实体、来自候选召回的候选实体结合预训练模型与对比学习策略训练向量表示,依据余弦相似度重新排序;再次,数量预测通过多头注意力更新原始词的向量表示,预测原始术语中蕴含标准实体的数量;最后,融合候选召回和候选排序的相似度分数,基于数量预测结果按照顺序选取对应标准实体.[结果]在中文医疗术语标准化数据集Yidu-N7k上进行性能评估,与统计模型、主流深度学习模型进行比较,融合多策略对比学习的标准化框架的准确率达到92.17%,对比基于预训练的二分类基线模型最多提高0.94个百分点.同时,在自制的150例女性乳腺癌钼靶检查报告数据集上,融合多策略对比学习的标准化框架的准确率达到97.85%,性能最优.[局限]实验只在医疗数据集上展开,在其他领域的有效性需进一步研究.[结论]多策略的候选召回可以全面地考虑文本信息能够应对短文本挑战;对比学习的候选排序能够捕捉文本细微差距能够应对相似性高挑战;多头注意力的数量预测能够增强向量表示能够应对单蕴含与多蕴含挑战.融合多策略对比学习的中文医疗术语标准化方法为促进医学信息挖掘和临床研究提供了潜力.

医疗术语标准化、多策略候选召回、对比学习、乳腺癌钼靶、检查报告

8

TP393(计算技术、计算机技术)

2024-08-21(万方平台首次上网日期,不代表论文的发表时间)

共14页

144-157

暂无封面信息
查看本期封面目录

数据分析与知识发现

2096-3467

10-1478/G2

8

2024,8(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn