期刊专题

10.11925/infotech.2096-3467.2022.0919

基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究

引用
[目的]为提高医学信息查询意图强度识别的精度并解决查询式词向量表征困难、标注数据集少等问题,设计一种基于任务知识融合与文本数据增强的医学信息查询意图强度识别方法.[方法]在文本数据增强方面,选取SimBERT模型,实现小样本数据集的文本数据增强;在文本表示方面,利用医学信息查询式文本语料对BERT模型进行增量预训练,获得融合任务知识的MQ-BERT模型;在文本分类方面,在MQ-BERT后引入Bi-LSTM等模型进行分类任务,并对比文本数据增强前后的分类效果.[结果]融合任务知识的MQ-BERT的分类结果F-Score达到92.22%,超越了阿里巴巴团队提出的MC-BERT在同一任务数据集上的最佳结果(F-Score=87.5%);文本数据增强后,模型分类效果进一步提升,其中基于MQ-BERT和Bi-LSTM的模型获得最佳分类结果,F-Score为95.34%,相比MC-BERT提升了 7.84个百分点.[局限]增量预训练过程的数据选择方法在未来可以进一步优化.[结论]任务知识融合与文本数据增强能有效提高医学信息查询意图强度识别精度,针对不同强度的查询意图,应该对其查询结果采用不同的呈现方式,以提升医学信息检索系统的查询准确度,更好地满足用户的医学信息需求.

医学信息查询、意图强度识别、文本数据增强、任务知识融合、BERT模型

7

TP393;G250(计算技术、计算机技术)

国家自然科学基金;国家自然科学基金;教育部人文社会科学研究项目

2023-05-12(万方平台首次上网日期,不代表论文的发表时间)

共10页

38-47

暂无封面信息
查看本期封面目录

数据分析与知识发现

2096-3467

10-1478/G2

7

2023,7(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn