10.3969/j.issn.2095-2163.2023.08.033
融合数据增强和注意力机制的中医实体及关系联合抽取
中医药领域高质量标注数据缺乏,可用作实体及关系联合抽取任务的语料数量偏少.BiLSTM-CRF方法在序列标注上有优势,但对上下文信息与当前信息的关联关注不够,影响模型的性能.针对上述问题,提出一种融合数据增强和注意力机制的中医实体及关系联合抽取方法(DA-BiLSTM-Attention-CRF).该方法首先采用EDA数据增强方法对未标注训练集进行多倍增强,然后将增强后的伪标注数据加入训练集,采用自训练策略进行多次实验.最后,测试集数据通过模型预测得到标注序列并进行三元组提取.在中医语料库上进行实验评估,实体及关系联合抽取F1 值为 82.43%.
中医文本、实体及关系联合抽取、数据增强、注意力机制
13
TP391(计算技术、计算机技术)
国家重点研发计划;江西省自然科学基金资助项目;江西省教育厅科技项目;江西省教育厅科技项目;国家自然科学基金
2023-10-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
186-191,196