一种基于主动学习的文本实体与关系联合抽取方法
非结构化文本数据中蕴含了大量有价值的知识,从中抽取出实体与关系形成结构化的知识,有助于知识图谱的构建,也可以为下游任务提供支持,具有广泛的应用前景.目前,实体与关系抽取问题多采用深度学习方法,但其模型的训练需要消耗大量标注数据,人工成本高,如何减少人工标注的工作量是当前研究的重点之一.主动学习是机器学习的领域之一,旨在通过选择最有价值的样本交予模型训练,在最大化模型性能增益的同时减少模型训练所需的数据量,其减少模型训练所需数据的潜力与深度学习数据贪婪的特性互补.因此,将主动学习应用到深度学习中的深度主动学习也是目前的研究热点.在上述背景下,使用深度主动学习进行实体与关系的联合抽取,将主动学习用于实体与关系抽取的深度学习模型的训练过程,在保持抽取模型性能的同时尽可能减少模型训练所需的人工标注数据.使用了一个基于统一标签空间、通过矩阵标注实现实体与关系联合抽取的深度学习模型,并在其基础上设计并实现了多种主动学习采样策略,在医疗领域的文本数据集和常用的实体与关系联合抽取数据集上验证了所提方法的有效性.对主动学习停止时机确定问题展开了研究,提出了根据模型训练损失曲线、模型在训练集上的性能、模型在预留数据上的预测稳定性来选择训练停止时机的方法,并通过实验研究了面向实际应用场景选取停止时机的方法.设计并实现了基于主动学习的文本实体与关系联合抽取的智能文本标注工具,可供用户对文本进行实体标注与关系标注,该工具实现了实体与关系抽取的深度学习模型与主动学习方法,可以最大程度地减少用户标注的工作量.
主动学习、知识抽取、命名实体识别、关系抽取、人机交互
50
TP311(计算技术、计算机技术)
2023-10-13(万方平台首次上网日期,不代表论文的发表时间)
共9页
126-134