基于数据增强的中文隐式篇章关系识别方法
由于缺乏显式连接词,隐式篇章关系识别是一个具有挑战性的任务.文中提出了一种结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在在增强训练数据的同时尽量少地引入伪隐式篇章关系数据中的噪声.首先,基于BERT模型通过主动学习方法的分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系数据中的显式连接词作为伪隐式篇章关系数据;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别.在中文篇章树库(CDTB)上进行的实验的结果显示,相比基准模型,所提方法在宏平均F1、微平均F1值上均得到了提高.
篇章分析;隐式篇章关系识别;主动学习;多任务学习
48
TP391(计算技术、计算机技术)
国家自然科学基金;江苏高校优势学科建设工程资助项目PAPD
2021-10-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
85-90