10.3969/j.issn.1008-0821.2024.01.003
基于多粒度标签扰动的文本分类研究
[目的/意义]基于深度学习的有监督学习算法是当前文本分类主要的研究方法.然而,有监督的深度学习算法的训练严重依赖于样本标签的准确性,由于标注者的标注经验和主观性等原因,样本标签不可避免地会存在噪声.标签扰动是一种有效应对噪声标签的思路,但当前基于标签扰动的噪声标签学习算法缺乏对多种粒度信息的有效利用,从而限制了算法的性能.[方法/过程]为解决这一问题,本文提出了一种多粒度标签扰动算法(Multi-granularity Label Perturbation,MGLP),融合了样本级粒度和类别级粒度的扰动方式,并利用元学习的思想对不同粒度扰动方式的融合权重进行学习,使该算法能够根据不同的数据特点自适应地对融合权重进行调整.[结果/结论]本文在推文情感分类、电影评论情感分类、引文意图分类 3 个文本分类数据集上展开实验,结果表明MGLP算法有效地提升了深度学习模型在文本分类任务上的性能,在信息组织和信息分析中具有广泛的应用前景.
文本分类、深度学习、标签扰动、元学习、多粒度
44
TP391(计算技术、计算机技术)
国家社会科学基金20ZDA039
2024-01-08(万方平台首次上网日期,不代表论文的发表时间)
共12页
25-36