10.11925/infotech.2096-3467.2020.1170
多层次数据增强的半监督中文情感分析方法
[目的]针对在自然语言处理领域中高质量的标签数据较难获取的问题,设计基于多层次数据增强的半监督中文情感分析方法.[方法]采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果.[结果]在三个公开情感分析数据集上进行实验,在Waimai和Weibo数据集上仅使用1 000条有标签文档就可以分别获得超过BERT 2.311%和6.726%的性能提升.[局限]实验均在公开通用语料上进行,未验证在垂直领域数据集上的效果.[结论]所提方法充分挖掘了无标签数据的信息,可以缓解标签数据不易获取的问题,同时具有较强的预测稳定性.
情感分析、半监督学习、一致性正则、数据增强
5
TP393;G250(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;国家社会科学基金
2021-07-26(万方平台首次上网日期,不代表论文的发表时间)
共8页
51-58