DOI：10.11925/infotech.2096-3467.2020.1170

多层次数据增强的半监督中文情感分析方法

全文直达

下载全文

在线阅读

引用

摘要：

[目的]针对在自然语言处理领域中高质量的标签数据较难获取的问题,设计基于多层次数据增强的半监督中文情感分析方法.[方法]采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果.[结果]在三个公开情感分析数据集上进行实验,在Waimai和Weibo数据集上仅使用1 000条有标签文档就可以分别获得超过BERT 2.311％和6.726％的性能提升.[局限]实验均在公开通用语料上进行,未验证在垂直领域数据集上的效果.[结论]所提方法充分挖掘了无标签数据的信息,可以缓解标签数据不易获取的问题,同时具有较强的预测稳定性.

关键词：情感分析、半监督学习、一致性正则、数据增强

所属期刊栏目：5

分类号：TP393;G250(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;国家社会科学基金

在线出版日期：2021-07-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：51-58

英文信息展示

期刊专题