DOI：10.3969/j.issn.1008-0821.2021.06.004

基于多粒度建模的半监督文本分类方法研究

全文直达

下载全文

在线阅读

引用

摘要：

[目的/意义]为减少文本分类任务需要的有标签样本数量,提出一种只需要少量有标签样本训练的半监督分类方法.[方法/过程]本文使用多粒度文本建模方法获取同一文本不同粒度的特征,使用集成学习的思想对基分类器进行集成,在半监督训练模块得出补入的标签,最后在预测分类模块获得最终的分类结果.[结果/结论]在两个不同的数据集下,MG-SSC(Multi Granularity Semi-Supervised Classification Model)模型在只使用少量有标签样本训练的情况下,都取得了较好的分类效果.本文提出的模型可以有效地处理半监督分类任务,为使用者降低文本分类的成本.

关键词：BERT、半监督分类、文本分类、多粒度建模、分类器集成、MG-SSC

所属期刊栏目：41

分类号：G254(图书馆学、图书馆事业)

资助基金：国家自然科学基金71671057

在线出版日期：2021-06-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：42-53,177

英文信息展示

期刊专题