10.11925/infotech.2096-3467.2021.0282
融合预训练模型文本特征的短文本分类方法
[目的]综合运用不同预训练模型的词向量进行文本语义增强,解决基于Word2Vec、BERT等模型所表示的词向量存在先验知识缺失的问题,提升在新闻数据集上的分类效果.[方法]以今日头条新闻公开数据集和THUCNews新闻数据集为实验对象,使用BERT、ERNIE模型通过领域预训练,分别提取上下文语义信息和实体、短语的先验知识信息;结合TextCNN模型生成高阶文本特征向量并进行特征融合,实现语义增强,进而提升短文本分类效果.[结果]相较于传统的Word2Vec词向量表示,使用预训练词向量表示的分类算法模型准确率分别提升了6.37个百分点和3.50个百分点;相较于BERT和ERNIE词向量表示,融合BERT-ERNIE词向量表示的分类算法模型准确率分别提升1.98个百分点和1.51个百分点.[局限]领域预训练采用的新闻领域语料有待进一步丰富.[结论]所提方法能够对海量的短文本数据实现快速而准确的分类,对后续文本挖掘工作具有重要意义.
BERT;ERNIE;短文本分类;文本特征融合;领域预训练
5
TP393(计算技术、计算机技术)
本文系国家社会科学基金重大招标项目;中央高校基本科研业务费专项前瞻性发展策略研究资助项目;研究生创新基地实验室开放基金
2021-12-28(万方平台首次上网日期,不代表论文的发表时间)
共10页
21-30