基于混合字词特征的中文短文本分类算法

引用

摘要：

随着信息技术的迅速发展,网络中产生了海量的中文短文本数据.利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点.相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达.为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法.首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务.在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果.

关键词：中文短文本分类、预训练模型、字向量、词向量、卷积神经网络

所属期刊栏目：49

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金61803384

在线出版日期：2022-04-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：282-287

英文信息展示

期刊专题