基于改进TF-IDF和ABLCNN的中文文本分类模型

引用

摘要：

文本分类是自然语言处理领域中的重要内容,常用于信息检索、情感分析等领域.针对传统的文本分类模型文本特征提取不全面、文本语义表达弱的问题,提出一种基于改进TF-IDF算法、带有注意力机制的长短期记忆卷积网络(Attention base on Bi-LSTM and CNN,ABLCNN)相结合的文本分类模型.该模型首先利用特征项在类内、类间的分布关系和位置信息改进TF-IDF算法,突出特征项的重要性,并结合Word2vec工具训练的词向量对文本进行表示;然后使用ABLCNN提取文本特征,ABLCNN结合了注意力机制、长短期记忆网络和卷积神经网络的优点,既可以有重点地提取文本的上下文语义特征,又兼顾了局部语义特征;最后,将特征向量通过softmax函数进行文本分类.在THUCNews数据集和online_shopping_10_cats数据集上对基于改进TF-IDF和ABLCNN的文本分类模型进行实验,结果表明,所提模型在两个数据集上的准确率分别为97.38％和91.33％,高于其他文本分类模型.

关键词：文本分类;TF-IDF;卷积神经网络;注意力机制;长短期记忆网络

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61806073

在线出版日期：2021-11-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：170-175,190

英文信息展示

期刊专题