10.3778/j.issn.1002-8331.2102-0223
融合BERT和自编码网络的短文本聚类研究
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量.词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题.提出一种新的聚类模型BERT_AE_K-Means,利用预训练模型BERT(bidirectional encoder representations from transformers)作为文本表示的初始化方法,利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征,将得到的特征提取器Encoder和聚类模型K-Means进行联合训练,同时优化特征提取模块和聚类模块,提高聚类模型的准确度和鲁棒性.所提出的模型在四个数据集上与Word2Vec_K-Means和STC2等6个模型相比,准确率和标准互信息都有所提高,在SearchSnippet数据集上的准确率达到82.28%,实验结果显示,所提方法有效地提高了短文本聚类的准确度.
短文本聚类;自动编码器;自然语言处理;BERT
58
TP391(计算技术、计算机技术)
上海市信息安全综合管理技术重点实验室开放项目;松江区科学技术研究项目
2022-02-16(万方平台首次上网日期,不代表论文的发表时间)
共8页
145-152