10.3969/j.issn.1006-2475.2022.07.010
一种基于图挖掘的LDA改进算法
LDA作为文本主题识别领域中使用最广泛的模型之一,其基于词袋模型的假设简单化地赋予词汇相同的权重,使得主题分布易向高频词倾斜,影响了识别主题的语义连贯性.本文针对该问题提出一种基于图挖掘的LDA改进算法GoW-LDA,首先基于特征词对在文本中的共现先后关系构建语义图模型,然后利用网络统计特征中节点的加权度,将文本的语义结构特点和关联性以权重修正的形式融入LDA主题建模中.实验结果显示,GoW-LDA相较于传统LDA和基于TF-IDF的LDA,能够大幅降低主题模型的混淆度,提高主题识别的互信息指数,并且有效减少模型的训练时间,为文本主题识别提供了一种新的解决思路.
文本主题识别、图挖掘、潜在狄利克雷分布
TP393(计算技术、计算机技术)
中央高校基本科研业务费专项基金资助项目NJ2019023
2022-08-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
61-66