10.3772/j.issn.1000-0135.2018.03.008
共词网络LDA模型的中文短文本主题分析
由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想.结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis).在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率.实验证明该模型在短文本分析中有较好的效果.
共词网络LDA主题模型(CA-LDA)、隐含空间降维、自同构等价规则、隐含位置聚类
37
山东省社会科学规划项目"基于复杂网络理论的山东省基础设施系统脆弱性研究"14CGLJ03
2018-07-04(万方平台首次上网日期,不代表论文的发表时间)
共13页
305-317