期刊专题

10.3772/j.issn.1000-0135.2018.03.008

共词网络LDA模型的中文短文本主题分析

引用
由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想.结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis).在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率.实验证明该模型在短文本分析中有较好的效果.

共词网络LDA主题模型(CA-LDA)、隐含空间降维、自同构等价规则、隐含位置聚类

37

山东省社会科学规划项目"基于复杂网络理论的山东省基础设施系统脆弱性研究"14CGLJ03

2018-07-04(万方平台首次上网日期,不代表论文的发表时间)

共13页

305-317

相关文献
评论
暂无封面信息
查看本期封面目录

情报学报

1000-0135

11-2257/G3

37

2018,37(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn