期刊专题

共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例

引用
[目的]通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势,降低由少量文献产生的高频词汇的干扰,提高主题凝聚性.[方法]在交通法学文献摘要文本主题分析中,加入文献的关键词作为分词复合词典,提高语义识别度;提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word Analysis),在传统LDA模型的基础上加入共词网络分析,以共词网络拓扑结构参数作为权重控制词汇主题分配(采用介数中心度),优先提取同时具有高共现性(中介性)和高频率的词汇.[结果]CA-LDA模型可以得到多篇文献同时共现的高频词汇,这样产生的重点词汇表对主题分析更有意义.该算法的结果不仅仅反映词频概率,同时也能从词汇关联上发现枢纽词汇,更深入理解该领域的研究热点.[局限]CA-LDA模型主题数目K的取值采用混淆度标准交叉验证获得,如果在实际分析中K值太大,不利于文献主题的分类整理,未来研究需要对该结果进一步处理来凝聚主题.[结论]本文将该模型应用于交通法学研究领域热点主题分析,在处理大规模文献数据中取得较好效果.相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中.

共词网络LDA、主题模型(CA-LDA)、主题词共现、网络拓扑结构参数、随机梯度下降、交通法学热词

G254;TP391(图书馆学、图书馆事业)

本文系山东省社会科学规划项目“基于复杂网络理论的山东省基础设施系统脆弱性研究”项目编号:14CGLJ03、山东省研究生教学创新项目“基于在线学习的研究生学术素养提升开放式生态系统研究”项目编号:SDYC15045和济南市哲学社会科学规划项目“济南市网络预约出租车运营状况调查与管理研究”项目编号:JNSK16C26的研究成果之一.

2017-03-13(万方平台首次上网日期,不代表论文的发表时间)

17-26

暂无封面信息
查看本期封面目录

现代图书情报技术

2096-3467

10-1478/G2

2016,(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn