期刊专题

10.11925/infotech.2096-3467.2022.0115

新闻话题识别中LDA最优主题数选取研究

引用
[目的]针对LDA模型中主题数目需指定的问题,提出一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法.[方法]将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量;再利用Co-DPSC算法对两个视图进行协同训练,得到包含时序影响的语义特征矩阵;最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数.[结果]实验结果表明:考虑语义和时间因素确定最优主题数,查准率和F值分别提高了 35.09个百分点和15.39个百分点.[局限]对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行时间.本文算法仅针对新闻数据,在其他类型数据上具有一定局限性.[结论]实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能够在一定程度上提升最优主题数目选取的准确性.

LDA模型、新闻话题、多视图聚类

6

TP393;G250(计算技术、计算机技术)

全国统计科学研究项目2020LY080

2023-03-30(万方平台首次上网日期,不代表论文的发表时间)

共7页

72-78

暂无封面信息
查看本期封面目录

数据分析与知识发现

2096-3467

10-1478/G2

6

2022,6(11)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn