10.11925/infotech.2096-3467.2022.0115
新闻话题识别中LDA最优主题数选取研究
[目的]针对LDA模型中主题数目需指定的问题,提出一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法.[方法]将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量;再利用Co-DPSC算法对两个视图进行协同训练,得到包含时序影响的语义特征矩阵;最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数.[结果]实验结果表明:考虑语义和时间因素确定最优主题数,查准率和F值分别提高了 35.09个百分点和15.39个百分点.[局限]对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行时间.本文算法仅针对新闻数据,在其他类型数据上具有一定局限性.[结论]实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能够在一定程度上提升最优主题数目选取的准确性.
LDA模型、新闻话题、多视图聚类
6
TP393;G250(计算技术、计算机技术)
全国统计科学研究项目2020LY080
2023-03-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
72-78