10.3321/j.issn:0254-4164.2008.10.012
一种基于密度的自适应最优LDA模型选择方法
主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论,基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构.
主题模型、主题、LDA、密度
31
TP18(自动化基础理论)
国家"九七三"重点基础研究发展规划项目基金2007CB311100;国家"八六三"高技术研究发展计划项目基金2007AA012416;国家自然科学基金60773056,60873165;北京市科技新星计划200713071
2009-01-06(万方平台首次上网日期,不代表论文的发表时间)
共8页
1780-1787