10.3778/j.issn.1002-8331.2011.13.043
基于LDA模型的文本分类研究
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器.参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布.应用贝叶斯统计理论中的标准方法,确定最优主题数T.在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果.
文本分类、潜在狄利克雷分配(LDA)模型、Gibbs抽样、贝叶斯统计理论
47
TP181(自动化基础理论)
2011-07-11(万方平台首次上网日期,不代表论文的发表时间)
共4页
150-153