DOI：10.3778/j.issn.1002-8331.2011.13.043

基于LDA模型的文本分类研究

引用

摘要：

针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器.参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布.应用贝叶斯统计理论中的标准方法,确定最优主题数T.在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果.

关键词：文本分类、潜在狄利克雷分配(LDA)模型、Gibbs抽样、贝叶斯统计理论

所属期刊栏目：47

分类号：TP181(自动化基础理论)

在线出版日期：2011-07-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：150-153

英文信息展示

期刊专题