10.3969/j.issn.1003-9767.2021.06.005
基于TextRank和LDA的中文短文本分类研究
针对中文短文本词汇数量相对较少、特征稀疏、噪声多等特点,笔者提出一种基于TextRank和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的文本扩展方法.该方法首先通过TextRank算法从给定文本中获得各个候选的关键特征,然后利用LDA从给定文本中获取各个隐藏的主题特征,将概率超过或等于给定阈值的各个隐藏主题所对应的各个候选关键特征扩充到文本中进行文本扩展.
短文本分类;TextRank;LDA;特征扩展
33
TP309;TP391.1(计算技术、计算机技术)
2021-09-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
12-14