10.16353/j.cnki.1000-7490.2019.12.023
面向词权重的主题识别应用研究
[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高.[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率.[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度.通过新闻文本数据验证了该方法的可行性与有效性.[局限]对词语的局部语义特征描述需要大数据量的计算.
主题模型、LDA模型、FTIDF、N-gram、权重、主题识别
42
TP1;TQ6
上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”的成果之一,项目2016BTQ002
2020-01-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
144-149