期刊专题

10.3969/j.issn.1006-2475.2018.06.002

基于LDA模型的文本聚类检索

引用
传统的判断2个文档相似性的方法没有考虑到文本背后的语义关联,导致检索系统返回的结果与用户的查询需求之间存在很大的差异.本文提出一种基于LDA主题模型的文本聚类方法,首先介绍LDA主题模型的应用原理,阐述文本挖掘的基本方法,之后构建LDA主题模型,采用Gibbs抽样的方法进行推导,得到特征词的概率分布,最后用优化聚类中心选择的K-means++方法对测试数据集合聚类,并把设计的LDA-Gibbs模型与传统的TF-IDF模型进行聚类评价对比.实验结果表明,该模型能够提高数据的检索效果,具有良好的推广价值.

主题模型、文本聚类、潜在狄利克雷分配模型、聚类评价、信息检索

TP391.1(计算技术、计算机技术)

黑龙江省教育规划重大课题GJ20170006

2018-08-15(万方平台首次上网日期,不代表论文的发表时间)

共5页

7-11

暂无封面信息
查看本期封面目录

计算机与现代化

1006-2475

36-1137/TP

2018,(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn