期刊专题

基于语义相似度的文本聚类研究

引用
[目的]为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量,提出基于语义相似度的文本聚类方法.[方法]通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵,根据文本语义相似度矩阵进行谱聚类,将文本聚集为文本簇.[结果]利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验,结果表明,当聚类个数为10时,本文算法的准确率最高,并且Purity值高于传统聚类算法的Purity值.[局限]《同义词词林扩展版》中包含的领域术语不完整,部分相似度计算结果需要手工进行调整.[结论]该方法考虑了词语间语义关系,充分挖掘文本主体潜在信息,并且改善了聚类质量,为文本聚类和推荐提供了一条新途径.

同义词词林扩展版、语义相似度、谱聚类、文本挖掘

G250.7(图书馆学、图书馆事业)

本文系国家自然科学基金项目“语义网络环境下数字图书馆资源多维度聚合与可视化展示研究”项目编号:71273111的研究成果之一.

2017-03-13(万方平台首次上网日期,不代表论文的发表时间)

9-16

相关文献
评论
暂无封面信息
查看本期封面目录

现代图书情报技术

2096-3467

10-1478/G2

2016,(12)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn