文献聚类结果可视分析方法研究
在信息化时代,文献数据呈爆炸式增长.面对海量无标签的文献数据,无监督文本聚类能够快速、高效地对大规模数据重新组织和归纳.然而,影响文献聚类效果的因素是多方面的,从数据处理到文本表示方法到聚类算法的选择,在任意一个环节不同的选择产生的结果可能大相径庭;且在各环节方法种类多样使得文献聚类结果难以解释和评估,对做好文献聚类工作造成了很大困扰.为此,提出了一个完整的文献聚类结果可视分析框架.该框架包含数据预处理、文本表示、文本聚类、聚类结果可视分析各个环节,采用语料结构可视化、语料内容可视化、文本向量维度可视化以及可视化交互对聚类结果进行解释、分析、评估、调整和优化.基于该框架,设计并实现了文献聚类结果可视分析系统,研究了采用不同文本表示方法、不同聚类算法对聚类结果产生的影响.最后,通过3个案例,验证了该框架有效性.
文献聚类、可视分析、聚类结果解释、聚类结果评估
32
TP391(计算技术、计算机技术)
国家自然科学基金重点项目;北京市科技专项计划;中国科学院"十三五"信息化建设专项
2020-10-28(万方平台首次上网日期,不代表论文的发表时间)
共10页
1645-1654