DOI：10.3969/j.issn.1002-1965.2017.12.027

共现潜在语义向量空间模型的进一步研究

引用

摘要：

[目的/意义]文献的向量表示是文献聚类的首要任务.共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能.然而,对该模型的研究还有待深入:该模型对英文文献的聚类适用性尚需检验;是否可以考虑利用除max统计量以外的其它统计量构建模型？聚类效果又会如何？面对大量的文献数据,模型的维度往往较高,运算成本大,所以有必要对模型进行优化处理.[方法/过程]首先将CLSVSM用于对英文文献集(数据来源于Web of Science,简记为WOS)的主题聚类并与VSM的聚类结果进行比较;然后利用除max统计量以外的三个常用统计量min,ave,med构建相应的CLSVSM模型,并用这四个统计量构建的CLSVSM模型对中英文文献进行聚类比较.更重要的是,我们提出了截尾共现潜在语义向量空间模型(TCLSVSM)并检验其聚类性能.[结果/结论]实验显示:CLSVSM对英文文献聚类同样适用;四种统计量构建的模型中CLSVSM-max对中英文文献的聚类效果最佳;TCLSVSM不仅能保证聚类性能,而且能显著降低运算成本.

关键词：向量空间模型、CLSVSM、TCLSVSM、共现分析、聚类

所属期刊栏目：36

分类号：G350(情报学、情报工作)

资助基金：国家自然科学基金“共现潜在语义向量空间模型及其语义核的构建与应用研究”71503151;山西省高等学校创新人才支持计划“基于潜在语义的文本信息主题深度聚类研究”2016052006的研究成果之一

在线出版日期：2018-04-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：166-172

英文信息展示

期刊专题