期刊专题

10.3969/j.issn.1002-1965.2017.12.027

共现潜在语义向量空间模型的进一步研究

引用
[目的/意义]文献的向量表示是文献聚类的首要任务.共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能.然而,对该模型的研究还有待深入:该模型对英文文献的聚类适用性尚需检验;是否可以考虑利用除max统计量以外的其它统计量构建模型?聚类效果又会如何?面对大量的文献数据,模型的维度往往较高,运算成本大,所以有必要对模型进行优化处理.[方法/过程]首先将CLSVSM用于对英文文献集(数据来源于Web of Science,简记为WOS)的主题聚类并与VSM的聚类结果进行比较;然后利用除max统计量以外的三个常用统计量min,ave,med构建相应的CLSVSM模型,并用这四个统计量构建的CLSVSM模型对中英文文献进行聚类比较.更重要的是,我们提出了截尾共现潜在语义向量空间模型(TCLSVSM)并检验其聚类性能.[结果/结论]实验显示:CLSVSM对英文文献聚类同样适用;四种统计量构建的模型中CLSVSM-max对中英文文献的聚类效果最佳;TCLSVSM不仅能保证聚类性能,而且能显著降低运算成本.

向量空间模型、CLSVSM、TCLSVSM、共现分析、聚类

36

G350(情报学、情报工作)

国家自然科学基金“共现潜在语义向量空间模型及其语义核的构建与应用研究”71503151;山西省高等学校创新人才支持计划“基于潜在语义的文本信息主题深度聚类研究”2016052006的研究成果之一

2018-04-10(万方平台首次上网日期,不代表论文的发表时间)

共7页

166-172

相关文献
评论
暂无封面信息
查看本期封面目录

情报杂志

1002-1965

61-1167/G3

36

2017,36(12)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn