基于语言网络和语义信息的文本相似度计算

引用

摘要：

通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足，提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络，计算网络节点综合特征值，选取TOP比例特征词表征文本，有效降低文本表示维度。计算TOP比例特征词间的相似度，以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验，实验结果表明，提出的文本相似度计算方法，在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。

关键词：语言网络、文本聚类、文本相似度、词语相似度

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金No.70871115。

在线出版日期：2014-03-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：33-38

英文信息展示

期刊专题