10.3778/j.issn.1002-8331.1612-0277
基于混合策略的中文短文本相似度计算
为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法.首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度.然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度.实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断.
短文本相似度、关键词权重、层次聚类、二叉树、主干成分
54
TP391.1(计算技术、计算机技术)
国家自然科学基金61379109
2018-07-04(万方平台首次上网日期,不代表论文的发表时间)
共6页
116-120,205