DOI：10.3969/j.issn.1008-0821.2015.04.035

词语相似度算法研究综述

引用

摘要：

词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用.现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度.本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处.最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势.

关键词：词语相似度、语义资源、语料库、维基百科、WordNet

所属期刊栏目：35

分类号：TP18(自动化基础理论)

在线出版日期：2015-05-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：172-177

英文信息展示

期刊专题