10.11896/j.issn.1002-137X.2015.1.058
基于搜索引擎的词汇语义相似度计算方法
词汇语义相似度的计算在网页浏览和查询推荐等网络相关工作中起着重要的作用.传统的基于分类的方法不能处理持续出现的新词.由于网络数据中隐藏着大量的噪音和冗余,鲁棒性和准确性仍然是一个挑战,因此提出了一种基于搜索引擎的词汇语义相似度计算方法.语义片段和检索结果的页数被用来去除词汇语义相似度计算过程中的噪音和冗余.此外,还提出了一种方法来整合查询结果页数、语义片段和显示的搜索结果的数量,该方法不需要任何先验知识与本体.实验结果显示,所提出的方法在Rubenstein-Goodenough测试集的相关系数为0.851,优于现有的基于网络的词汇语义相似度计算方法,同时在搜索引擎的查询扩展任务中具有较为良好的应用效果.
语义相似度、信息检索、查询建议、网络检索
42
TP391(计算技术、计算机技术)
国家社会科学基金项目06BFX051;上海高校选拔培养优秀青年教师科研专项基金hzf05046
2015-02-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
261-267