面向搜索引擎查询日志的领域术语自动识别方法
[目的]为弥补传统基于静态领域语料的领域术语识别方法的不足,提出一种从搜索引擎查询日志中自动识别领域术语的新方法.[方法]使用四部图对查询日志进行抽象描述,并在其上应用流形排序算法得到所有候选术语关于领域度的排序,取排在前列的术语作为领域术语.[结果]在真实搜索引擎的查询日志上实验证实本文方法具有更好的领域术语识别效果,在Precision@n指标上比基准方法提升约20%.[局限]识别到的领域术语的覆盖面部分依赖于领域专家选取的初始查询词,这对领域专家的经验提出一定要求.[结论]该方法无需事先准备大规模领域语料以及大量的人工标注,即可构建高质量的领域术语集合,具有较高的实用价值.
领域术语、搜索引擎、查询日志、流形排序
TP391.1(计算技术、计算机技术)
本文系山东省自然科学基金“动态环境下结构支持向量机学习算法及其应用研究”项目编号:ZR2014FP011、山东省高等学校科技计划项目“面向信息检索的非平衡数据排序学习问题研究”项目编号:J12LN45和山东省高等学校科技计划项目“面向非规范分布形态下不平衡文本数据的监督学习关键技术研究”项目编号:J14LN33的研究成果之一.
2016-04-14(万方平台首次上网日期,不代表论文的发表时间)
25-33