期刊专题

面向搜索引擎查询日志的领域术语自动识别方法

引用
[目的]为弥补传统基于静态领域语料的领域术语识别方法的不足,提出一种从搜索引擎查询日志中自动识别领域术语的新方法.[方法]使用四部图对查询日志进行抽象描述,并在其上应用流形排序算法得到所有候选术语关于领域度的排序,取排在前列的术语作为领域术语.[结果]在真实搜索引擎的查询日志上实验证实本文方法具有更好的领域术语识别效果,在Precision@n指标上比基准方法提升约20%.[局限]识别到的领域术语的覆盖面部分依赖于领域专家选取的初始查询词,这对领域专家的经验提出一定要求.[结论]该方法无需事先准备大规模领域语料以及大量的人工标注,即可构建高质量的领域术语集合,具有较高的实用价值.

领域术语、搜索引擎、查询日志、流形排序

TP391.1(计算技术、计算机技术)

本文系山东省自然科学基金“动态环境下结构支持向量机学习算法及其应用研究”项目编号:ZR2014FP011、山东省高等学校科技计划项目“面向信息检索的非平衡数据排序学习问题研究”项目编号:J12LN45和山东省高等学校科技计划项目“面向非规范分布形态下不平衡文本数据的监督学习关键技术研究”项目编号:J14LN33的研究成果之一.

2016-04-14(万方平台首次上网日期,不代表论文的发表时间)

25-33

暂无封面信息
查看本期封面目录

现代图书情报技术

1003-3513

11-2856/G2

2016,(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn