期刊专题

10.11925/infotech.2096-3467.2019.0301

基于加权关联模式挖掘与规则后件扩展的跨语言信息检索

引用
[目的]针对自然语言处理中查询主题漂移和词不匹配问题,提出一种基于加权关联模式挖掘和规则后件扩展的跨语言信息检索模型及其算法.[方法]该模型采用新的加权关联模式支持度和基于最大项目权值的项集剪枝策略挖掘频繁项集,利用置信度和相关度评价加权关联规则,根据扩展模型从规则中提取优质扩展词实现规则后件扩展,扩展词与原查询词项组合为新查询再次检索文档得到最终检索结果.[结果]实验结果表明,与单语言检索基准比较,本文检索模型的R-prec和p@10平均增幅分别为42.49%和25.53%;与跨语言检索基准比较,其平均增幅分别为91.87%和64.61%;与现有基于加权关联规则挖掘的跨语言检索方法比较,R-prec和P@10最高平均增幅分别可达93.20%和34.60%.[局限]只进行实验性研究,需要探讨在实际跨语言搜索引擎中的具体应用.[结论]本文检索模型能有效地减少查询主题漂移和词不匹配问题,改善和提高检索性能.

信息检索、跨语言检索、文本挖掘、关联规则、自然语言处理

3

TP393;G35(计算技术、计算机技术)

国家自然科学基金项目“基于深度学习和迁移学习的东盟跨语言查询扩展研究”61762006;广西应用经济学一流学科培育开放性课题“中国-东盟贸易商务数据挖掘及应用研究”2018MA07;广西东盟财经研究中心开放性课题“东盟财经文本大数据关联模式挖掘及其跨语言检索研究”项目2018DMCJYB08的研究成果之一

2019-11-18(万方平台首次上网日期,不代表论文的发表时间)

共11页

77-87

暂无封面信息
查看本期封面目录

数据分析与知识发现

1003-3513

11-2856/G2

3

2019,3(9)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn