DOI：10.11925/infotech.2096-3467.2019.0301

基于加权关联模式挖掘与规则后件扩展的跨语言信息检索

引用

摘要：

[目的]针对自然语言处理中查询主题漂移和词不匹配问题,提出一种基于加权关联模式挖掘和规则后件扩展的跨语言信息检索模型及其算法.[方法]该模型采用新的加权关联模式支持度和基于最大项目权值的项集剪枝策略挖掘频繁项集,利用置信度和相关度评价加权关联规则,根据扩展模型从规则中提取优质扩展词实现规则后件扩展,扩展词与原查询词项组合为新查询再次检索文档得到最终检索结果.[结果]实验结果表明,与单语言检索基准比较,本文检索模型的R-prec和p@10平均增幅分别为42.49％和25.53％;与跨语言检索基准比较,其平均增幅分别为91.87％和64.61％;与现有基于加权关联规则挖掘的跨语言检索方法比较,R-prec和P@10最高平均增幅分别可达93.20％和34.60％.[局限]只进行实验性研究,需要探讨在实际跨语言搜索引擎中的具体应用.[结论]本文检索模型能有效地减少查询主题漂移和词不匹配问题,改善和提高检索性能.

关键词：信息检索、跨语言检索、文本挖掘、关联规则、自然语言处理

所属期刊栏目：3

分类号：TP393;G35(计算技术、计算机技术)

资助基金：国家自然科学基金项目“基于深度学习和迁移学习的东盟跨语言查询扩展研究”61762006;广西应用经济学一流学科培育开放性课题“中国-东盟贸易商务数据挖掘及应用研究”2018MA07;广西东盟财经研究中心开放性课题“东盟财经文本大数据关联模式挖掘及其跨语言检索研究”项目2018DMCJYB08的研究成果之一

在线出版日期：2019-11-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：77-87

英文信息展示

期刊专题