10.11925/infotech.2096-3467.2019.0943
基于公式描述结构和词嵌入的科技文档检索方法
[目的]提出一种公式匹配与文本排序相融合的科技文档检索方法.[方法]利用公式描述结构对数学表达式进行解析得到公式的结构信息,实现基于数学表达式的科技文档检索;同时,通过词嵌入模型投影得到查询关键字的词向量和文档词向量,根据两种词向量之间的相似度对文档集合进行排序.[结果]实验结果表明,方法的查全率和查准率分别为0.77和0.63,相较于传统科技文档检索方法分别提高24.2%和23.5%.[局限]只针对LaTeX格式的查询表达式,在数学表达式描述格式方面有局限性.[结论]数学表达式与文档关键字相结合的科技文档检索模型提高了科技文档检索的性能.
科技文档检索、公式描述结构、词嵌入
4
TP311(计算技术、计算机技术)
本文系国家自然科学基金项目“数学表达式资源获取与检索模型研究”;河北省自然科学基金项目“引入犹豫模糊逻辑的数学检索结果文档排序”;河北省教育厅河北省高等学校科学技术研究重点项目“基于犹豫模糊集的古籍汉字图像检索”
2020-06-16(万方平台首次上网日期,不代表论文的发表时间)
共8页
131-138