10.11925/infotech.2096-3467.2018.0211
基于文本和公式的科技文档相似度计算
[目的]针对仅利用文本信息计算科技文档相似度存在的不足,提出一种结合文本和公式信息计算科技文档相似度的方法.[方法]将单个公式的特征元素映射为位置向量,计算得到单个公式的相似度;计算文档间的公式覆盖度和相似度;结合文本和公式信息计算得到科技文档相似度.[结果]比较本文方法和传统向量空间方法的分类性能,结果显示本文方法在宏平均F值上最大可提高6.7%.[局限]没有包含文档公式信息的公开测试集,自行构建的数据集规模较小.[结论]结合公式信息计算文档相似度,不仅能有效提高文档相似度计算的准确性,而且可以实现跨语言文档的相似度计算.
公式相似度、文档相似度、覆盖度、科技文档
2
G202;TP391(信息与传播理论)
河北省自然基金项目“基于贝叶斯网络的话题识别与追踪方法研究”2015201142;国家社会科学基金后期资助项目“基于术语关系的贝叶斯网络检索模型扩展”项目17FTQ002的研究成果之一
2019-01-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
103-109