期刊专题

10.11925/infotech.2096-3467.2018.0211

基于文本和公式的科技文档相似度计算

引用
[目的]针对仅利用文本信息计算科技文档相似度存在的不足,提出一种结合文本和公式信息计算科技文档相似度的方法.[方法]将单个公式的特征元素映射为位置向量,计算得到单个公式的相似度;计算文档间的公式覆盖度和相似度;结合文本和公式信息计算得到科技文档相似度.[结果]比较本文方法和传统向量空间方法的分类性能,结果显示本文方法在宏平均F值上最大可提高6.7%.[局限]没有包含文档公式信息的公开测试集,自行构建的数据集规模较小.[结论]结合公式信息计算文档相似度,不仅能有效提高文档相似度计算的准确性,而且可以实现跨语言文档的相似度计算.

公式相似度、文档相似度、覆盖度、科技文档

2

G202;TP391(信息与传播理论)

河北省自然基金项目“基于贝叶斯网络的话题识别与追踪方法研究”2015201142;国家社会科学基金后期资助项目“基于术语关系的贝叶斯网络检索模型扩展”项目17FTQ002的研究成果之一

2019-01-07(万方平台首次上网日期,不代表论文的发表时间)

共7页

103-109

相关文献
评论
暂无封面信息
查看本期封面目录

数据分析与知识发现

1003-3513

11-2856/G2

2

2018,2(10)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn