DOI：10.13266/j.issn.0252-3116.2022.06.013

基于决策树的多源文献元数据融合研究

引用

摘要：

[目的/意义]构建多源文献元数据融合模型,有助于提升文献元数据整体质量,促进资源发现系统中的元数据管理与利用,优化用户资源发现服务体验.针对笔者此前提出的文献元数据判重策略进行优化,从经验为主向自动化转变,在保障判重和融合效果的前提下,提升整个过程的自动化水平.[方法/过程]针对不同类型文献的元数据项不一样、同一文献不同来源的元数据项不一样均会使得判重方法有所区别的情况,提出一种自动化的基于决策树的多源文献元数据融合模型,将判重问题转化为分类问题,根据特征相似度选择特征并构造决策树,在此基础上实施元数据判重及融合,并以不同类型的文献资源元数据为例进行实验,对策略进行效果验证.[结果/结论]结果显示,对于5种文献类型元数据,判重策略的准确率均达到99％以上,召回率均达到98％以上,总体效果较好.对于融合策略的效果判断,专利、学位论文、期刊论文、会议论文、图书的元数据项质量提升比例分别为15.15％、36.80％、15.29％、52.63％、15.38％,均有明显幅度的提升.

关键词：多源元数据、决策树、元数据判重、元数据融合

所属期刊栏目：66

分类号：G254(图书馆学、图书馆事业)

资助基金：国家社会科学基金16BTQ063

在线出版日期：2022-04-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：118-125

英文信息展示

期刊专题