期刊专题

10.13666/j.cnki.jnlc.2020.0211

基于外部ID的中文实体对齐分析——以中国科学院院士Wikidata数据子集为例

引用
本文尝试解决中文学者命名实体与外部知识库的实体对齐短缺的问题.通过SPARQL语义查询抽取维基数据子图——中国科学院院士的知识图谱子图,初步构建国内知识库的中文院士实体与Wikidata实体的对齐以及与外部ID对应的知识库的实体对齐.对院士实体的三个数量型特征对齐的外部ID个数(ids)、不同语种的Wikipedia站点个数(sites)、实体的全部陈述个数(states)与目标分类(有无VIAF实体对齐)的相关分析发现,目标分类与ids特征正向相关最强,直接VIAF实体对齐只存在ids高区的院士,占比偏低.因此,提出利用LC、ISNI等外部ID,应用VIAF对重要来源库的重定向功能,构建间接的VIAF实体对齐的方法.本文为中文知识库进行外部实体对齐提供了可行的初步方案,提出的实验方法显著地提高了较小ids值(1-7)的院士拥有VIAF实体对齐的个数,最终通过实体对齐的VIAF信息集成增加了院士实体的ids数量,丰富了中文学者与外部知识库的实体对齐信息.

外部ID、Wikidata、VIAF、命名实体对齐

29

本文系国家社会科学基金项目“中文学术领域命名实体的知识图谱构建研究”项目编号:18BTQ072

2020-06-08(万方平台首次上网日期,不代表论文的发表时间)

共12页

102-112,封3

暂无封面信息
查看本期封面目录

国家图书馆学刊

1009-3125

11-4099/G2

29

2020,29(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn