一种面向中文本体模式的本体对齐框架

引用

摘要：

[目的]现有的本体对齐方法往往忽视中文概念的语序敏感和一词多义的语义特征.本文提出一种基于同义词词林和序列比对算法的大规模中文本体映射模型.[方法]采用基于改进的同义词词林相似度算法计算简单词元的语义相似度.并利用基于改进同义词词林与序列比对相融合的算法度量未登录词之间的语义相似度.[结果]在由DBpedia(中文版)、百度百科和互动百科知识库所构建的测试语料上的关联映射实验结果表明,该模型的准确率、召回率和综合评价指标平均分别达到约97.5％、87.8％和92.1％.[局限]本模型仅专注于对中文本体概念的元素级相似度度量,并未考虑本体属性和实例对于概念等价关系的影响因素.[结论]在面向中文网络百科的大规模开放语义数据集上的评测结果证明,该模型的总体性能明显优于现有算法.

关键词：中文关联数据、同义词词林、序列比对、本体映射、相似度计算

分类号：G353.1(情报学、情报工作)

资助基金：首都经济贸易大学科研项目“基于数据场和序列比对的中文关联数据构建研究”00791554410264;北京市哲学社会科学项目“‘互联网+’环境下北京公共信息流动机制及协同获取模式研究”项目16srb021的研究成果之一

在线出版日期：2017-04-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：47-57

英文信息展示

期刊专题