面向列语义识别的共现属性交互模型构建与优化

引用

摘要：

政务数据治理正在经历从"物理数据汇聚"到"逻辑语义汇通"的新阶段.逻辑语义汇通是指针对各孤岛政务系统因长期"自治"而形成的元数据缺失、元数据同名不同义以及同义不同名等问题,在不重建或修改原系统代码以及不物理汇聚各政务数据的前提下,通过技术手段,统一各孤岛信息系统元数据的语义表达,实现元数据的语义互联互通.该工作是将各孤岛信息系统的元数据语义对齐到已有的标准元数据上,具体地,将标准元数据名称看作语义标签,对孤岛关系数据的列投影进行语义识别,从而建立列名和标准元数据的语义对齐,实现孤岛元数据标准化治理.已有基于列投影的语义识别技术无法捕捉到关系数据的列顺序无关性特征以及属性语义标签之间的相关性特征,针对这一问题,提出了基于预测阶段和纠错阶段的两阶段模型:在预测阶段,提出了共现属性交互的CAI模型(co-occurrence-attribute-interaction model),利用并行化的自注意力机制保证列顺序无关的共现属性交互;在纠错阶段,结合语义标签之间的共现性,通过引入纠错机制(correction mechanism),优化CAI模型预测结果.在政务基准数据和Magellan等多组公开英文数据集上进行了实验,结果表明,引入纠错机制的两阶段模型,在宏平均和加权平均两个指标上,比已有最优模型最多可分别提高20.03％,13.36％.

关键词：孤岛政务、逻辑语义汇通、列语义识别、共现交互、注意力机制

所属期刊栏目：34

分类号：TP311(计算技术、计算机技术)

资助基金：国家重点研发计划2020YFB2104101

在线出版日期：2023-03-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：1010-1026

英文信息展示

期刊专题