基于集成学习和二维关联边条件随机场的Web数据语义标注方法

引用

摘要：

大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.

关键词：Web信息抽取、语义标注、集成学习、条件随机场、长距离依赖

所属期刊栏目：33

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金90818001;山东省自然科学基金Y2007G24

在线出版日期：2010-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：267-278

英文信息展示

期刊专题