基于本体的网页数据抽取技术的研究

引用

摘要：

随着网络上信息的飞速增长，网络已发展成为一个巨大的数据库，人们对快速准确地获取网页数据提出了更多的需求。目前，自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识，在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中，利用领域本体的关键词、概念及关系来生成抽取规则，采用语法分析模块对输入的文档进行预处理，最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明，该方法具有良好的性能。

关键词：本体、网页数据抽取、包装器

分类号：TP311(计算技术、计算机技术)

在线出版日期：2014-07-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：3726-3728

英文信息展示

期刊专题