DOI：10.3969/j.issn.1002-137X.2009.07.048

基于DOM树的可适应性Web信息抽取

引用

摘要：

Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差.提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取.对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法.

关键词：DOM树、信息抽取、可适应性

所属期刊栏目：36

分类号：TP3;TU1

资助基金：广东省自然科学基金07006474

在线出版日期：2009-10-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：202-203,210

英文信息展示

期刊专题