DOI：10.3321/j.issn:1002-8331.2004.19.043

网页数据自动抽取系统

引用

摘要：

在Internet中存在着大量的半结构化的HTML网页.为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来.该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOM basedAutomatic Extraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化.该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等.

关键词：信息提取、包装器产生、DOM树

所属期刊栏目：40

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金79990580;国家重点基础研究发展计划973计划G1998030414

在线出版日期：2004-08-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：135-138

英文信息展示

期刊专题