DOI：10.3969/j.issn.1671-1815.2008.09.046

一种基于XML的Web数据抽取的实现

引用

摘要：

Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤.而当前Web信息大多数都是HTML格式的,存在很多缺陷.针对目前研究,简单地介绍了XML及它的特点,并且对HTMLand XML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性.最后利用一个实例简述了基于XML的数据抽取过程.

关键词：XML标记语言、HTML、Web挖掘、数据抽取

所属期刊栏目：8

分类号：TP311.11(计算技术、计算机技术)

在线出版日期：2008-07-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：2473-2476

英文信息展示

期刊专题