基于HTML模式代数的Web信息提取方法

引用

摘要：

高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.

关键词：Web信息提取、包装器归纳学习、Web挖掘

所属期刊栏目：43

分类号：TP3(计算技术、计算机技术)

资助基金：国家自然科学基金60573095;湖北省自然科学基金2005ABA238

在线出版日期：2006-11-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1644-1650

英文信息展示

期刊专题