10.3969/j.issn.1002-137X.2007.04.057
基于重复模式的Web信息抽取
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式.根据这一特征,本文给出一种基于重复模式的Web内容抽取方法.通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录.
Web信息抽取、重复模式、后缀树
34
TP3(计算技术、计算机技术)
2007-05-21(万方平台首次上网日期,不代表论文的发表时间)
共4页
210-212,221