基于序列比对的动态Web信息抽取算法
基于对深网(Deep Web)网页公共框架的定义, 提出一种在信息抽取算法中增加公共框架检测阶段, 采用序列比对算法提取公共框架的方法. 与原始网页数据相比, 去除公共框架的数据域信息对模板抽取更有利. 基于真实网站的数据密集型网页集合, 测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响. 实验结果表明了算法的有效性.
Web信息抽取、序列比对、公共框架检测
48
TP391.1(计算技术、计算机技术)
吉林省科技发展计划项目基金20060116
2010-07-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
421-426