10.3969/j.issn.1003-3513.2009.05.009
基于本体和DOM相结合的Web信息抽取器
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器.利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理.实验表明,改进后的抽取方法提高了Web信息的抽准率.
信息抽取、包装器、本体、文档对象模型、归纳学习
TP391.3(计算技术、计算机技术)
2009-07-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
44-49