10.3969/j.issn.1009-3044.2010.01.004
基于规则的Deep Web查询接口的抽取
以网上书店为例,基于所发现的Deep Web数据源,针对其查询接口,提出了一种基于领域知识的Deep Web接口抽取方法,该方法采用正则表达式的规则提取查询接口,包括与控件相邻的文本语义词汇的提取和控件的提取,然而部分查询接口抽取出的文本语义信息比较繁琐,需借助页面中的字体颜色等特征,过滤非需要的信息,达到文中的目标.该方法获得了较好的结果,具有良好的可行性和实用性.
领域知识、正则表达式、规则、查询接口抽取
6
TP311(计算技术、计算机技术)
2010-04-12(万方平台首次上网日期,不代表论文的发表时间)
共2页
7-8