10.3969/j.issn.1006-2475.2009.09.009
正则表达式与XML配置文件相结合的数据提取
针对特定搜索引擎的实际需求,需要从网站中提取有效的数据作为它的数据源.本文通过对网页内部结构的分析,利用正则表达式与XML配置文件相结合的方法,建立了基于特定网页的框架和规则的数据内容提取方法,并加以实现.该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取.
网页框架、正则表达式、数据提取、XML
TP393(计算技术、计算机技术)
2009-11-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
30-31,35