10.3969/j.issn.1003-3513.2008.06.008
基于ID3分类算法的深度网络爬虫设计
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法.对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果.
网络爬虫、深度网络、ID3算法
TP393(计算技术、计算机技术)
2008-11-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
41-45