10.3969/j.issn.1002-1965.2008.06.018
Paperopen中的OA论文垂直蜘蛛设计
描述了Paperopen项目中OA期刊论文蜘蛛的总体设计方案、蜘蛛调度机制、论文全文文件命名原则、数据库设计以及页面爬取和蜘蛛调度需要注意的问题,提出通过插件技术可解决一些杂志社网站存在的论文全文链接转向问题.Paperopen采用deep web技术能够获取隐藏在数据库后面的论文数据.采用该方案设计的蜘蛛工作正常,每天可爬取论文1万篇左右,大大提高执行效率.
开放阅读、搜索引擎、垂直蜘蛛、论文仓储
27
TP3;U65
陕西省科学技术研究发展计划项目"科技论文开放获取搜索引擎研究"2007K04-11
2008-08-06(万方平台首次上网日期,不代表论文的发表时间)
共4页
60-63