基于IIPC开源软件拓展构建国际重要科研机构Web存档系统
[目的]构建国际重要科研机构Web存档系统.[方法]基于IIPC开源软件拓展采集存档框架,在采集端采用三层扩展策略,在采集客户端增加自动上传及报告等管理功能,开发WARC文件内容解析模块,利用Solr进行索引.[结果]在采集端实现三层扩展,通过增加采集客户端功能提高存档流程自动化程度,通过增加的WARC文件内容解析功能抽取更多信息,实现索引及检索服务的扩展.[局限]没有使用大规模采集存档进行检验.[结论]扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点.
开源软件、网络信息存档、系统建设
G352(情报学、情报工作)
2015-05-12(万方平台首次上网日期,不代表论文的发表时间)
1-9