期刊专题

网络资源归档标准WARC及其应用研究

引用
WARC文件格式标准是由ISO国际标准化组织2009年发布的网络信息资源存档格式标准,是网络信息资源长期保存领域唯一的文件格式标准.目前已广泛应用在世界各国的数字图书馆、数字档案馆、数字资源仓储机构中.WARC标准解析WARC文件主要构成要素是WARC资源记录,一个文件由若干个WARC资源记录构成,WARC记录间以两个空行分隔.WARC记录有多种类型,包括warcinfo、response、resource、request、metadata、revisit、conversion、continuation 8种,用于记录软件收割网页时的所有信息,包括访问请求、元数据等,尽可能完整地保存网络资源,而不仅仅是网页内容.WARC记录由记录头和内容块构成,中间以空行分隔.记录头由版本行和若干个warc命名字段及字段值构成.版本行说明遵循的WARC标准版本号,Warc命名字段值列表记录WARC记录的各种元数据,WARC1.1版本提供了21种WARC命名字段,用于描述记录块内容、获取过程、块间联系等.

2021-02-04(万方平台首次上网日期,不代表论文的发表时间)

共1页

78

暂无封面信息
查看本期封面目录

中国档案

1007-5054

11-3357/G2

2020,(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn