网络资源归档标准WARC及其应用研究
WARC文件格式标准是由ISO国际标准化组织2009年发布的网络信息资源存档格式标准,是网络信息资源长期保存领域唯一的文件格式标准.目前已广泛应用在世界各国的数字图书馆、数字档案馆、数字资源仓储机构中.WARC标准解析WARC文件主要构成要素是WARC资源记录,一个文件由若干个WARC资源记录构成,WARC记录间以两个空行分隔.WARC记录有多种类型,包括warcinfo、response、resource、request、metadata、revisit、conversion、continuation 8种,用于记录软件收割网页时的所有信息,包括访问请求、元数据等,尽可能完整地保存网络资源,而不仅仅是网页内容.WARC记录由记录头和内容块构成,中间以空行分隔.记录头由版本行和若干个warc命名字段及字段值构成.版本行说明遵循的WARC标准版本号,Warc命名字段值列表记录WARC记录的各种元数据,WARC1.1版本提供了21种WARC命名字段,用于描述记录块内容、获取过程、块间联系等.
2021-02-04(万方平台首次上网日期,不代表论文的发表时间)
共1页
78