一、网络信息资源存档的国际代表性实践
互联网档案馆
1.项目概述
“互联网档案馆”即1996年美国布鲁斯特·卡利(BrewsterKahle)创办的InternetArchive(IA),它是世界范围内首个按主题分类、有选择地对具有长远保存价值的网络信息进行捕获、归档、存储、开放利用的机构,也是目前世界范围内对互联网信息资源保存历史最久远、范围最广、内容最完善的机构。
2.存档策略
作为最知名的广泛式采集项目,IA采用采集软件遍历URL方法进行采集。由于网页是通过HTTP协议组织起来的,因此以一个网页为入口,往往可以找到其他页面。通过与AlexaInternet(提供关于因特网基础信息的服务)合作,IA得以获得大量网页资源的数据。此外,IA还针对突发事件以及一些重要专题进行数据采集。
3.项目成果
IA收录了包括网页、软件、电子书、音频、视频等在内的大量互联网资源,用户可以根据需要进行检索、浏览及下载。截至2022年8月6日,IA已采集超过6250亿个网页及400万张图片,提供超过3800万本电子书、1400万份音频资料、700万份视频资料以及790,000个软件程序。此处以网页及软件程序为例进行介绍。
●WaybackMachine:网页时光机
1996年,IA开发了网页档案浏览功能,即WaybackMachine。用户可以利用该功能查看过去的网站,包括已经失效的网页的快照。
2004年7月24日ICA官网快照
●SoftwareCollection:软件档案库
IA也保存了大量曾经存在于互联网的软件。2018年10月,网站总监MarkGraham表示互联网档案馆收录的内容正不断增长,并推出Commodore64模拟器,“理论上里面的每个软件都经过了广泛的测试,可以像往年一样正常工作”。因此,用户只需在IA软件档案库中查找,便可穿越时光,体验20世纪80年代的主机游戏。
收录于InternetArchive的经典游戏截图
澳大利亚Pandora项目
澳大利亚国家档案馆Pandora项目是国际范围内知名信息资源归档项目之一,该项目主要面向澳大利亚网络资源,按主题或事件收集网络资源,涵盖包括政治、经济、艺术、历史、环境等多个领域。该项目从1996年运行至今,对世界网络信息资源的长久保存具有重要借鉴意义。
Pandora官网统计数据
●从Pandora到AWA
目前,澳大利亚国家档案馆将Pandora项目进一步发展,推出澳大利亚网络档案馆(AustraliaWebArchive,AWA)项目。该项目以收集网络信息资源为主要目的,存档对象包括网络新闻、机构官网,以及社交网络或博客等个人网站。
2000年悉尼奥运会官方网站,收录于澳大利亚网络档案馆
AWA由以下三部分组成:
(1)Pandora档案馆——1996年起,是澳大利亚首个网络归档项目,由澳大利亚图书馆主办。其收集内容具有选择性,通常按主体或事件收集。
(2)澳大利亚政府网络档案馆——澳大利亚联邦政府网站集合,每年进行多次收集。
(3)针对澳大利亚域名网站的数据捕获——该部分内容占据AWA馆藏80%以上,每年至少定期记录一次采用澳大利亚域名(.au)的网站内资源。
目前,AWA与澳大利亚多所机构合作,收集澳大利亚所有司法管辖区组织的网络信息资源以发展AWA的综合数字馆藏,实现使文化能够以数字形式进行管理与探索的目的。
AWA合作机构示意图
英国政府网络档案馆UKGWA项目
UKGWA(UKGovernmentWebArchive)项目于2003年8月由英国国家档案馆主办,由英国国家档案馆网站档案馆团队、互联网记忆基金会、MirrorWeb公司以及《公共文件法》规定的公共文件主体机构的网站管理者和部门文件官员合作进行。UKGWA项目致力于为使用者提供不间断的网络信息服务,归档范围主要包括所有的中央政府部门、非部委公共机构、执行机关、皇家委员会、国家医疗服务体系以及区域发展机构等所建立的网站以及它们在社交媒体平台上建立的官方账户发布的内容。
横向组织-字序法
二、我国网络信息资源存档实践概况
早在21世纪初,我国图情档工作者也意识到了网络信息资源归档的重要性,并在此基础上开展了一系列实践。
我国网络信息资源存档实践现状
2003年,国家图书馆开展了我国首个网络信息资源存档实验,开启网络信息资源采集与保存实验项目WICP(WebInformationCollectionandPreservation);同年,北京大学计算机网络与分布式系统实验室开发建设了中国网页历史信息存储与展示系统“中国Web信息博物馆”,旨在收录所有中文网站的网页信息;2019年,国家图书馆与新浪网合作,开启了国家图书馆互联网信息战略保存项目,旨在建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,保存互联网时代的国家记忆和数字遗产。项目通过与国内重点数字文化生产和保存机构的合作,推动互联网信息的社会化保存与服务,构建国家互联网信息资源战略保障体系。但令人遗憾的是,这些项目目前均处于停滞状态,或是启动后再无下文,或是曾建成项目网站,但如今因无人维护而无法访问。
我国网络信息资源存档实践现存问题
在国家的重视与基层工作者多年的努力下,我国政府网页归档工作实际上已取得一定成果,但宏观而言,我国网络信息资源归档仍存在一些问题。
(2)存档资源范围待拓展:目前我国的网络信息资源归档工作的对象多为政府网站,而其他各类网站,如新闻网站、视频网站、社交媒体等的信息归档工作均处于空白状态。但从用户利用需求的角度来看,新闻网站、社交媒体等网站的信息资源归档同样重要,却常存在信息失存、失真等现象,有待通过专业的档案化管理实现高质量的长期存储与开发利用。
(3)管理创新性不足:在我国现行的文件与档案管理业务流程中,档案部门往往是根据文件归档制度或档案接收制度等接受有关机构的档案移交,“被动性”较为明显。而网络信息资源相较于传统的纸质文件更新速度快,且数据规模大大增加,这要求档案部门主动出击,实施对网络信息资源的主动捕获、鉴定和存储,以实现符合新时代要求的网络信息资源存档目标。
结语
微软关闭运营四年的博客服务,百度关闭运营八年的博客服务,而现在形形色色的APP、网站、社区你方唱罢我登场,互联网需要这样一个地方,当面临资本交替、网站关停、技术风险等情况时,留存在网络世界中的证据、知识、记忆也依旧有迹可循。
正如国家图书馆馆长饶权在中国国家图书馆互联网信息战略保存项目开幕式上所言:“启动互联网信息战略保存项目,旨在着眼于国家信息安全与社会信息化建设的长远发展,及时、有效地记录时代文明发展的脉络。”网络信息资源归档,不仅记录着网络,更记录着我们这个时代。而对于档案工作者们而言,要做的远不止简单的信息爬取与归档,更要围绕用户需求,以多种方式提供利用服务,让“互联网有记忆”。
参考文献
[1]吴倩,王运彬.网站时光机:美国网页存档模式探索——以InternetArchive为例[J].图书馆,2021(07):91-97.
[2]周文泓,苏依纹,贺谭涛,黄小宇,李彦可.重大事件网络信息存档的全球实践进展研究及其启示[J].情报理论与实践,2021,44(01):42-49.DOI:10.16353/j.cnki.1000-7490.2021.01.006.
[3]陈慧,乐茜,罗慧玉,罗思静.社会记忆视角下网络信息资源归档路径探析——以PANDORA项目为例[J].数字图书馆论坛,2020(06):15-21.
[4]周文泓,陈怡,张玉洁,代林序,王璠.英国国家档案馆网络归档的案例分析及其启示[J].档案管理,2018(04):4-7+74.DOI:10.15950/j.cnki.1005-9458.2018.04.003.
[5]顾浩峰,赵芳,王前.关于英国政府网站网页归档项目的思考与借鉴[J].北京档案,2022(01):46-50.
[6]周毅.网络信息存档:档案部门的责任及其策略[J].档案学研究,2010(01):70-73.DOI:10.16065/j.cnki.issn1002-1620.2010.01.020.