档案实务丨网络档案管理专题(二):网络信息存档工作指南

随着人类社会数字转型的不断深入,互联网空间形成的信息资源已成为承载人类社会活动、知识生产以及记忆构建的重要内容。由此引发世界范围内不同层级的记忆机构、政府部门以及各类第三方组织开展网络信息存档工作。在此过程中,网络信息存档项目主导方不仅形成了网络档案资源库,亦基于自身实践场景形成了各具特点的网络信息存档工作指南,用以指导存档工作。而我国档案事业融入数字中国、网络强国建设已在《“十四五”全国档案事业发展规划》、全国档案局长馆长会议报告等战略规划中得以明确,从而以网络信息存档工作牵引档案事业面向网络空间实现数字转型成为题中应有之义。因之,本期将对网络信息存档项目主导方所形成的工作指南进行介绍,以期为网页、社交媒体信息等网络信息的存档工作提供参考。

工作指南收集以维基百科的网络信息存档项目为数据源,聚焦于其中成果产出较多、知名度较高的项目,共收集网络信息存档工作指南8份,内容如下:

二、全球网络信息存档工作指南一览

1.IIPC《协作性馆藏收集指南》

国际互联网保存组织内容开发工作组(CDG)致力于保存在国际范围内具有社会影响力的主题或事件的网络信息,而为了以相对规范化的标准对存档内容加以筛选,CDG形成了协作性馆藏收集指南,重点给出了评估标准或要求,其最新版本发布于2022年。

2.挪威国家图书馆与国家档案馆

《网站保存的图书馆与档案馆分工指南》

挪威国家图书馆和国家档案馆为防止网站的重复保存以及网站存档的权责缺失,编写该指南对网站保存的协作分工达成一致,该指南最新版本于2023年发布。

3.瑞士国家图书馆《网络档案收集指南》

《网络档案收集指南》于2005年首次发布,依据实际存档工作历经8次修订,最新版本于2021年发布,是瑞士国家图书馆建立具有重要遗产价值网络馆藏的重要基础。

4.卢森堡国家图书馆

《网络档案收集政策》

5.美国国会图书馆

《网络存档收集政策的补充指南》

6.NARA《网络文件管理指南》

NARA将机构网站运营视作其项目的重要组成部分,认为正确管理网络文件对有效的网站运营至关重要,有助于减少机构利用网络开展机构业务时面临的风险。由此于2005年1月发布该指南,以帮助机构内部的机构项目人员、网站管理员、IT人员等开展网络文件管理工作。

7.佛罗伦萨国家中央图书馆

《网站可存档性标准清单》

佛罗伦萨国家中央图书馆根据世界各地“记忆机构”的良好实践,制定了一份网站可存档性标准清单。这些标准将在《通过计算机网络传送文件的合法交存条例》生效时成为强制性规定。

该指南重点从技术层面对网站的可存档性加以规定,以保证其长期可用。网站可存档性包含网站的内容、结构、功能和接口必须具备的所有特性,以使网站能够通过现有的web存储工具长期存储和访问。建立可存档网站的指导方针包括8方面的内容:(1)按照主要的可访问性标准构建站点。(2)保持拥有重要内容的URLs稳定,并在必要时转向新的URLs。(3)为网站提供XML/RSS格式的网站地图协议;(4)将HTML/XHTML链接到网站的所有内容(页面、图像、视频、文档)。(5)排除robots协议,或将其限制在不需要存档的区域。(6)避免在重要内容上(如主页)使用专有格式。(7)限制使用包含在第三方网站上的内容。(8)使用包含有关内容状态信息的唯一Web地址。(9)报告媒体类型和字符编码。此外,该指南推荐使用ArchiveReady验证器来检查站点是否符合存档标准。

8.德克萨斯大学安东尼奥分校图书馆

《网络档案政策》

《网络档案政策》于2020年8月发布,由德克萨斯大学安东尼奥分校图书馆制定,取代2016年3月创建的《Web归档方法和收集指南》。

THE END
1.震惊!互联网档案馆竟遭恶意攻击黑客泄露互联网档案馆是一家托管数字图书馆的非营利组织,最近遭到黑客的双重网络攻击,其中一次攻击致使该网站数千万用户的数据被暴露。由于这些攻击,该组织的服务也已暂时暂停。这些事件不过是互联网档案馆这一年诸多厄运中的最新一例。 “灾难性的安全漏洞” 互联网档案馆的“时光倒流机器”遭受了大规模的数据泄露,一名黑客入https://www.163.com/dy/article/JJBI182B05568E4N.html
2.互联网档案馆因黑客攻击而陷入瘫痪前不久,互联网档案馆(The Internet Archive)遭受了一系列DDoS(Distributed Denial of Service,即分布式阻断服务)攻击,导致其服务下线。有媒体注意到,该馆在线数据库陷入瘫痪时,其网站出现弹窗,声称已被黑客入侵。在X平台上,有账户声称对此次攻击负责,并暗示后续将有另一轮攻击。 http://hbdaxh.cn/home/article/detail/id/4784.html
3.四个维度,带你探索数字档案馆标准规范体系建设是数字档案馆?程的重要?撑。在数字档案馆建设过程中,如何将多元化的档案信息资源协调组织起来,通过?络互联互通,实现信息共建和共享,以及数字信息的长期保存和迁移,其关键就在于标准化。因此,我们必须按照先进性、完整性和可调整性的原则,借鉴和采?https://mp.weixin.qq.com/s?__biz=MzUxNTY1NzI2NQ==&mid=2247492506&idx=3&sn=6411d032af99f0ceaff3b428dde2e441&chksm=f84f1319494e16fabeeaa83a3c7febec8832a425c6a35649dd22025a69e508046c01bd5937d7&scene=27
4.探索网页存档的宝库:WebArchiveDiscoveryWebArchive Discovery是一个开源项目,旨在帮助研究人员、历史学家和社会科学家探索互联网档案馆中的海量网页存档数据。 什么是WebArchive Discovery? WebArchive Discovery是一个基于Java的搜索引擎,它可以让你在互联网档案馆的网页存档中搜索和发现有价值的信息。它提供了丰富的查询选项,如时间范围、URL路径和文件类型等,可https://blog.csdn.net/gitblog_00022/article/details/136776367
5.林保全香港配音員WikiFandom↑ 明報2012年4月4日明報專訊小朋友大問題﹕神奇「-{叮噹}-」聲演數千角色 模板:Webarchive ↑ 4.0 4.1 4.2 Yahoo!娛樂圈周末訪談︰-{叮噹}-配音員林保全 - -{多啦A夢}-講呢啲!(頁面存檔備份,存於互聯網檔案館) ↑ 聲朋俱樂部S2第一集-林芷筠(頁面存檔備份,存於互聯網檔案館)由女兒林芷筠提及 ↑http://hkdubbingartist.fandom.com/zh-tw/wiki/%E6%9E%97%E4%BF%9D%E5%85%A8
6.高效获取Webarchive数据:掌握webarchive爬在互联网时代,大量的信息随着时间的推移逐渐消失。而Webarchive是一个非常好的数据源,它包含了许多有价值的历史网页信息。然而,如何高效地获取这些数据呢?本文将从以下8个方面进行分析和讨论。一、Webarchive是什么?Webarchive是由互联网档案馆(Internet Archive)创建并维护的一个在线数字档案库,收录了全球众多网站https://baijiahao.baidu.com/s?id=1764418799198092545&wfr=spider&for=pc
7.档案网站星星小筑W>《DA》 2012.10.25 关注 打开APP,阅读全文并永久保存 类似文章 强者是这样精进人生的! 祖传秘方治愈近视眼 〖新方一则〗治感冒一般一剂即愈 微信只清空聊天记录和没删一样,教你正确清理方法,彻底删除! 中国各省的基因比例图,样本是魔方基因目前测量的统计的 从这个图来 https://www.360doc.cn/article/5867255_243778785.html