江苏档案信息网业务新知网络信息资源归档:建设互联网“记忆宫殿”

一、网络信息资源存档的国际代表性实践

互联网档案馆

1.项目概述

“互联网档案馆”即1996年美国布鲁斯特·卡利(BrewsterKahle)创办的InternetArchive(IA),它是世界范围内首个按主题分类、有选择地对具有长远保存价值的网络信息进行捕获、归档、存储、开放利用的机构,也是目前世界范围内对互联网信息资源保存历史最久远、范围最广、内容最完善的机构。

2.存档策略

作为最知名的广泛式采集项目,IA采用采集软件遍历URL方法进行采集。由于网页是通过HTTP协议组织起来的,因此以一个网页为入口,往往可以找到其他页面。通过与AlexaInternet(提供关于因特网基础信息的服务)合作,IA得以获得大量网页资源的数据。此外,IA还针对突发事件以及一些重要专题进行数据采集。

3.项目成果

IA收录了包括网页、软件、电子书、音频、视频等在内的大量互联网资源,用户可以根据需要进行检索、浏览及下载。截至2022年8月6日,IA已采集超过6250亿个网页及400万张图片,提供超过3800万本电子书、1400万份音频资料、700万份视频资料以及790,000个软件程序。此处以网页及软件程序为例进行介绍。

●WaybackMachine:网页时光机

1996年,IA开发了网页档案浏览功能,即WaybackMachine。用户可以利用该功能查看过去的网站,包括已经失效的网页的快照。

2004年7月24日ICA官网快照

●SoftwareCollection:软件档案库

IA也保存了大量曾经存在于互联网的软件。2018年10月,网站总监MarkGraham表示互联网档案馆收录的内容正不断增长,并推出Commodore64模拟器,“理论上里面的每个软件都经过了广泛的测试,可以像往年一样正常工作”。因此,用户只需在IA软件档案库中查找,便可穿越时光,体验20世纪80年代的主机游戏。

收录于InternetArchive的经典游戏截图

澳大利亚Pandora项目

澳大利亚国家档案馆Pandora项目是国际范围内知名信息资源归档项目之一,该项目主要面向澳大利亚网络资源,按主题或事件收集网络资源,涵盖包括政治、经济、艺术、历史、环境等多个领域。该项目从1996年运行至今,对世界网络信息资源的长久保存具有重要借鉴意义。

Pandora官网统计数据

●从Pandora到AWA

目前,澳大利亚国家档案馆将Pandora项目进一步发展,推出澳大利亚网络档案馆(AustraliaWebArchive,AWA)项目。该项目以收集网络信息资源为主要目的,存档对象包括网络新闻、机构官网,以及社交网络或博客等个人网站。

2000年悉尼奥运会官方网站,收录于澳大利亚网络档案馆

AWA由以下三部分组成:

(1)Pandora档案馆——1996年起,是澳大利亚首个网络归档项目,由澳大利亚图书馆主办。其收集内容具有选择性,通常按主体或事件收集。

(2)澳大利亚政府网络档案馆——澳大利亚联邦政府网站集合,每年进行多次收集。

(3)针对澳大利亚域名网站的数据捕获——该部分内容占据AWA馆藏80%以上,每年至少定期记录一次采用澳大利亚域名(.au)的网站内资源。

目前,AWA与澳大利亚多所机构合作,收集澳大利亚所有司法管辖区组织的网络信息资源以发展AWA的综合数字馆藏,实现使文化能够以数字形式进行管理与探索的目的。

AWA合作机构示意图

英国政府网络档案馆UKGWA项目

UKGWA(UKGovernmentWebArchive)项目于2003年8月由英国国家档案馆主办,由英国国家档案馆网站档案馆团队、互联网记忆基金会、MirrorWeb公司以及《公共文件法》规定的公共文件主体机构的网站管理者和部门文件官员合作进行。UKGWA项目致力于为使用者提供不间断的网络信息服务,归档范围主要包括所有的中央政府部门、非部委公共机构、执行机关、皇家委员会、国家医疗服务体系以及区域发展机构等所建立的网站以及它们在社交媒体平台上建立的官方账户发布的内容。

横向组织-字序法

二、我国网络信息资源存档实践概况

早在21世纪初,我国图情档工作者也意识到了网络信息资源归档的重要性,并在此基础上开展了一系列实践。

我国网络信息资源存档实践现状

2003年,国家图书馆开展了我国首个网络信息资源存档实验,开启网络信息资源采集与保存实验项目WICP(WebInformationCollectionandPreservation);同年,北京大学计算机网络与分布式系统实验室开发建设了中国网页历史信息存储与展示系统“中国Web信息博物馆”,旨在收录所有中文网站的网页信息;2019年,国家图书馆与新浪网合作,开启了国家图书馆互联网信息战略保存项目,旨在建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,保存互联网时代的国家记忆和数字遗产。项目通过与国内重点数字文化生产和保存机构的合作,推动互联网信息的社会化保存与服务,构建国家互联网信息资源战略保障体系。但令人遗憾的是,这些项目目前均处于停滞状态,或是启动后再无下文,或是曾建成项目网站,但如今因无人维护而无法访问。

我国网络信息资源存档实践现存问题

在国家的重视与基层工作者多年的努力下,我国政府网页归档工作实际上已取得一定成果,但宏观而言,我国网络信息资源归档仍存在一些问题。

(2)存档资源范围待拓展:目前我国的网络信息资源归档工作的对象多为政府网站,而其他各类网站,如新闻网站、视频网站、社交媒体等的信息归档工作均处于空白状态。但从用户利用需求的角度来看,新闻网站、社交媒体等网站的信息资源归档同样重要,却常存在信息失存、失真等现象,有待通过专业的档案化管理实现高质量的长期存储与开发利用。

(3)管理创新性不足:在我国现行的文件与档案管理业务流程中,档案部门往往是根据文件归档制度或档案接收制度等接受有关机构的档案移交,“被动性”较为明显。而网络信息资源相较于传统的纸质文件更新速度快,且数据规模大大增加,这要求档案部门主动出击,实施对网络信息资源的主动捕获、鉴定和存储,以实现符合新时代要求的网络信息资源存档目标。

结语

微软关闭运营四年的博客服务,百度关闭运营八年的博客服务,而现在形形色色的APP、网站、社区你方唱罢我登场,互联网需要这样一个地方,当面临资本交替、网站关停、技术风险等情况时,留存在网络世界中的证据、知识、记忆也依旧有迹可循。

正如国家图书馆馆长饶权在中国国家图书馆互联网信息战略保存项目开幕式上所言:“启动互联网信息战略保存项目,旨在着眼于国家信息安全与社会信息化建设的长远发展,及时、有效地记录时代文明发展的脉络。”网络信息资源归档,不仅记录着网络,更记录着我们这个时代。而对于档案工作者们而言,要做的远不止简单的信息爬取与归档,更要围绕用户需求,以多种方式提供利用服务,让“互联网有记忆”。

参考文献

[1]吴倩,王运彬.网站时光机:美国网页存档模式探索——以InternetArchive为例[J].图书馆,2021(07):91-97.

[2]周文泓,苏依纹,贺谭涛,黄小宇,李彦可.重大事件网络信息存档的全球实践进展研究及其启示[J].情报理论与实践,2021,44(01):42-49.DOI:10.16353/j.cnki.1000-7490.2021.01.006.

[3]陈慧,乐茜,罗慧玉,罗思静.社会记忆视角下网络信息资源归档路径探析——以PANDORA项目为例[J].数字图书馆论坛,2020(06):15-21.

[4]周文泓,陈怡,张玉洁,代林序,王璠.英国国家档案馆网络归档的案例分析及其启示[J].档案管理,2018(04):4-7+74.DOI:10.15950/j.cnki.1005-9458.2018.04.003.

[5]顾浩峰,赵芳,王前.关于英国政府网站网页归档项目的思考与借鉴[J].北京档案,2022(01):46-50.

[6]周毅.网络信息存档:档案部门的责任及其策略[J].档案学研究,2010(01):70-73.DOI:10.16065/j.cnki.issn1002-1620.2010.01.020.

THE END
1.四个维度,带你探索数字档案馆标准规范体系建设是数字档案馆?程的重要?撑。在数字档案馆建设过程中,如何将多元化的档案信息资源协调组织起来,通过?络互联互通,实现信息共建和共享,以及数字信息的长期保存和迁移,其关键就在于标准化。因此,我们必须按照先进性、完整性和可调整性的原则,借鉴和采?https://mp.weixin.qq.com/s?__biz=MzUxNTY1NzI2NQ==&mid=2247492506&idx=3&sn=6411d032af99f0ceaff3b428dde2e441&chksm=f84f1319494e16fabeeaa83a3c7febec8832a425c6a35649dd22025a69e508046c01bd5937d7&scene=27
2.电子档案管理办法第一条为了加强和规范电子档案管理,确保电子档案真实、完整、可用、安全,促进档案工作更好服务党和国家工作大局、服务人民群众,根据《中华人民共和国档案法》等法律法规,制定本办法。 第二条档案馆和机关、团体、企业事业单位以及其他组织(以下简称组织机构)的电子档案管理,适用本办法。 https://dag.hncu.edu.cn/info/1005/1606.htm
3.互联网档案馆数据泄露,现只读模式运行黑客典型问题互联网档案馆数据泄露,现只读模式运行 上周经历大规模数据泄露事件之后,互联网档案馆的“时光倒流机器”恢复为只读模式运行。 互联网档案馆的创始人兼数字图书馆员布鲁斯特·卡勒周一上午在 X(原推特)上发布了一则最新消息,宣布该网站以“临时的方式”回归。https://www.163.com/dy/article/JJBNCMFE05568E2X.html
4.互联网档案馆怎么进去上官方网站再登录。1、登录互联网档案馆的网站,点击进去需要输入对应的账号与密码。2、互联网档案馆是一个公益项目,专门收集互联网上的各种信息,把守严密,必须要有相应账号,密码申请,才能进去。3、账号密码正确即可登录成功。https://zhidao.baidu.com/question/369507251998789612.html
5.请问互联网档案馆离线可以访问吗怎么弄(可以网上查询档案吗)微信公众号 弱电行业网 扫码关注公众号 热门搜索: 布线 系统 施工 智能家居 施工报价 爱采购 发产品 发布供应 管理供应 匿名 点击243回答02022-11-28 14:41 待解决悬赏分:20- 离问题结束还有 0反对00007 微信小程序 微信小程序 微信公众号 微信公众号 https://www.rdhyw.com/know/show-26719.html
6.互联网档案馆这里不知道怎么回事下面一片空白不知道怎么回事?是网页本身的问题,还是加载出错误了? 最后总结一下,互联网档案馆是一个可以让人找到网站的历史版本,同时也是免费的,公益项目不收费,非常良心,但是有一个缺点,需要一些东西才能进去,并且这个网站是全英文的,用翻译也没有多大的用,并且不支持中文切换,如果想了解更多的,https://www.jianshu.com/p/4e559b139262
7.theinternetarchive七色猫视频Please add this domain to one of your websites. Whoops, looks like this domain isn't yet set up correctly. If you're the site owner, please check your site management tools to verify your domain settings.http://archive.org/
8.如何通过互联网档案馆访问不可用的网页副本什么是互联网档案? 为了保留互联网的历史记忆,互联网档案馆(Internet Archive)是一种巨大的数字档案馆,包括网页和内容,是许多年前出现的。它是一个非营利性组织,位于加利福尼亚州旧金山。Internet存档是Internet上最重要的网站之一,它就像一个巨大的数字图书馆,鲜为人知。在此站点上,我们可以免费找到和下载各种内容https://www.dujup.com/2020/09/blog-post.html
9.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub604 互联网必然抖音化? 2022/7/31 Instagram的变化及遭遇的抵制; Facebook模仿TikTok打造“发现引擎”; 短视频是必然方向吗? 603 中国人的政治信任 2022/7/27 “隐性信任”揭示出内心真实想法? 对地方政府和对中央政府的信任; 对政府的不信任是否会导致对民主化的期待? https://github.com/Newslab2020/Contents/blob/master/premium.md
10.档案员的个人工作业绩总结(共16篇)大力推广“互联网+电力营销”活动,“互联网+电力营销”是在高度移动互联、信息共享的大环境下,利用互联网及相关手段为客户提供更为便捷的服务、为供电企业提供更为多样的营销策略,以进一步赢得客户、拓展电力市场的一种新型电力营销手段。主要使用当下流行的互联网交互应用,如支付宝、电e宝、微信、掌上电力APP,95598网站https://www.1000xuexi.com/gerengongzuozongjie/qitagerenzongjie/1074601.html
11.互联网档案馆VIDEOTUTORIAL.RO教程“如何在 Whatsapp 上进行隐形对话”的内容 在本教程的标题“如何在 Whatsapp 上进行隐形对话”中,我向您展示隐藏与联系人或在 Whatsapp 群组中的对话的最佳方法。许多人不知道这种隐藏 Whatsapp 对话的方法许多人只知道阻止 [阅读更多]1 2 https://zh-cn.videotutorial.ro/category/internet/
12.你听说过「互联网档案馆」吗?腾讯云开发者社区其实互联网档案馆(The Internet Archive),从 1996 年就成立了,功能就是:定期收录并永久保存全球网站上可以抓取的信息。 互联网档案馆是由 Alexa 创始人布鲁斯特 · 卡利创办,是一个公益性质的计划,它的中文名可以叫「互联网档案馆」,也可以叫「网站时光倒流机器」。 https://cloud.tencent.com/developer/article/1361445
13.互联网档案馆(InternetArchive)数据库和检索课互联网档案馆(英语:Internet Archive)是一个非营利性的数字图书馆组织。是一个包含数百万免费书籍,电影,软件,音乐,网站等的非营利性图书馆。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。迄至2012年10月,其信息储量达到10PB。除此之外https://jiansuoke.com/db/internet-archive
14.时间机器:从「互联网档案馆」下载网站Archive.org被称做「互联网档案馆」,这里保存了大约 2840 亿个网页,正常情况下,每个人都可以一页、一页的浏览这些「档案」。有个叫WAYBACK MACHINE DOWNLOADER的在线服务,能帮你快点… @Appinn 在Archive 上面可以找到早起的小众软件的样子,或者你感兴趣的网址,比如新浪、腾讯、淘宝之类,可以去试试看 https://www.appinn.com/wayback-machine-downloader/
15.InternetArchive互联网档案馆The Internet Archive 定期收录并永久保存全球网站上可以抓取的信息,为互联网保存一份档案。备份整个互联网,让网络上的信息像印刷在书籍里一样被永恒地保存下来。收录工作有主次之分,对于不同的网站,收录的数量和频次也不相同。 Internet Archive - 互联网档案馆 Wayback Machine - 网站时光倒流机器 1 2 1. Intehttps://blog.csdn.net/chengyq116/article/details/122443892
16.互联网档案馆InternetArchiveSD分享导航站SD分享导航站“互联网档案馆”(Internet Archive)是1996年成立的非营利组织维护的网站,目的是建立一个数字化的全球互联网图书馆,以保留互联网上的文化遗产,使其能够被后代访问和研究。就像纸质图书馆一样,为研究人员、历史学家、学者、阅读障碍者和公众提供免费访问。使命是提供所有知识的普遍获取。 https://home.designshidai.com/10788.html
17.互联网档案馆:查询网站历史数据利器!漏洞人生互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面https://www.vuln.cn/579
18.美国:延长互联网档案馆侵权案证据开示期限国际视野2021年6月1日,在美国出版商协会协调下,阿歇特出版公司、哈珀柯林斯出版集团、约翰威立出版有限公司和企鹅兰登书屋向互联网档案馆提起诉讼,声称互联网档案馆扫描和出借图书是大规模侵犯版权行为。互联网档案馆则表示,其运行已久的图书扫描和借阅计划旨在使传统图书馆在数字时代发挥作用,此计划受合理使用原则保护。在2021年http://m.chinaarchives.cn/home/category/detail/id/38542.html
19.互联网档案馆因黑客攻击而陷入瘫痪前不久,互联网档案馆(The Internet Archive)遭受了一系列DDoS(Distributed Denial of Service,即分布式阻断服务)攻击,导致其服务下线。有媒体注意到,该馆在线数据库陷入瘫痪时,其网站出现弹窗,声称已被黑客入侵。在X平台上,有账户声称对此次攻击负责,并暗示后续将有另一轮攻击。 http://hbdaxh.cn/home/article/detail/id/4784.html
20.互联网档案馆Archive.org, 也被称为互联网档案馆, 是一个非营利性的数字图书馆。它的目标是为全球公众提供永久的访问权限, 以浏览互联网上的历史内容。这个项目由Brewster Kahle创立于1996年, 旨在创建一个“互联网的图书馆”。 主要功能 网页存档:互联网档案馆最著名的功能是它的Wayback Machine, 它允许用户查看网页在过去https://hao.archcookie.com/sites/997.html
21.互联网档案馆InternetArchive我的学习信息记录巴西 10 办公资源站长工具 链接直达">手机查看 该网站提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 用户在网页顶部的框中输入网址,点击“BROWSE HISTORY”按钮,然后选择想要查看的日期,就可看到网站历史的样子 https://kf369.cn/sites/3713.html
22.InternetArchive:记录那些被遗忘的互联网极客公园然而,想要建立全球化的互联网档案馆不太容易,部分原因在于各个国家在法定送存、版权、隐私等法律问题上无法统一。今年年初,英国作家协会(The Society of Authors)表示 Internet Archive 做法涉嫌侵权——在英国所有的书籍扫描和借阅行为必须得到版权所有者的授权,且每一次借阅能为作者带来 8.52 便士的公共出借报酬。英国https://www.geekpark.net/news/250940
23.地质勘察单位范文11篇(全文)地质档案管理主要是以服务为主的, 为地质矿产勘查单位对地质档案的有效利用提供方便。然而, 目前来讲, 我国地质档案管理服务方式较落后, 尤其随着互联网时代的到来, 信息化建设早已成为时代潮流, 我国的地质档案管理中手工管理模式仍然存在。因此, 提高地质档案管理信息化水平早已成为地质档案管理改革的重要内容。 https://www.99xueshu.com/w/ikeyvjz5fzd3.html