江苏档案信息网业务新知网络信息资源归档:建设互联网“记忆宫殿”

一、网络信息资源存档的国际代表性实践

互联网档案馆

1.项目概述

“互联网档案馆”即1996年美国布鲁斯特·卡利(BrewsterKahle)创办的InternetArchive(IA),它是世界范围内首个按主题分类、有选择地对具有长远保存价值的网络信息进行捕获、归档、存储、开放利用的机构,也是目前世界范围内对互联网信息资源保存历史最久远、范围最广、内容最完善的机构。

2.存档策略

作为最知名的广泛式采集项目,IA采用采集软件遍历URL方法进行采集。由于网页是通过HTTP协议组织起来的,因此以一个网页为入口,往往可以找到其他页面。通过与AlexaInternet(提供关于因特网基础信息的服务)合作,IA得以获得大量网页资源的数据。此外,IA还针对突发事件以及一些重要专题进行数据采集。

3.项目成果

IA收录了包括网页、软件、电子书、音频、视频等在内的大量互联网资源,用户可以根据需要进行检索、浏览及下载。截至2022年8月6日,IA已采集超过6250亿个网页及400万张图片,提供超过3800万本电子书、1400万份音频资料、700万份视频资料以及790,000个软件程序。此处以网页及软件程序为例进行介绍。

●WaybackMachine:网页时光机

1996年,IA开发了网页档案浏览功能,即WaybackMachine。用户可以利用该功能查看过去的网站,包括已经失效的网页的快照。

2004年7月24日ICA官网快照

●SoftwareCollection:软件档案库

IA也保存了大量曾经存在于互联网的软件。2018年10月,网站总监MarkGraham表示互联网档案馆收录的内容正不断增长,并推出Commodore64模拟器,“理论上里面的每个软件都经过了广泛的测试,可以像往年一样正常工作”。因此,用户只需在IA软件档案库中查找,便可穿越时光,体验20世纪80年代的主机游戏。

收录于InternetArchive的经典游戏截图

澳大利亚Pandora项目

澳大利亚国家档案馆Pandora项目是国际范围内知名信息资源归档项目之一,该项目主要面向澳大利亚网络资源,按主题或事件收集网络资源,涵盖包括政治、经济、艺术、历史、环境等多个领域。该项目从1996年运行至今,对世界网络信息资源的长久保存具有重要借鉴意义。

Pandora官网统计数据

●从Pandora到AWA

目前,澳大利亚国家档案馆将Pandora项目进一步发展,推出澳大利亚网络档案馆(AustraliaWebArchive,AWA)项目。该项目以收集网络信息资源为主要目的,存档对象包括网络新闻、机构官网,以及社交网络或博客等个人网站。

2000年悉尼奥运会官方网站,收录于澳大利亚网络档案馆

AWA由以下三部分组成:

(1)Pandora档案馆——1996年起,是澳大利亚首个网络归档项目,由澳大利亚图书馆主办。其收集内容具有选择性,通常按主体或事件收集。

(2)澳大利亚政府网络档案馆——澳大利亚联邦政府网站集合,每年进行多次收集。

(3)针对澳大利亚域名网站的数据捕获——该部分内容占据AWA馆藏80%以上,每年至少定期记录一次采用澳大利亚域名(.au)的网站内资源。

目前,AWA与澳大利亚多所机构合作,收集澳大利亚所有司法管辖区组织的网络信息资源以发展AWA的综合数字馆藏,实现使文化能够以数字形式进行管理与探索的目的。

AWA合作机构示意图

英国政府网络档案馆UKGWA项目

UKGWA(UKGovernmentWebArchive)项目于2003年8月由英国国家档案馆主办,由英国国家档案馆网站档案馆团队、互联网记忆基金会、MirrorWeb公司以及《公共文件法》规定的公共文件主体机构的网站管理者和部门文件官员合作进行。UKGWA项目致力于为使用者提供不间断的网络信息服务,归档范围主要包括所有的中央政府部门、非部委公共机构、执行机关、皇家委员会、国家医疗服务体系以及区域发展机构等所建立的网站以及它们在社交媒体平台上建立的官方账户发布的内容。

横向组织-字序法

二、我国网络信息资源存档实践概况

早在21世纪初,我国图情档工作者也意识到了网络信息资源归档的重要性,并在此基础上开展了一系列实践。

我国网络信息资源存档实践现状

2003年,国家图书馆开展了我国首个网络信息资源存档实验,开启网络信息资源采集与保存实验项目WICP(WebInformationCollectionandPreservation);同年,北京大学计算机网络与分布式系统实验室开发建设了中国网页历史信息存储与展示系统“中国Web信息博物馆”,旨在收录所有中文网站的网页信息;2019年,国家图书馆与新浪网合作,开启了国家图书馆互联网信息战略保存项目,旨在建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,保存互联网时代的国家记忆和数字遗产。项目通过与国内重点数字文化生产和保存机构的合作,推动互联网信息的社会化保存与服务,构建国家互联网信息资源战略保障体系。但令人遗憾的是,这些项目目前均处于停滞状态,或是启动后再无下文,或是曾建成项目网站,但如今因无人维护而无法访问。

我国网络信息资源存档实践现存问题

在国家的重视与基层工作者多年的努力下,我国政府网页归档工作实际上已取得一定成果,但宏观而言,我国网络信息资源归档仍存在一些问题。

(2)存档资源范围待拓展:目前我国的网络信息资源归档工作的对象多为政府网站,而其他各类网站,如新闻网站、视频网站、社交媒体等的信息归档工作均处于空白状态。但从用户利用需求的角度来看,新闻网站、社交媒体等网站的信息资源归档同样重要,却常存在信息失存、失真等现象,有待通过专业的档案化管理实现高质量的长期存储与开发利用。

(3)管理创新性不足:在我国现行的文件与档案管理业务流程中,档案部门往往是根据文件归档制度或档案接收制度等接受有关机构的档案移交,“被动性”较为明显。而网络信息资源相较于传统的纸质文件更新速度快,且数据规模大大增加,这要求档案部门主动出击,实施对网络信息资源的主动捕获、鉴定和存储,以实现符合新时代要求的网络信息资源存档目标。

结语

微软关闭运营四年的博客服务,百度关闭运营八年的博客服务,而现在形形色色的APP、网站、社区你方唱罢我登场,互联网需要这样一个地方,当面临资本交替、网站关停、技术风险等情况时,留存在网络世界中的证据、知识、记忆也依旧有迹可循。

正如国家图书馆馆长饶权在中国国家图书馆互联网信息战略保存项目开幕式上所言:“启动互联网信息战略保存项目,旨在着眼于国家信息安全与社会信息化建设的长远发展,及时、有效地记录时代文明发展的脉络。”网络信息资源归档,不仅记录着网络,更记录着我们这个时代。而对于档案工作者们而言,要做的远不止简单的信息爬取与归档,更要围绕用户需求,以多种方式提供利用服务,让“互联网有记忆”。

参考文献

[1]吴倩,王运彬.网站时光机:美国网页存档模式探索——以InternetArchive为例[J].图书馆,2021(07):91-97.

[2]周文泓,苏依纹,贺谭涛,黄小宇,李彦可.重大事件网络信息存档的全球实践进展研究及其启示[J].情报理论与实践,2021,44(01):42-49.DOI:10.16353/j.cnki.1000-7490.2021.01.006.

[3]陈慧,乐茜,罗慧玉,罗思静.社会记忆视角下网络信息资源归档路径探析——以PANDORA项目为例[J].数字图书馆论坛,2020(06):15-21.

[4]周文泓,陈怡,张玉洁,代林序,王璠.英国国家档案馆网络归档的案例分析及其启示[J].档案管理,2018(04):4-7+74.DOI:10.15950/j.cnki.1005-9458.2018.04.003.

[5]顾浩峰,赵芳,王前.关于英国政府网站网页归档项目的思考与借鉴[J].北京档案,2022(01):46-50.

[6]周毅.网络信息存档:档案部门的责任及其策略[J].档案学研究,2010(01):70-73.DOI:10.16065/j.cnki.issn1002-1620.2010.01.020.

THE END
1.无法访问Archive.org。是被封闭了/被防火墙了或是已关闭?Click here to visit archive.org archive.org今天的停运状况archive.org全球中断状况如果archive.org被封闭了,你能采取的步骤 问题:如果archive.org似乎已关闭,怎么办? 如果archive.org实际上是在运行的,而停运只是对你而也,这时你可以执行故障排除或尝试另一个archive.org的替代。 然而在许多情况下,问题可以归咎于https://www.issitedownrightnow.com/status/zh/archive.org
2.的网站无法访问了,如何访问过去的网站https://web.archive.org/http://www.quickcamteam.net/documentation/how-to/logitech-uvc-driver-public-property-set 现在已经不能访问了,但通过https://web.archive.org/ 可以访问其过去的快照 有的快照可能是404,多点击几个 ,就可能找到之前的网站了。 推荐本站淘宝优惠价购买喜欢的宝贝:https://hqyman.cn/post/7390.html
3.theinternetarchive七色猫视频Please add this domain to one of your websites. Whoops, looks like this domain isn't yet set up correctly. If you're the site owner, please check your site management tools to verify your domain settings.http://archive.org/
4.InternetArchive(互联网档案馆)jinzi官方站点:https://archive.org/ 介绍来自维基百科 互联网档案馆(英语:Internet Archive)是美国的一个由Alexa创始人布鲁斯特·卡利创办于1996年的非营利性的、提供互联网多媒体资料档案阅览服务的数字图书馆,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英语:universal access to all knowledge.)。https://www.cnblogs.com/aozhejin/p/16399705.html
5.InternetArchive互联网档案馆https://archive.org/web/ https://web.archive.org/Yongqiang Cheng 关注 6 25 觉得还不错? 一键收藏 5 分享 打赏 专栏目录 internet-archive-vr:SF中Internet存档的多人虚拟现实世界 04-30 互联网档案馆VR 存档Internet存档,以便子孙后代可以在亚历山大图书馆2.0图书馆中走走,该图书馆存储着人类的https://blog.csdn.net/chengyq116/article/details/122443892
6.公益性项目互联网档案馆(InternetArchive)遭到DDoS攻击目前正在互联网档案馆 (Internet Archive,Archive.org) 致力于通过快照方式保存各类网站的页面、媒体内容甚至提供文件下载服务。 本身该网站就是公益性的开放项目,但没想到竟然还有人对互联网档案馆发起 DDoS (即分布式拒绝服务) 攻击,这影响了互联网档案馆的可访问性。 https://www.landiannews.com/archives/104132.html
7.52个外文文献论文网站,写论文必备(收藏)40、开放存取资源图书馆 http://www.oalib.com/ 开放存取资源图书馆:致力于为学术研究者提供全面、及时、优质的免费阅读科技论文。提供400多万篇免费使用下载的英文期刊论文,涵盖所有学科。 41、Internet Archive互联网档案馆 https://archive.org/ 全世界最重要的公益性学术网站之一。提供海量数字数据如网页、音乐、https://m.douban.com/note/746548510/
8.你听说过「互联网档案馆」吗?腾讯云开发者社区不知道有多少人听说过「互联网档案馆」呢?又有多少人知道互联网档案馆存在的意义呢? 其实互联网档案馆(The Internet Archive),从 1996 年就成立了,功能就是:定期收录并永久保存全球网站上可以抓取的信息。 互联网档案馆是由 Alexa 创始人布鲁斯特 · 卡利创办,是一个公益性质的计划,它的中文名可以叫「互联网https://cloud.tencent.com/developer/article/1361445
9.安娜档案馆(Anna'sArchive)新增几百万中文书闲聊吹水安娜的档案/Anna’s Archive 电子书搜索站 去年就听闻安娜档案馆将上架几百万中文书。 安娜档案馆收到有人送的754万本非小说类中文电子书,来自读秀,正在征求OCR识别 书出来了。我去试过,证实中文书多了,也能下载。 安娜馆所收档案来源及数量 duxiudat1261×97 15.6 KB https://forum.freemdict.com/t/topic/27819
10.奇客Solidot互联网档案馆用户数据泄露互联网档案馆 archive.org 遭遇了用户数据泄露。一名黑客入侵了网站,窃取了包含 3100 万条唯一记录的用户身份验证数据库。黑客还创建了一则 JavaScript 警告,在用户访问 archive.org 时警告网站遭到入侵用户数据泄露。Have I Been Pwned 数据泄露通知服务的作者 Troy Hunt 表示,黑客在 9 天前与他分享了互联网档案馆https://www.solidot.org/story?sid=79445
11.时间机器:从「互联网档案馆」下载网站Archive.org被称做「互联网档案馆」,这里保存了大约 2840 亿个网页,正常情况下,每个人都可以一页、一页的浏览这些「档案」。有个叫WAYBACK MACHINE DOWNLOADER的在线服务,能帮你快点… @Appinn 在Archive 上面可以找到早起的小众软件的样子,或者你感兴趣的网址,比如新浪、腾讯、淘宝之类,可以去试试看 https://www.appinn.com/wayback-machine-downloader/
12.互联网档案馆软件存档:互联网档案馆还保存了历史上的软件, 包括游戏、操作系统和应用程序, 这些资源对于计算机历史的研究具有重要意义。 使用方法 用户可以通过简单的搜索功能来查找特定的网页存档, 或者浏览不同的类别来发现有趣的内容。对于研究人员, Archive.org提供了高级搜索选项, 以便更精确地找到所需资料。 https://hao.archcookie.com/sites/997.html
13.如何通过互联网档案馆访问不可用的网页副本但是,一切都不会丢失,完全有可能获得已经消失的页面或完整站点的副本。面对任何这些冲突,如果我们需要重新加载不再可用的页面或站点,我们可以选择使用Internet存档的Wayback Machine服务。 什么是互联网档案? 为了保留互联网的历史记忆,互联网档案馆(Internet Archive)是一种巨大的数字档案馆,包括网页和内容,是许多年前https://www.dujup.com/2020/09/blog-post.html
14.非盈利数字图书馆互联网档案馆(TheInternetArchive)披露遭遇攻击者获得了一个 6.4 GB 的文件,其中包含在互联网档案馆注册的用户的电子邮件地址和散列密码。 互联网档案馆(The Internet Archive)是一家非营利性数字图书馆,因其 Wayback Machine 而闻名。 10 月 9 日下午,互联网档案馆的访问者开始看到弹出消息,内容如下: “你是否曾感觉互联网档案馆就像在木棍上运行一样https://www.anquanke.com/post/id/300798
15.InternetArchive互联网档案馆使用评测分享Internet Archive 互联网档案馆点赞收藏1 收录于2023-05-19 互联网档案馆,存储网页历史快照 Web应用 分享到: Internet Archive,顾名思义,可以将其理解为一个数字图书馆或者互联网档案馆。 网站提供的数字资料,有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本https://hao.logosc.cn/p/829
16.资源建设(精选十篇)档案资源作为社会文化的一部分, 其服务性大于经济性, 不是社会财富的直接创造者, 因而没能引起社会足够的重视, 人才缺乏、经费困难成为困扰档案事业发展的瓶颈。近年来, 随着《档案法》及相关法律法规的不断宣传实施, 档案工作的法律地位得以提高, 在社会工作中发挥着越来越重要的作用, 档案工作的社会价值日益显著。https://www.360wenmi.com/f/cnkey2ll00rv.html
17.**网站建立时间查询,探索线上世界的“年龄”密码**.2.使用WaybackMachine(互联网档案馆) 互联网档案馆(InternetArchive)的WaybackMachine是一个非营利性的数字化档案库,它定期对全球范围内的网页进行截图存档。通过访问archive.org并输入目标网址,你可以看到该网站在过去不同时期的存档版本,甚至能发现它的最初形态。虽然这种方法不能精确给出网站建立的确切日期,但通过https://www.myce.cn/info/205330.html
18.互联网档案馆(InternetArchive)数据库和检索课互联网档案馆(英语:Internet Archive)是一个非营利性的数字图书馆组织。是一个包含数百万免费书籍,电影,软件,音乐,网站等的非营利性图书馆。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。迄至2012年10月,其信息储量达到10PB。除此之外https://jiansuoke.com/db/internet-archive
19.InternetArchive:记录那些被遗忘的互联网极客公园然而,想要建立全球化的互联网档案馆不太容易,部分原因在于各个国家在法定送存、版权、隐私等法律问题上无法统一。今年年初,英国作家协会(The Society of Authors)表示 Internet Archive 做法涉嫌侵权——在英国所有的书籍扫描和借阅行为必须得到版权所有者的授权,且每一次借阅能为作者带来 8.52 便士的公共出借报酬。英国https://www.geekpark.net/news/250940
20.GitHubwangzhiyetiancai/mysupervisor我这收集了一些原“导师评价网”的,位于互联网档案馆( archive.org )上的存档页面显示有从2014年到2020年8月的数据有一些会比其他人爬出来的数据新 原来的“导师评价网”据说有收费删评价的(是不是不知道,反正有不少人议论它),有些说不定能在这里找回 https://github.com/wangzhiye-tiancai/mysupervisor_save
21.谷歌开始在搜索结果加入互联网档案馆WaybackMachine根据互联网档案馆 (Internet Archive) 的官方公告,谷歌Google已开始在搜索结果中加入互联网档案馆「Wayback Machine」的链接,此举旨在为结果加入历史背景(historical context)https://www.banzhuti.com/google-search-internet-archive-wayback-machine.html
22.互联网档案馆:查询网站历史数据利器!漏洞人生这些,使用所谓的站长工具所查不到的!那么到底用什么查呢?今天给大家隆重介绍一个权威性的网站:互联网档案馆https://archive.org/ 互联网档案馆 互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发https://www.vuln.cn/579
23.互联网档案馆未恢复,攻击详情大揭秘ddos互联网应用层数据包有关近期针对互联网档案馆的网络攻击的更多详情已浮出水面 该档案馆现在已重新上线,处于初步的“只读”状态,且仍在继续恢复。一些服务仍然离线,但“时光机”的操作已得以恢复,尽管创始人布鲁斯特·卡尔警告说,倘若需要“进一步维护”,它或许会再度暂停。 该事件以分布式拒绝服务(DDoS)攻击的形式出现 - 这种攻击是通过https://m.163.com/dy/article/JJ8I41J505568E4N.html
24.互联网档案馆InternetArchive我的学习信息记录巴西 10 办公资源站长工具 链接直达">手机查看 该网站提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 用户在网页顶部的框中输入网址,点击“BROWSE HISTORY”按钮,然后选择想要查看的日期,就可看到网站历史的样子 https://kf369.cn/sites/3713.html
25.Archivefor2020上海市图书馆学会网站“两微”报告》、《抖音短视频传播》、《在线直播业态现状和图书馆的机遇》和《智慧图书馆e站式构建与实践》涵盖了从知识的生产与传播、平台的运营与服务、相关法律政策以及智慧图书馆服务技术等多个方面,为我们展示了新媒体时代图书馆的现状和机遇,对于图书馆界未来在移动互联网时代的阅读和服务推广具有很好的借鉴与https://society.library.sh.cn/sna/2020/00/news/all
26.数字化网络化范文12篇(全文)四、与校园网络相链接, 有效开展数字化档案利用 在很多学校, 已经建立了从校园网络到互联网在内的各种网络平台, 学校的各种管理, 也基本上实现了网络化。师生们在网络上建立论坛、博客、聊天交友, 交流学习等各种信息, 即便是在还没有建立校园网络的学校也是一样, 人们已经利用互联网建立起班级同学会, 校友会, https://www.99xueshu.com/w/ikeynpknfvov.html