这个不讲“道德”的网站,成了千万网友最爱的白嫖工具

老差友应该都知道互联网档案馆(下称archive.org),咱介绍好几次了。

archive.org由BrewsterKahle创办,是一个非营利性的数字图书馆。

从1996年起,它每隔一会就会抓取各种各样的网页、视频、图片等资料,保存在“图书馆”。

目前图书馆里存了8660亿个网页,1200万个视频,490万张图片和110万个软件程序。

点进网站,从MJ演唱会视频,到1999年测试版的Google搜索页面,再到你多年前送给凤姐的表白,都会重新进入你的世界。

不过,本文故事的主角不是这位,而是另一个档案馆archive.today(今日档案)。

archive.today于2012年创办。从名字和功能上看,它类似于archive.org,可以备份网页。

但它俩之间还是有个很大区别——

archive.org类似于搜索引擎,绝大多数资料都是爬虫自动抓取的。所以一直以来他们都遵守robot.txt。

但archive.today不遵守这个协议,即便网站不让它存,它也会霸王硬上弓。

不过,这也不能说archive.today缺德。

因为它并非自动抓取别人的网站,只有用户上传某个网页时,它才会抓取。

存档ing.....▼

目前,archive.today已经存储了5亿个网页。虽然远不及archive.org,但这种大家主动寻求备份的网页,相对来说,它的意义和价值会更大点。

就像三年前,有位吴彦祖备份了差评的官网,明显是肯定了咱们,咳咳。

除了可以备份网页,因为技术上一些细节,人们发现archive.today有另外一个妙用:

翻越付费墙。

对于那些订阅费动辄几百美刀的西方媒体,很多第三方世界国家的读者不光无力支付,甚至压根没有匹配的支付方式。

但自从这个功能被发现后,archive.today成为了大家心照不宣的“白嫖”工具。

还有不少人基于这个网站做了一些小工具,让白嫖变得更简单。

编辑部偶尔也用过它,有一些东西在这上面确实比较好找。

虽然archive.today管理员曾说过,翻阅付费墙不是网站本意,只是技术问题上产生的一些“意外”。

但想到他愿意冒着被诉讼风险默许这个情况存在,甚至教读者一些白嫖技巧。。。

差评君更愿意相信,他就是一个知识自由的支持者。

根据网站里问答纪录,2013年的时候,存储这些档案每月要在服务器上花300欧元。

2014年,随着网页越来越多,服务器成本升到了2000美元/月。

2016年,这个数字涨到了4000美元。

那问题来了,这些服务器的钱谁出呢?

我们知道,archive.org的背后是一家组织,总部在旧金山。它的年度预算有1000万美元,这些钱来自于它的合作赞助商和基金会。

但archive.today管理员说,这个网站全靠自己。

并一路坚持了十多年?

这个赛博菩萨到底是谁啊?

报以好奇和敬意差评君去网上搜了一下,但发现archive.today的背后,是一个迷。

维基百科上关于经营者的身份,只写了一句话:

事实上,没人知道他的真实身份。

半年前一位悉尼的工程师Jani花了很大精力,想看看archive.today幕后神秘人到底是谁。

首先,网站能追溯到的第一个历史纪录是在2012年5月16日,网站一开始的域名叫archive.is。

由一个来自捷克布拉格,名叫“DenisPetrov”的人注册。

DenisPetrov,是第一个线索。

但随着调查,Jani察觉DenisPetrov可能是假名。

一来这是很常见俄罗斯名字,光是在领英里就有242个同名好哥们。

二来Jani发现同样的名字和联系方式还注册了一堆乱七八糟的域名。

后来Jani还验证了很多带有这个名字的网站,如denispetrov.com、denis.biz、petrov.net。

但大部分网站都已经停运了,唯一能打开的那个,只是一位纽约程序员的博客,早在2011年就已停更了。

DenisPetrov这个线索似乎断了。。。

和Jani一样,这些年也有其他网友探索过这位神秘人,但大多数人都停在了“DenisPetrov”的阶段。

倒是2020年,有另一个网友找到了神秘人的重要线索。

顺着线索,他找到了一个名为MashaRabinovich的领英账号。账号显示,她有德国柏林某个大学的学士学位。

如果这个头像确实是本人,那说起来你可能不信,这个神秘人居然是一个留着波波头,有点娃娃脸的女生。

手动码一下

有人把MashaRabinovich放进谷歌搜索,发现了一个2012年帖子,基本实锤MashaRabinovich就是那个神秘人。

当时一位昵称为masharabinovich用户发帖子,吐槽自己网站archive.today被恶意举报,进了黑名单。

既然名字“确认”了,接下来就是网友们发挥福尔摩斯天赋的时候了。

他们发现MashaRabinovich曾多次参与了维基词条的编辑,最多的就是“俄罗斯护照”;

名字中的“Masha”(Маша)是玛丽亚的常见俄语说法,Rabinovich是德国犹太人的姓氏;

另外archive.today用的分析引擎是俄国的,回答问题时会使用一些大写词汇,可能有德国背景。

基于这些信息,网友推断出,神秘人大概是一个曾在德国留学的俄罗斯人,且学识渊博,英语流利。

至于“MashaRabinovich”,还不一定是其真名。也许和DenisPetrov一样,只是神秘人在网络世界的马甲之一。

虽然大家仍无法确定神秘人真实身份,但差评君觉得点到为止,他隐藏起来一定有自己的原因。

相比起来,我认为神秘人的个性更值得一提。

在archive.today的网站上,有一个基于Tumblr问答服务的页面。

通过这些Q&A,我推断神秘人是一个偏执且不喜欢被吹捧的技术极客。

首先就是我们前面说的,不遵守robot.txt。

像archive.org后来也推出了手动备份的功能,但用户上传网页后,它还会检查一遍robot.txt,如果网站不同意被抓取,archive.org还是会删除的。

但archive.today可不管这些。

我觉得这么做,是因为他创建网站的初衷就是尊重历史,保存历史。

他也说过,网站即便存档了假新闻,也不会删除。

这一点差评君也认可,历史不是纪录大事记就够了,它是由无数细节拼凑起来才够完整。

虽然archive.today看似有点极端,但也不是所有网页都一视同仁。如果存档确认为恐怖分子的宣传网页、儿童色情等,收到举报后他也会删除。

另外神秘人很低调,从不希望自己被抬得很高。

当网友把他和archive.org放在一起夸奖时,他都会否定,说自己没有想保存整个互联网的目标,目前只有archive.org的百分之一,且运作方式不同。

差评君觉得,这是每一个老板都要学习的不画大饼精神。

他知道自己一个人/团队的能力有限,做不到那么宏大的目标,一开始就没设想过这么多。

但12年了,网站帮大家存档了五亿多个网页,遇到了无数难题,并依旧坚持免费。

我觉得他和archive.org一样,都是令人尊敬的。

不过最近的情况,让差评君觉得网站的生存环境不容乐观。

因为神秘人回答网友问题的频率明显变低了,从两年前月均回答40个问题,到现在隔了好几个月才回答2个问题。

结合历史来看,这种情况其实是必然的。

互联网档案馆因为把140万实体书扫描出来,不限量租借给读者,被四家出版商联合起诉,还有六千名作家签了请愿书支持这场诉讼。

我知道,有很多人都抵制他们这种行为,认为盗版就是犯罪,不是解决问题的方式。

但世界不是非黑即白,“盗版”就一定不被提倡吗?

这个问题几十年来一直争论不休。

90年代,互联网上各种盗版电影和音乐横飞、破解和盗版软件横行。明明是赤裸裸的侵权,但却没有明确的法律能治一波乱象。

毫无疑问,它保护了无数原创者的权利,让人们获得了相应的回报,也让他们的心血没有被盗版商肆意践踏。

“科学和教育资源,就不应该有所谓的知识产权和资本运作的存在”这是Sci-hub传达的理念之一。

从archive.org到Sci-hub再到archive.today,他们把无法翻越的信息壁垒,难以打破的知识桎梏,都变成一个简单的回车键,让我们看到了世界的另外一种可能。

不管怎么说——

BrewsterKahle、AlexandraElbakyan、神秘人以及所有那些不追求利益去捍卫知识自由的人,他们都值得我们的尊重和敬佩。

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

THE END
1.无法访问Archive.org。是被封闭了/被防火墙了或是已关闭?Click here to visit archive.org archive.org今天的停运状况archive.org全球中断状况如果archive.org被封闭了,你能采取的步骤 问题:如果archive.org似乎已关闭,怎么办? 如果archive.org实际上是在运行的,而停运只是对你而也,这时你可以执行故障排除或尝试另一个archive.org的替代。 然而在许多情况下,问题可以归咎于https://www.issitedownrightnow.com/status/zh/archive.org
2.的网站无法访问了,如何访问过去的网站https://web.archive.org/http://www.quickcamteam.net/documentation/how-to/logitech-uvc-driver-public-property-set 现在已经不能访问了,但通过https://web.archive.org/ 可以访问其过去的快照 有的快照可能是404,多点击几个 ,就可能找到之前的网站了。 推荐本站淘宝优惠价购买喜欢的宝贝:https://hqyman.cn/post/7390.html
3.theinternetarchive七色猫视频Please add this domain to one of your websites. Whoops, looks like this domain isn't yet set up correctly. If you're the site owner, please check your site management tools to verify your domain settings.http://archive.org/
4.InternetArchive(互联网档案馆)jinzi官方站点:https://archive.org/ 介绍来自维基百科 互联网档案馆(英语:Internet Archive)是美国的一个由Alexa创始人布鲁斯特·卡利创办于1996年的非营利性的、提供互联网多媒体资料档案阅览服务的数字图书馆,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英语:universal access to all knowledge.)。https://www.cnblogs.com/aozhejin/p/16399705.html
5.InternetArchive互联网档案馆https://archive.org/web/ https://web.archive.org/Yongqiang Cheng 关注 6 25 觉得还不错? 一键收藏 5 分享 打赏 专栏目录 internet-archive-vr:SF中Internet存档的多人虚拟现实世界 04-30 互联网档案馆VR 存档Internet存档,以便子孙后代可以在亚历山大图书馆2.0图书馆中走走,该图书馆存储着人类的https://blog.csdn.net/chengyq116/article/details/122443892
6.公益性项目互联网档案馆(InternetArchive)遭到DDoS攻击目前正在互联网档案馆 (Internet Archive,Archive.org) 致力于通过快照方式保存各类网站的页面、媒体内容甚至提供文件下载服务。 本身该网站就是公益性的开放项目,但没想到竟然还有人对互联网档案馆发起 DDoS (即分布式拒绝服务) 攻击,这影响了互联网档案馆的可访问性。 https://www.landiannews.com/archives/104132.html
7.52个外文文献论文网站,写论文必备(收藏)40、开放存取资源图书馆 http://www.oalib.com/ 开放存取资源图书馆:致力于为学术研究者提供全面、及时、优质的免费阅读科技论文。提供400多万篇免费使用下载的英文期刊论文,涵盖所有学科。 41、Internet Archive互联网档案馆 https://archive.org/ 全世界最重要的公益性学术网站之一。提供海量数字数据如网页、音乐、https://m.douban.com/note/746548510/
8.你听说过「互联网档案馆」吗?腾讯云开发者社区不知道有多少人听说过「互联网档案馆」呢?又有多少人知道互联网档案馆存在的意义呢? 其实互联网档案馆(The Internet Archive),从 1996 年就成立了,功能就是:定期收录并永久保存全球网站上可以抓取的信息。 互联网档案馆是由 Alexa 创始人布鲁斯特 · 卡利创办,是一个公益性质的计划,它的中文名可以叫「互联网https://cloud.tencent.com/developer/article/1361445
9.安娜档案馆(Anna'sArchive)新增几百万中文书闲聊吹水安娜的档案/Anna’s Archive 电子书搜索站 去年就听闻安娜档案馆将上架几百万中文书。 安娜档案馆收到有人送的754万本非小说类中文电子书,来自读秀,正在征求OCR识别 书出来了。我去试过,证实中文书多了,也能下载。 安娜馆所收档案来源及数量 duxiudat1261×97 15.6 KB https://forum.freemdict.com/t/topic/27819
10.奇客Solidot互联网档案馆用户数据泄露互联网档案馆 archive.org 遭遇了用户数据泄露。一名黑客入侵了网站,窃取了包含 3100 万条唯一记录的用户身份验证数据库。黑客还创建了一则 JavaScript 警告,在用户访问 archive.org 时警告网站遭到入侵用户数据泄露。Have I Been Pwned 数据泄露通知服务的作者 Troy Hunt 表示,黑客在 9 天前与他分享了互联网档案馆https://www.solidot.org/story?sid=79445
11.时间机器:从「互联网档案馆」下载网站Archive.org被称做「互联网档案馆」,这里保存了大约 2840 亿个网页,正常情况下,每个人都可以一页、一页的浏览这些「档案」。有个叫WAYBACK MACHINE DOWNLOADER的在线服务,能帮你快点… @Appinn 在Archive 上面可以找到早起的小众软件的样子,或者你感兴趣的网址,比如新浪、腾讯、淘宝之类,可以去试试看 https://www.appinn.com/wayback-machine-downloader/
12.互联网档案馆软件存档:互联网档案馆还保存了历史上的软件, 包括游戏、操作系统和应用程序, 这些资源对于计算机历史的研究具有重要意义。 使用方法 用户可以通过简单的搜索功能来查找特定的网页存档, 或者浏览不同的类别来发现有趣的内容。对于研究人员, Archive.org提供了高级搜索选项, 以便更精确地找到所需资料。 https://hao.archcookie.com/sites/997.html
13.如何通过互联网档案馆访问不可用的网页副本但是,一切都不会丢失,完全有可能获得已经消失的页面或完整站点的副本。面对任何这些冲突,如果我们需要重新加载不再可用的页面或站点,我们可以选择使用Internet存档的Wayback Machine服务。 什么是互联网档案? 为了保留互联网的历史记忆,互联网档案馆(Internet Archive)是一种巨大的数字档案馆,包括网页和内容,是许多年前https://www.dujup.com/2020/09/blog-post.html
14.非盈利数字图书馆互联网档案馆(TheInternetArchive)披露遭遇攻击者获得了一个 6.4 GB 的文件,其中包含在互联网档案馆注册的用户的电子邮件地址和散列密码。 互联网档案馆(The Internet Archive)是一家非营利性数字图书馆,因其 Wayback Machine 而闻名。 10 月 9 日下午,互联网档案馆的访问者开始看到弹出消息,内容如下: “你是否曾感觉互联网档案馆就像在木棍上运行一样https://www.anquanke.com/post/id/300798
15.InternetArchive互联网档案馆使用评测分享Internet Archive 互联网档案馆点赞收藏1 收录于2023-05-19 互联网档案馆,存储网页历史快照 Web应用 分享到: Internet Archive,顾名思义,可以将其理解为一个数字图书馆或者互联网档案馆。 网站提供的数字资料,有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本https://hao.logosc.cn/p/829
16.资源建设(精选十篇)档案资源作为社会文化的一部分, 其服务性大于经济性, 不是社会财富的直接创造者, 因而没能引起社会足够的重视, 人才缺乏、经费困难成为困扰档案事业发展的瓶颈。近年来, 随着《档案法》及相关法律法规的不断宣传实施, 档案工作的法律地位得以提高, 在社会工作中发挥着越来越重要的作用, 档案工作的社会价值日益显著。https://www.360wenmi.com/f/cnkey2ll00rv.html
17.**网站建立时间查询,探索线上世界的“年龄”密码**.2.使用WaybackMachine(互联网档案馆) 互联网档案馆(InternetArchive)的WaybackMachine是一个非营利性的数字化档案库,它定期对全球范围内的网页进行截图存档。通过访问archive.org并输入目标网址,你可以看到该网站在过去不同时期的存档版本,甚至能发现它的最初形态。虽然这种方法不能精确给出网站建立的确切日期,但通过https://www.myce.cn/info/205330.html
18.互联网档案馆(InternetArchive)数据库和检索课互联网档案馆(英语:Internet Archive)是一个非营利性的数字图书馆组织。是一个包含数百万免费书籍,电影,软件,音乐,网站等的非营利性图书馆。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。迄至2012年10月,其信息储量达到10PB。除此之外https://jiansuoke.com/db/internet-archive
19.InternetArchive:记录那些被遗忘的互联网极客公园然而,想要建立全球化的互联网档案馆不太容易,部分原因在于各个国家在法定送存、版权、隐私等法律问题上无法统一。今年年初,英国作家协会(The Society of Authors)表示 Internet Archive 做法涉嫌侵权——在英国所有的书籍扫描和借阅行为必须得到版权所有者的授权,且每一次借阅能为作者带来 8.52 便士的公共出借报酬。英国https://www.geekpark.net/news/250940
20.GitHubwangzhiyetiancai/mysupervisor我这收集了一些原“导师评价网”的,位于互联网档案馆( archive.org )上的存档页面显示有从2014年到2020年8月的数据有一些会比其他人爬出来的数据新 原来的“导师评价网”据说有收费删评价的(是不是不知道,反正有不少人议论它),有些说不定能在这里找回 https://github.com/wangzhiye-tiancai/mysupervisor_save
21.谷歌开始在搜索结果加入互联网档案馆WaybackMachine根据互联网档案馆 (Internet Archive) 的官方公告,谷歌Google已开始在搜索结果中加入互联网档案馆「Wayback Machine」的链接,此举旨在为结果加入历史背景(historical context)https://www.banzhuti.com/google-search-internet-archive-wayback-machine.html
22.互联网档案馆:查询网站历史数据利器!漏洞人生这些,使用所谓的站长工具所查不到的!那么到底用什么查呢?今天给大家隆重介绍一个权威性的网站:互联网档案馆https://archive.org/ 互联网档案馆 互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发https://www.vuln.cn/579
23.互联网档案馆未恢复,攻击详情大揭秘ddos互联网应用层数据包有关近期针对互联网档案馆的网络攻击的更多详情已浮出水面 该档案馆现在已重新上线,处于初步的“只读”状态,且仍在继续恢复。一些服务仍然离线,但“时光机”的操作已得以恢复,尽管创始人布鲁斯特·卡尔警告说,倘若需要“进一步维护”,它或许会再度暂停。 该事件以分布式拒绝服务(DDoS)攻击的形式出现 - 这种攻击是通过https://m.163.com/dy/article/JJ8I41J505568E4N.html
24.互联网档案馆InternetArchive我的学习信息记录巴西 10 办公资源站长工具 链接直达">手机查看 该网站提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 用户在网页顶部的框中输入网址,点击“BROWSE HISTORY”按钮,然后选择想要查看的日期,就可看到网站历史的样子 https://kf369.cn/sites/3713.html
25.Archivefor2020上海市图书馆学会网站“两微”报告》、《抖音短视频传播》、《在线直播业态现状和图书馆的机遇》和《智慧图书馆e站式构建与实践》涵盖了从知识的生产与传播、平台的运营与服务、相关法律政策以及智慧图书馆服务技术等多个方面,为我们展示了新媒体时代图书馆的现状和机遇,对于图书馆界未来在移动互联网时代的阅读和服务推广具有很好的借鉴与https://society.library.sh.cn/sna/2020/00/news/all
26.数字化网络化范文12篇(全文)四、与校园网络相链接, 有效开展数字化档案利用 在很多学校, 已经建立了从校园网络到互联网在内的各种网络平台, 学校的各种管理, 也基本上实现了网络化。师生们在网络上建立论坛、博客、聊天交友, 交流学习等各种信息, 即便是在还没有建立校园网络的学校也是一样, 人们已经利用互联网建立起班级同学会, 校友会, https://www.99xueshu.com/w/ikeynpknfvov.html