这个不讲“道德”的网站,成了千万网友最爱的白嫖工具

老差友应该都知道互联网档案馆(下称archive.org),咱介绍好几次了。

archive.org由BrewsterKahle创办,是一个非营利性的数字图书馆。

从1996年起,它每隔一会就会抓取各种各样的网页、视频、图片等资料,保存在“图书馆”。

目前图书馆里存了8660亿个网页,1200万个视频,490万张图片和110万个软件程序。

点进网站,从MJ演唱会视频,到1999年测试版的Google搜索页面,再到你多年前送给凤姐的表白,都会重新进入你的世界。

不过,本文故事的主角不是这位,而是另一个档案馆archive.today(今日档案)。

archive.today于2012年创办。从名字和功能上看,它类似于archive.org,可以备份网页。

但它俩之间还是有个很大区别——

archive.org类似于搜索引擎,绝大多数资料都是爬虫自动抓取的。所以一直以来他们都遵守robot.txt。

但archive.today不遵守这个协议,即便网站不让它存,它也会霸王硬上弓。

不过,这也不能说archive.today缺德。

因为它并非自动抓取别人的网站,只有用户上传某个网页时,它才会抓取。

存档ing.....▼

目前,archive.today已经存储了5亿个网页。虽然远不及archive.org,但这种大家主动寻求备份的网页,相对来说,它的意义和价值会更大点。

就像三年前,有位吴彦祖备份了差评的官网,明显是肯定了咱们,咳咳。

除了可以备份网页,因为技术上一些细节,人们发现archive.today有另外一个妙用:

翻越付费墙。

对于那些订阅费动辄几百美刀的西方媒体,很多第三方世界国家的读者不光无力支付,甚至压根没有匹配的支付方式。

但自从这个功能被发现后,archive.today成为了大家心照不宣的“白嫖”工具。

还有不少人基于这个网站做了一些小工具,让白嫖变得更简单。

编辑部偶尔也用过它,有一些东西在这上面确实比较好找。

虽然archive.today管理员曾说过,翻阅付费墙不是网站本意,只是技术问题上产生的一些“意外”。

但想到他愿意冒着被诉讼风险默许这个情况存在,甚至教读者一些白嫖技巧。。。

差评君更愿意相信,他就是一个知识自由的支持者。

根据网站里问答纪录,2013年的时候,存储这些档案每月要在服务器上花300欧元。

2014年,随着网页越来越多,服务器成本升到了2000美元/月。

2016年,这个数字涨到了4000美元。

那问题来了,这些服务器的钱谁出呢?

我们知道,archive.org的背后是一家组织,总部在旧金山。它的年度预算有1000万美元,这些钱来自于它的合作赞助商和基金会。

但archive.today管理员说,这个网站全靠自己。

并一路坚持了十多年?

这个赛博菩萨到底是谁啊?

报以好奇和敬意差评君去网上搜了一下,但发现archive.today的背后,是一个迷。

维基百科上关于经营者的身份,只写了一句话:

事实上,没人知道他的真实身份。

半年前一位悉尼的工程师Jani花了很大精力,想看看archive.today幕后神秘人到底是谁。

首先,网站能追溯到的第一个历史纪录是在2012年5月16日,网站一开始的域名叫archive.is。

由一个来自捷克布拉格,名叫“DenisPetrov”的人注册。

DenisPetrov,是第一个线索。

但随着调查,Jani察觉DenisPetrov可能是假名。

一来这是很常见俄罗斯名字,光是在领英里就有242个同名好哥们。

二来Jani发现同样的名字和联系方式还注册了一堆乱七八糟的域名。

后来Jani还验证了很多带有这个名字的网站,如denispetrov.com、denis.biz、petrov.net。

但大部分网站都已经停运了,唯一能打开的那个,只是一位纽约程序员的博客,早在2011年就已停更了。

DenisPetrov这个线索似乎断了。。。

和Jani一样,这些年也有其他网友探索过这位神秘人,但大多数人都停在了“DenisPetrov”的阶段。

倒是2020年,有另一个网友找到了神秘人的重要线索。

顺着线索,他找到了一个名为MashaRabinovich的领英账号。账号显示,她有德国柏林某个大学的学士学位。

如果这个头像确实是本人,那说起来你可能不信,这个神秘人居然是一个留着波波头,有点娃娃脸的女生。

手动码一下

有人把MashaRabinovich放进谷歌搜索,发现了一个2012年帖子,基本实锤MashaRabinovich就是那个神秘人。

当时一位昵称为masharabinovich用户发帖子,吐槽自己网站archive.today被恶意举报,进了黑名单。

既然名字“确认”了,接下来就是网友们发挥福尔摩斯天赋的时候了。

他们发现MashaRabinovich曾多次参与了维基词条的编辑,最多的就是“俄罗斯护照”;

名字中的“Masha”(Маша)是玛丽亚的常见俄语说法,Rabinovich是德国犹太人的姓氏;

另外archive.today用的分析引擎是俄国的,回答问题时会使用一些大写词汇,可能有德国背景。

基于这些信息,网友推断出,神秘人大概是一个曾在德国留学的俄罗斯人,且学识渊博,英语流利。

至于“MashaRabinovich”,还不一定是其真名。也许和DenisPetrov一样,只是神秘人在网络世界的马甲之一。

虽然大家仍无法确定神秘人真实身份,但差评君觉得点到为止,他隐藏起来一定有自己的原因。

相比起来,我认为神秘人的个性更值得一提。

在archive.today的网站上,有一个基于Tumblr问答服务的页面。

通过这些Q&A,我推断神秘人是一个偏执且不喜欢被吹捧的技术极客。

首先就是我们前面说的,不遵守robot.txt。

像archive.org后来也推出了手动备份的功能,但用户上传网页后,它还会检查一遍robot.txt,如果网站不同意被抓取,archive.org还是会删除的。

但archive.today可不管这些。

我觉得这么做,是因为他创建网站的初衷就是尊重历史,保存历史。

他也说过,网站即便存档了假新闻,也不会删除。

这一点差评君也认可,历史不是纪录大事记就够了,它是由无数细节拼凑起来才够完整。

虽然archive.today看似有点极端,但也不是所有网页都一视同仁。如果存档确认为恐怖分子的宣传网页、儿童色情等,收到举报后他也会删除。

另外神秘人很低调,从不希望自己被抬得很高。

当网友把他和archive.org放在一起夸奖时,他都会否定,说自己没有想保存整个互联网的目标,目前只有archive.org的百分之一,且运作方式不同。

差评君觉得,这是每一个老板都要学习的不画大饼精神。

他知道自己一个人/团队的能力有限,做不到那么宏大的目标,一开始就没设想过这么多。

但12年了,网站帮大家存档了五亿多个网页,遇到了无数难题,并依旧坚持免费。

我觉得他和archive.org一样,都是令人尊敬的。

不过最近的情况,让差评君觉得网站的生存环境不容乐观。

因为神秘人回答网友问题的频率明显变低了,从两年前月均回答40个问题,到现在隔了好几个月才回答2个问题。

结合历史来看,这种情况其实是必然的。

互联网档案馆因为把140万实体书扫描出来,不限量租借给读者,被四家出版商联合起诉,还有六千名作家签了请愿书支持这场诉讼。

我知道,有很多人都抵制他们这种行为,认为盗版就是犯罪,不是解决问题的方式。

但世界不是非黑即白,“盗版”就一定不被提倡吗?

这个问题几十年来一直争论不休。

90年代,互联网上各种盗版电影和音乐横飞、破解和盗版软件横行。明明是赤裸裸的侵权,但却没有明确的法律能治一波乱象。

毫无疑问,它保护了无数原创者的权利,让人们获得了相应的回报,也让他们的心血没有被盗版商肆意践踏。

“科学和教育资源,就不应该有所谓的知识产权和资本运作的存在”这是Sci-hub传达的理念之一。

从archive.org到Sci-hub再到archive.today,他们把无法翻越的信息壁垒,难以打破的知识桎梏,都变成一个简单的回车键,让我们看到了世界的另外一种可能。

不管怎么说——

BrewsterKahle、AlexandraElbakyan、神秘人以及所有那些不追求利益去捍卫知识自由的人,他们都值得我们的尊重和敬佩。

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

THE END
1.YousearchedforToday’s cloud-based enterprise environments and always-on workforces require access to applications and resources that exist beyond the traditional boundaries of corporate networks, restrictive network firewalls and VPNs. Organizations are moving to modern, more holistic systems of verification to managehttps://technet.microsoft.com/en-us/library/bb687797.aspx
2.只有我昨天豆瓣崩了一天,到今天早上7点之前都没好吗生闲聊|只有我昨天豆瓣崩了一天,到今天早上7点之前都没好吗 来自: 冰美式不加糖 2024-12-19 10:54:42 江西 刚发现能打开了赞 回复 转发 赞 收藏 只看楼主 2024-12-19 11:02:44 上海 我是重新下载之后发现就好了 本来是一点进来就闪退 赞 回复 美羊羊怎么这样 2024-12-19 11:02:50 https://www.douban.com/group/topic/315387347/
3.这个极速浏览器真是要把人整崩溃,打开sciencedirect.com就出问题前段时间反馈后,好了2天,后面又是打不开,愁死了! 其他浏览器正常。 能不能彻底解决一下? 360社区 360社区 360社区 共3 个关于这个极速浏览器真是要把人整崩溃,打开sciencedirect.com就出问题的回复 最后回复于 2024-12-18 13:50 评论 直达楼层 360fans_u42103207 LV6.中尉 发表于 2024-12-17 19:20http://bbs.360.cn/forum.php?mod=viewthread&tid=16149218
4.据报道怎么打开404的网站?打开404网站方法汇总网红曝吴磊借车拒绝合影 晒聊天记录吐槽耍大牌 wxydnqlmateqyqqdjhbl 灵感梦工厂 扑克牌视频不盖被子 寡妇出装 另外,2022年1月,贵州省zheng协原党zu书记、zhu席王富yu因受贿zui、利用ying响力受hui罪,被pan死缓,qi中他敛cai数额超4.34yi余元。wang富玉也shi在天津shi第一中ji人民法yuan受审的,审判长ye是丁学http://www.kjpco.cn/play/20241218/25229.shtml
5.Atom编辑器出现报错,该如何解决?乱码问题:这是由于命令行输出的字符编码与Atom默认编码不一致导致的,解决方法是在命令行输入CHCP 65001更改编码为UTF8。 无法停止node进程:在监听端口时,如果停止脚本后端口被占用,可以在资源管理器中手动结束node进程。 (图片来源网络,侵权删除) 路径问题:修改init.coffee文件,将process.env.path设置为当前系统的PATHhttps://blog.huochengrm.cn/gz/15967.html
6.又崩了!多位网友反馈豆瓣App闪退,公司暂无回应新浪财经新浪科技讯 12月18日下午消息,今日,多位网友反馈“豆瓣崩了”。有用户贴出自己手机录屏信息显示,自己在点开豆瓣App后遭遇闪退现象,多次点击依然未能进入App首页。 有用户表示,“我一直以为是我网不行,后来发现打开别的软件都好使,就豆瓣不行……赶紧修!赶紧修!”对此,新浪科技向豆瓣方面问询,截止发稿公司暂无回应http://finance.sina.com.cn/tech/shenji/2024-12-18/doc-inczwiqt4871514.shtml
7.archivetoday·GitHubTopics·GitHub# Star Here are 2 public repositories matching this topic Language:All wabarc/archive.is Star36 A command-line tool and Go package for wayback web pages to archive.today golangtorarchiveinternet-archiveanticensorshipinternet-freedommementowayback-machinewaybackno-more-404archiveisarchivetoday https://github.com/topics/archivetoday
8.Archive.todayArchive.today是你个人的时间机器! 在这里你可以将网页永久保存,即使原来的网页消失了,你仍然可以通过这里的存档查看原网页的内容。 为了保证准确性,本站会保存一份文字版本和一份截图版本。 本站还会为网页生成短网址,类似 tinyurl、 goo.gl、bit.ly 等服务。 https://www.zmt.wiki/sites/27764.html
9.ARCHIVELOG特别大archivetodaymob64ca13f772f3的技术博客说明:实际上我们不需要指定日志的地址,但是,如果我们不进行指定,他将会存储在特定的地址,可以通过 log_archive_dest_N可以指定10个不同的归档日志地址,记住:当归档日志的地址满了之后,数据库将会挂起,直接Shut Down。 Now we can startup the database in mount mode and put it in archivelog mode. https://blog.51cto.com/u_16213580/8945043
10.奶酪清单(20241101)ArchiveToday ▲ 存档工具,网页“时光机”,手动存档网页备份。 元搜索引擎 简介 WebCrawler 元搜索引擎,整合多个搜索引擎的结果,然后再将返回给用户。 InfoSpace 元搜索引擎,整合多个搜索引擎的结果,然后再将返回给用户。 匿踪搜索 简介 非凡搜索 匿踪搜索,搜索数据来自谷歌。 Backdata 匿踪搜索,搜索数据来自百度。(https://www.runningcheese.com/aaa/comment-page-5?replytocom=38835
11.Django学习笔记002之resetfull应用在Django中,模型是与数据库表相对应的数据模型。UserModel模型是程序中定义的一个简单模型,包含了用户的姓名和年龄两个字段。在实际的应用中,我们可以根据需要定义更加复杂的模型,例如文章、评论、订单等等。 使用模型的好处是可以方便地通过代码来操作数据库,不需要手写SQL语句。当我们在程序中定义好了模型后,就可以通https://blog.csdn.net/qq_20252351/article/details/130396967
12.May2007lifeideasFiled under:Uncategorized— manoftoday @ 11:06 pm monochrome 位图 forground : 黑色 (0) RGB(0,0,0) monochrome 位图 background: 白色 (1) RGB(255,255,255) A) 生成与原图同样大小的单色掩码位图 hMaskDC 周边透明区域为背景白色,图象区域为前景黑色 https://manoftoday.wordpress.com/2007/05/
13.ArchivetychoishToday 2006-11-15 · tychoish I’ve been looking for…. 2006-11-12 · tychoish NaNoWriMo 2006-11-04 · tychoish October 9 Families are the Future 2006-10-22 · tychoish Why on Earth! 2006-10-16 · tychoish DRM, eBooks, iTunes, and the Next iPod 2006-10-15 ·https://tychoish.com/archives
14.日常英语1000句TheMoment389. These shoes don't fit right. 这双鞋不太合适。 390. This is only the first half. 这才是上半场呢。 391. This pen doesn't write well. 这钢笔不好写。 392. Would you like a cup of tea? 你想喝杯茶吗? 393. You really look sharp today. 你今天真漂亮。 http://www.cppblog.com/The-Moment/archive/2009/07/22/90869.html
15.如何存档网站:多种方式建立Web档案的指南首先,Archive.today不是基于在网络上运行的爬虫。相反,您提交您的URL并同意将其包含在存档中。此外,它的功能列表比其他解决方案更简单。例如,没有强大的删除策略,并且存档过程排除了某些媒体和文件类型。 尽管如此,如果您想要一个免费的地方来存储档案,它仍然是免费且合适的。该站点甚至具有查找以前存档站点的搜索功能https://www.wbolt.com/archive-a-website.html
16.你以为的可降解塑料,可能100年都降解不了可堆肥塑料的特点是经过降解后基本不会产生什么有害副产品,因此可以用作肥料。 可堆肥塑料的原料是玉米、甘蔗等等,它们经过化学加工后,可以获得类似石油基塑料(也就是用石油等为原料制成的塑料)的特性。比如纸板一样的可堆肥塑料碗是由竹纤维或其他植物纤维制成的。 https://tt.sina.cn/article_2309404934179963142205.html
17.TODAYSiteMapBrowse the TODAY sitemap for an archive of articles, videos and content on the site. Sections are organized by date, topic and media type.https://www.today.com/archive
18.一份不太简短的LATEX2ε介绍Today is August 2, 2008. 有些命令需要一个参数(parameter),该参数用花括号(curly braces) { } 括 住并写在命令的后面.一些命令支持可选参数(optional parameters),可选参数 可用方括号(square brackets) [ ] 括住,然后写在命令的后面.下面的例子中使 用了一些LATEX 命令,不要着急,后面将解释它们的含义.https://anl.sjtu.edu.cn/gao-xf/avatar/517021910631
19.谷歌SEO运营实操:带你了解WaybackMachine和GoogleCache替代存档站点包括 Oldweb.Today和U.S.Libraryof Congress Web Archive。如果你的页面在Wayback Machine上不可用,可以以上检查站点来源。 3、确认谷歌可以访问网页 谷歌的缓存会判断是否可以抓取页面上的所有链接和文本。 可通过以下步骤进行: ?键入缓存:在谷歌的搜索框中,然后在冒号后插入网页URL,注意不要出现空格https://www.cifnews.com/article/121622