算法也能欺骗我们做坏事到底该如何预防？|大数据算法包括哪四种_在线学习

《卫报》网站撰文称，算法能够决定你能否申请到住房贷款，也能够决定你要缴纳多少保险费用，但有时候它们会出错——还有的时候，它们被专门用来欺诈。那么，要如何阻止算法骗人呢？

很多的算法会无意间作恶。然而，有的算法则被用于犯罪活动。算法是通常用计算机代码编写而成的形式化规则，能够根据历史规律或者以往的模式预测未来的事件。要训练一个算法，你需要提供历史数据和成功的定义。

过去几十年间，可以看到一些金融活动已经被算法接管。交易算法利用历史数据来预测未来的市场动向。这种算法的成功标准就是能否带来可预测的市场动向，算法会对那种动向发生之前的历史规律保持警惕。金融风险模型还使用历史市场变化来预测全球范围的大变动，不是针对独立的股票来预测，而是针对一整个市场。针对抵押贷款证券的风险模型出了名的恶劣——人为有意造成的——信任那些模型可以说是2008年金融危机引发的巨大损失的罪魁祸首。

近年来，大数据模型的广泛普及基本上没有引起普通人的注意，但可以说，如今人们与大型官僚系统接触的一些重要时刻都涉及计分系统式的算法。大学录取，求职者筛选，员工绩效评估，信用卡申请，保险购买，选举投票，甚至警务，很多时候都是通过算法来完成。此外，被应用于这些系统决策的技术基本上都不透明(甚至对它们的创造者也不透明)，目前基本上都能够逃过监管，即便它们存在问题。这让这当中有哪些算法真的是在为我们服务的问题显得更加重要，更加紧迫。

四种层次的算法

下一层次是因为疏忽而变得恶劣的算法。这里算法包括不让从事最低工资工作的人过上体面生活的调度程序。这些算法把他们当做是机器的一个齿轮，安排他们在每一周的每一天里值不同的班次，使得他们无法正常作息，因而平常无法照顾孩子，无法再打一份工，或者无法上夜校学习。它们以残忍的方式来取得很高的效率和规模，大体上也合法。谷歌用于自动标记照片的系统也是如此。该系统一直以来都有一个问题：黑人会被标记为大猩猩。这表明该公司存在疏忽，在产品本身的质量评估上做得不够：他们没有在放出代码之前确保它们在各种不同的测试用例中都没有问题。

算法被用于筛选简历未经人工审查的求职者，这可能会导致歧视

最后，最底的层次包含蓄意作恶甚至公然违法的算法。有数百家私有公司在提供大范围监控工具，包括英国的数十家。那些工具被标榜为定位恐怖分子或者犯罪分子的方式，但它们也能够被用来瞄准和纠出民间的积极分子。由于那些公司收集了大量的数据，它们的预测性算法和评分系统可用来从噪声中过滤出有用的信号来。这个行业的违法性正引起讨论，但秘密行动的记者最近发现，代表伊朗和南苏丹的中间人能够相对轻松地买到这类系统。

大众尾气门的借鉴意义

言归正传，Uber开发了个名为“Greyball”的算法，它专门用来避免它的打车服务在城市里非法经营的时候被发现。它使用数据来预测哪些乘客会违反Uber的服务条款，或者预测哪些乘客属于秘密的政府执法人员。Greyball收集到的警告信号包括一天内多次使用Uber应用，以及使用与警察机构关联的信用卡。

到目前为止，我们所发现的最臭名昭著的蓄意违法算法当属大众汽车公司在全球1100万辆汽车上用来蒙蔽尾气污染测试的算法，该算法隐瞒了那些汽车实际的氮氧化物排放量达到法律允许数量的35倍的事实。尽管表面上看大众使用的是作弊设备，但该设备也算是算法。该算法被训练得能够鉴别和预测测试环境和道路环境，能够根据环境鉴别结果以不同的方式运作。跟Greyball一样，它意在欺骗。

2015年，电商公司PosterRevolution被判利用算法与其它的海报销售商串谋定价

首先，大众以外的其它汽车制造商也有部署类似的软件来在特定情况下关闭排放控制系统。换言之，尾气检测造假并不是个例，而是一套标准的作业程序。此外，我们可以假定这不是串谋行为，而是汽车制造商受到极端激励以及较低的被发现概率的驱使的一个简单案例。那么，我们完全有理由相信还有很多其它的算法被用来绕过被认为遵守成本太高的规章制度，尤其是在这些算法的开发者对被发现概率不以为意的时候。

按照成本收益来分析，这可能就像是轻而易举的商业模式：作弊，直至被监管人员发现为止，然后支付数额有限的、对我们所积累的利润不会什么损害的罚款。那毕竟也是金融危机发生以后的运作模式。为了股东价值，我们可能不得不这么做。

如果说观察像汽车碰撞这么易于观察的事听上去都令人困惑，那想象一下，在复杂的“深度学习”模式的模糊世界中观察底层的状况会有多困难。

当然，所需要的工具都已经有了。中国最近的展示表明脸部识别技术已经相当出色——足够捕捉乱穿马路的人和偷卫生纸的人。那意味着企业有许多的机会去对顾客或者潜在的雇员实施不正当的伎俩。就这一问题，企业也有这么做的商业动机。就在上个月，由于在购物搜索结果中偏袒自家的购物服务，谷歌被欧盟重罚24亿欧元。去年，亚马逊也因为定价算法而遭到ProPublica的起诉。它被指优先展示自营的产品，尽管那些产品并没有其市集平台以外的产品划算。如果说互联网是大数据企业争夺你的注意力的地方，那么可以想象未来会有更多的算法被用于这一目的。

大众尾气丑闻还有一个可以借鉴的地方。其尾气检测作假行为最终于2014年被西弗吉尼亚大学的一个教授和学生团队发现。该团队向独立的非盈利组织国际清洁交通委员会申请拨款，最后仅获得5万美元。他们将那些钱用来驾驶汽车环游全美，途中捕捉尾气排放数据。这可以说是一项成本很低且直截了当的测试。

2015年，大众汽车被发现利用恶劣的算法进行尾气检测造假

如何监管算法？

什么组织将会遏制即将出现的非法算法泛滥问题呢？算法领域有组织在扮演国际清洁交通委员会那样的角色吗？目前是否有组织有足够的资格、兴趣和能力去制止非法算法，以及证明这些算法有害呢？答案是目前还没有。相反，至少在美国，不相干的一些联邦机构在负责算法范畴的执法事宜，但这些机构没有一个特别熟悉错综复杂的大数据算法领域。在其它地区，欧盟委员会似乎在专注于调查谷歌的反垄断活动和Facebook的假新闻问题，但这让多个行业领域都没有受到审查。

不过，更重要的问题是，算法调查得有多深入。现在的算法属于秘密，属于专有代码，作为企业的“秘诀”而受到保护。它们太过神秘了，很多在线评分系统甚至对它们瞄准的人都不透明。那意味着那些人也不知道自己被授予了多少分数，也不能抱怨或者抗议那些分数。最重要的是，即便自己身上发生了某种不公平的事情，他们通常也不知情。

考虑到所有的这些问题，对算法实施监管实在难以想象，即便是在它们出毛病，不断地伤害人们的时候。对于这一问题，首先，并不是任何一种伤害都可以准确无疑地测量出来。有人可能会说，由于假新闻四处泛滥，我们的民主受到了损害。但你要如何估量民主呢？

并不是说算法完全无法监管。毕竟，按照定义，非法的算法算是违反我们能够指出的法律。说到底，也应当将这种违法行为归责于某个人。但如何执行这种法律的问题仍旧存在。

马里兰大学计算机科学教授本·施耐德曼(BenShneiderman)在阿兰·图灵研究所的讨论会中提出了国家算法安全委员会的概念。该机构以调查陆地和空中交通事故的美国国家运输安全委员会为模型，类似地负责调查违法算法造成的损害情况，尤其是判定谁应该为算法造成的伤害负责。

算法根据历史数据来给房屋估价，一美国房主控告Zoopla采用错误的数据致使她的房产估价减少10万美元

这是一个好主意。我们应当在发现问题的时候对它们展开调查，有个正式的调查流程是好事。如果该委员会有充分的法律权力，那它可能就能够深究很多的常识问题。但还不清楚它的法律权力会有多广泛。

以汽车厂商出现故障来类比吧：在算法世界，并没有类似于30车连环相撞的情况。大多数的算法伤害都悄无声息地分别发生在一个个独立的个体身上。相比肉眼可见的汽车碰撞事故，多起同时发生的、悄无声息且无法检测的汽车碰撞要更难调查。

我还是觉得调查造成损害的算法是有希望的。在尽是数据传道者的世界里成为数据怀疑者的其中一个奇迹是，人们过于惊叹于他们的技术，即便是在它无意间造成损害的时候，他们也公开描述它是多么地神奇。我们已经见识过不在少数的算法损害案例，这意味着尽管这些算法很神秘，很不透明，但他们最终都会被重新发现，虽然它们已经造成了大量的麻烦。

军备竞赛

一旦开始进行执法并进行跟踪记录，我们就相当于是进入一场军备竞赛。可以预计的是，不久之后将会出现各种成熟的算法。它们能够绕过法律，先进，悄无声息，寻求规避规章制度。它们将会从其它被抓的算法身上汲取教训，争取下一次做得更加完善。换言之，抓住他们作弊将会变得越发困难。我们的策略也必须要越来越精进。

预测性警务算法利用历史数据预测下一个犯罪行为会在哪里发生，民权组织称这些系统放大了现有的警察偏见

我们预计也有可能会被大公司告知，它们“正在私下处理。”在打击恐怖主义上，这已经在发生。它们那么说的时候我们不该信任它们。我们需要创建标准的检测框架——对于损害有标准的定义——并要求提交算法进行检测。我们不能够仅仅在“测试实验室条件下”做这种检测，不然的话算法领域也将会出现像大众尾气门那样的事件。

算法检测最大的障碍之一是，谷歌、Facebook或者亚马逊不允许外部研究人员检测多个角色模型(或者说个人网上档案)。由于那些公司定制提供个性化的服务，了解那些服务如何运作的唯一途径就是查看多个人的档案，但这并不被允许。以大众尾气检测来做类比：相当于是说研究团队没有汽车的控制权，因而不能检测它的尾气排放。我们需要要求提供更多的访问权和持续的监测，尤其是我们抓到他们有不法行为的时候。对于这一问题，整个行业，比如保险算法和招聘算法，都应当要受到这些监测，而不只是对独立的罪犯提出这一要求。

我们是时候做好战斗的准备了。这场战斗最终将会变成一场技术军备竞赛，但一开始，也就是现在，它是一场政治战斗。我们需要要求从业者提供证据证明，其有可能损害到我们的算法的运作公平，合法，始终如一。发现问题的时候，我们需要有效执行我们的法律，向违法的公司处以巨额罚款，让作弊行为变得毫无成本效益可言，从而防患于未然。现在是时候开始要求机器为我们效劳了，而不是我们去为机器效劳了。(乐邦)

THE END

算法也能欺骗我们做坏事到底该如何预防？

大数据的四大特征包括

“大数据”核心知识精粹！

揭秘！8步让你成为数据分析高手！数据源大模型神经网络

殷继国：人工智能时代算法垄断行为的反垄断法规制

数据分析的方法汇总十篇

算法也能欺骗我们做坏事到底该如何预防？

公需科目资料7

江西全民数字素养与技能提升知识竞答（题库）

华泰数字经济系列：数据要素商业模式探讨（一）

专利审查指南

司马南：沉迷网络游戏是一种病，大数据算法不能杀孩子学者观点

互联网江湖二十年：本质赛道和演化逻辑

IBMSPSSStatistics—大数据分析与应用统计分析软件

《中国法学》2020年总目录

大数据的简单算法比小数据的复杂算法更有效，体现了哪种大数据思维方式：（）。