8个典型的数据分析和人工智能失误案例

来自数据分析和机器学习算法的洞察力可能是无价的,但错误可能会牺牲你的声誉、收入或品牌。以下这些典型的数据分析和人工智能的失误案例说明了您可能面对的问题。

图源:CHARLESTAYLOR(图片上传者,可以译为用户CHARLESTAYLOR,或者CHARLESTAYLOR)/SHUTTERSTOCK

2017年TheEconomist(《经济学人》)宣称,数据而不是石油,已经成为世界上最宝贵的资源。从那以后,这句话就一直在重复。各个行业的组织都一直在并将继续在数据和分析方面进行大量投资。但就像石油一样,数据和分析也有它们的阴暗面。

根据首席信息官的《StateoftheCIO2023/2023年首席信息官状况报告》,34%的IT领导者表示,今年数据和业务分析将推动其组织的最大IT投资。26%的IT领导者表示,机器学习/人工智能将推动最多的IT投资。从机器学习算法驱动的分析和行动中获得的洞察力可以给组织带来竞争优势,但错误可能会在声誉、收入甚至生命方面付出代价。

了解您的数据及其告诉您的内容很重要,但理解您的工具、了解您的数据并牢记组织的价值观也很重要。

以下是过去十年中一些备受瞩目的分析和人工智能失误案例,以说明可能出现的问题。

一、ChatGPT幻觉法庭案件

2023年,largelanguagemodels/大型语言模型(LLMs,是使用深度学习算法处理和理解自然语言的基础机器学习模型。这些模型在大量文本数据上进行训练,以学习语言中的模式和实体关系。LLM可以执行多种类型的语言任务,例如翻译语言、分析情绪、聊天机器人对话等。)取得的进展,激发了几乎所有行业对生成人工智能变革潜力的广泛兴趣。OpenAI(在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能,AGI”,使其有益于人类。OpenAI于2015年由一群科技领袖,包括山姆·阿尔特曼、彼得·泰尔、里德·霍夫曼和埃隆·马斯克等人创办。)的ChatGPT(ChatGenerativePre-trainedTransformer,是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务)一直是这种兴趣激增的中心,预示着生成性人工智能如何拥有颠覆几乎每个商业角落的工作本质的能力。

但这项技术要想可靠地接管大多数业务流程之前,还有很长一段路要走。正如律师StevenA.Schwartz(史蒂文·A·施瓦茨)在2023年利用ChatGPT研究针对ColombianairlineAvianca(哥伦比亚阿维安卡航空公司,包括中美洲航空公司/TACA,是拉丁美洲最大的航空公司之一。公司在波哥大、利马和圣萨尔瓦多均设有航运枢纽,为美洲和欧洲的多个国家/地区提供服务。)的诉讼先例后,惊恐地发现自己在与联邦法官P.KevinCastel(P·凯文·卡斯特尔)辩论时陷入困境时所了解到的那样。

Schwartz(施瓦茨)是Levidow,Levidow&Oberman(Levidow,Levidow&Oberman律师事务所)的律师,他使用OpenAI生成人工智能聊天机器人寻找之前的案例,以支持Avianca(阿维安卡航空公司)雇员RobertoMata(罗伯托·马塔)因2019年受伤而提起的诉讼。然而唯一的问题是什么?在摘要中提交的案件中至少有六起不存在。在5月提交的一份文件中,Castel(卡斯特尔)法官指出,Schwartz(施瓦茨)提交的卷宗包含虚假的姓名和案卷编号,以及虚假的内部引文和引文。

截至2023年6月,Schwartz(施瓦茨)可能面临最高法院的制裁。

二、人工智能算法可以识别除新冠肺炎以外的一切东西

自新冠肺炎爆发以来,许多组织一直在寻求应用机器学习(ML)算法,以帮助医院更快地诊断或分诊患者。但根据英国数据科学和人工智能国家中心TuringInstitute(艾伦·图灵研究所,是一家英国国家数据科学和人工智能研究所。总部位于伦敦大英图书馆,于2015年创建。2017年,将人工智能纳入了研究范围。该研究所以艾伦·图灵的名字命名,他在理论和应用数学、工程和计算方面的开创性工作被认为是数据科学和人工智能领域的关键学科。由五所创始大学——剑桥、爱丁堡、牛津、UCL和华威——以及英国工程和物理科学研究委员会在2015年创建了艾伦图灵研究所。2018年,八所新大学——利兹大学、曼彻斯特大学、纽卡斯尔大学、伦敦玛丽女王大学、伯明翰大学、埃克塞特大学、布里斯托尔大学和南安普顿大学加入了该研究所。)的说法,预测工具几乎没有什么区别。

剑桥大学的机器学习研究员DerekDriggs(德里克·德里格斯)和他的同事们在《NatureMachineIntelligence/自然机器智能》杂志上发表了一篇论文,探讨了使用深度学习模型诊断病毒的方法。该论文确定该技术不适合临床使用。例如,Driggs(德里格斯)的研究小组发现他们自己的模型存在缺陷,因为它是在数据集上进行训练的,其中包括扫描时躺着的患者和站起来的患者这个变量。由于躺着的患者更有可能患重病,因此该算法学会了根据患者在扫描中的位置来识别新冠肺炎风险。

类似的例子包括用包含健康儿童胸部扫描的数据集训练的算法。该算法学会了识别儿童,而不是高危患者。

三、Zillow减记了数百万美元,由于算法购房灾难而裁员

2021年11月,在线房地产市场Zillow(是一家提供免费房地产估价服务的网站,创建于2006年,主要向网民提供各类房地产信息查询服务。用户可以直接在网页上缩放卫星地图寻找标的,或利用邮政编码和街道进行搜寻。)告诉股东,它将在未来几个季度逐步结束ZillowOffers(Zillow的数字炒房业务。从2006年问世以来,Zillow就将技术作为自己的核心优势,独家上线的Zestimate功能,可以基于大数据来提供房屋售卖和出租价格的估值,也让Zillow成为最受资本市场追捧的科技公司之一。ZillowOffers,也依靠Zestimate算法,预测房屋在几个月后的价值,从卖家手中收来房子,然后Zillow进行装修维护后卖给下一家。这种商业模式,靠的就是准确预测房价,实现低买高卖。但现实是Zillow往往会给出高于同行的报价,有媒体统计过,Zillow的报价比竞争对手Opendoor、Offerpad都要高。此外,Zillow囤积了大量的房产,从2018年4月以来购买了27000套房屋,但截至2021年9月底仅售出了17000套,最近不得不将余下的数千套房屋“挥泪大甩卖”。)的业务,并裁减公司25%的员工,约2000名员工。房屋翻转单元的困境是其用来预测房价的机器学习算法错误的结果。

ZillowOfers是一个项目,该公司基于机器学习算法得出的房屋价值的“Zestimate”,对房产进行现金报价。当时的想法是要翻新这些房产,并迅速翻卖它们。但Zillow的一位发言人告诉CNN(美国有线电视新闻网。特纳广播公司/TBS特德·特纳于1980年6月创办,通过卫星向有线电视网和卫星电视用户提供全天候的新闻节目,总部设在美国佐治亚州的亚特兰大。)该算法的中值错误率为1.9%,而对于场外房屋,错误率可能会高得多,高达6.9%。

据CNN(美国有线电视新闻网)报道,自2018年4月推出以来,Zillow通过ZillowOffers购买了2.7万套房屋,但到2021年9月底,只售出了1.7万套。新冠肺炎疫情和家庭装修劳动力短缺等Blackswanevents(黑天鹅事件。指非常难以预测,且不寻常的事件,通常会引起市场连锁负面反应甚至颠覆。它存在于自然、经济、政治等各个领域,虽然属于偶然事件,但如果处理不好就会导致系统性风险,产生严重后果。“灰犀牛”是与“黑天鹅”相互补足的概念,“灰犀牛事件”是太过于常见以至于人们习以为常的风险,“黑天鹅事件”则是极其罕见的、出乎人们意料的风险。)导致了算法的准确性问题。

Zillow表示,该算法导致其无意中以高于目前估计的未来售价的价格购买房屋,导致2021年第三季度的库存减记3.04亿美元。

四、英国因超过电子表格数据限制,损失了数千例冠状病毒病例

2020年10月,负责统计新冠肺炎感染病例的英国政府机构PublicHealthEngland(PHE,英国公共卫生局)透露,9月25日至10月2日期间,近16000例冠状病毒病例未报告。罪魁祸首是谁?MicrosoftExcel(一般指MicrosoftOfficeExcel。MicrosoftExcel是Microsoft为使用Windows和AppleMacintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。)中的数据限制。

PHE(英国公共卫生局)使用自动化流程将新冠肺炎阳性实验室结果作为CSV文件(Comma-SeparatedValues,字符分隔值/逗号分隔值。其文件以纯文本形式存储表格数据,数字和文本。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。)传输到报告仪表盘和联系人跟踪所用的Excel模板中。不幸的是,Excel电子表格中每个工作表最多可以有1048576行16384列。此外,PHE以列而不是行的形式列出了案例。当这些案例超过了16384列的限制时,Excel在底部截断了15841条记录。

PHE(英国公共卫生局)制定了一项“快速缓解措施”,可以拆分大型文件,并对所有系统进行了全面的端到端审查,以防止未来发生类似事件。

五、医疗保健算法未能标记出黑人患者

2019年,发表在《Science/科学》(是AmericanAssociationfortheAdvancementofScience/美国科学促进会,简称:AAAS,出版的一份学术期刊,为世界权威的学术期刊之一。《科学》是发表最好的原始研究论文、以及综述和分析当前研究和科学政策的同行评议的期刊之一。该杂志于1880年由爱迪生投资1万美元创办,于1894年成为AAAS的官方刊物。全年共51期,为周刊,全球发行量超过150万份。)杂志上的一项研究显示,美国各地的医院和保险公司用来识别需要“high-riskcaremanagement/高风险护理管理”项目的患者的医疗预测算法,不太可能挑出黑人患者。

高风险护理管理项目计划为慢性病患者提供训练有素的护理人员和初级保健监测,以预防严重并发症。但该算法实施起来发现,比起黑人患者,白人患者更有可能被推荐参加这些项目。

研究发现,该算法将医疗保健支出作为确定个人医疗保健需求的代理指标。但根据《ScientificAmerican/科学美国人》(是美国的一本科普杂志,始于1845年8月28日,起先是每周出版,后改为每月出版;作为《自然》的姐妹出版物,《科学美国人》涵盖的受众包括企业主、高级经理人、决策者和意见领袖,与《自然》的学术受众形成互补。)的说法,病情较重的黑人患者的医疗成本与更健康的白人患者的费用不相上下,这意味着即使他们的需求更大,他们获得的风险得分也更低。

该研究的研究人员认为,可能有几个因素起了作用。首先,有色人种的收入更有可能较低,即使他们有保险,这也可能使他们不太可能获得医疗保健。隐性偏见也可能导致有色人种获得较低质量的护理。

虽然该研究没有指明算法或开发人员的名字,但研究人员告诉《ScientificAmerican/科学美国人》,他们正在与开发者合作解决这一问题。

六、数据集训练微软聊天机器人发布种族主义的推文

Microsoft(微软)在社交媒体平台上发布了人工智能聊天机器人Tay(微软聊天机器人。微软公司于2016年3月23日在推特社交平台上发布的人工智能聊天机器人)。该公司将其描述为“对话理解”的实验。其想法是,聊天机器人将扮演一个十几岁女孩的角色,并通过Twitter(推特,是一家美国社交网络及微博客服务的公司,致力于服务公众对话。)结合机器学习和自然语言处理与个人互动。Microsoft(微软)为它植入了匿名的公共数据和一些由喜剧演员预先编写的材料,然后让它从社交网络上的互动中学习和发展。

在16个小时后,这个聊天机器人发布了超过9.5万条推文,这些推文很快就变成了公然的种族主义、厌女主义和反犹太主义。Microsoft(微软)迅速暂停了这项服务进行调整,并最终停止了服务。

事件发生后,MicrosoftResearch&Incubations/微软研究与孵化公司副总裁(thencorporatevicepresidentofMicrosoftHealthcare/时任微软医疗保健公司副总裁)PeterLee(皮特·李)在微软官方博客上的一篇帖子中写道:“我们对Tay无意中发出的攻击性和伤害性推文深表歉意,这些推文既不代表我们是谁,也不代表我们的意图,更不能代表我们是如何设计Tay的。”。

“尽管我们已经为系统的滥用做了许多准备,我们也对这次具体的攻击进行了关键的监督。但结果仍是,Tay在Twitter(推特)上发布了非常不恰当和应受谴责的文字和图片,”Lee(李)写道。

七、亚马逊的人工智能招聘工具只推荐男性

Amazon(亚马逊)的系统给候选人的星级评分从1分到5分。但该系统核心的机器学习模型是根据提交给Amazon(亚马逊)的10年简历进行训练的——其中大部分来自男性。由于这些培训数据,该系统开始筛选简历中包含“女性”一词的短语,甚至降级了所有女子学院的候选人。

当时,Amazon(亚马逊)表示,其招聘人员从未使用该工具来评估候选人。

该公司试图编辑该工具,使其保持中立,但最终决定由于不能保证不会学习其他歧视性的候选人排序方式,最终结束了该项目。

八、目标分析侵犯了隐私

Target(塔吉特)的营销部门想要识别孕妇,因为在生命的某些时期——其中最重要的是怀孕——人们最有可能从根本上改变他们的购买习惯。如果Target(塔吉特)能在那个时期接触到客户,举个例子,它就可以在这些客户身上培养新的行为,让他们转向Target(塔吉特)购买杂货、衣服或其他商品。

和所有其他大型零售商一样,Target(塔吉特)公司一直在通过购物者代码、信用卡、调查等方式收集其客户的数据。它将这些数据与人口统计数据和它购买的第三方数据相结合。通过对所有这些数据的综合分析,使Target(塔吉特)的分析团队能够确定,Target(塔吉特)销售的大约有25种产品可以一起进行分析,以生成“妊娠预测”分数。然后,市场营销部门就可以用优惠券和市场营销信息来瞄准获得高分的客户。

作者:ThorOlavsrud(托尔·奥拉夫斯鲁德)

ThorOlavsrud(托尔·奥拉夫斯鲁德)为CIO.com供稿,包括数据分析、商业智能和数据科学方面。他目前住在纽约。

THE END
1.6种数据分析实战项目!建议收藏供应链优化是指对公司的供应链数据进行分析,以提高供应链的效率和可靠性。通过对供应链数据的分析,可以帮助企业识别瓶颈和风险点,优化供应链的运作流程,降低采购成本,提高生产能力和产品质量。以上就是六个常见的数据分析实战项目案例。数据分析的应用领域非常广泛,可以帮助企业提高运营效率、优化决策、发现商机等。https://baijiahao.baidu.com/s?id=1807794217589643300&wfr=spider&for=pc
2.案例全程附图EXCEL数据分析实例数据分析项目案例那么接下来我们可以按照这两种数据提出几个问题: 1、用户的个人信息是否对结果有着明显的影响(哪些属性影响大)? 2、营销人员的行为是否对结果有着明显的影响(哪些属性影响大)? 4 分析过程 4.1 年龄 此时我们探究年龄与结果是否有明显的影响。 首先我们可以查看以下数据集中的年龄统计分布情况: https://blog.csdn.net/2401_84247423/article/details/138245613
3.小型案例集合案例5 投给谁。(帕累托分析模型) 某零售电商企业旗下有10款产品,每款产品的销售效益是不一样的,最近企业的盈利增长受阻,想要调整一下产品的资源投入情况,作为数据分析师,如何划分? 1 先确定维度指标分析方法: 维度:产品销售 指标:毛利率、销售额 分析方法:累计对比 https://zhuanlan.zhihu.com/p/470302845
4.10个超有趣的经典数据分析案例!让你轻松了解数据分析!——九数云BI随着互联网和移动互联网的不断发展,数据量呈爆发式增长态势,大数据有着Volume(大量)、velocity(高速)、variety(多样)、value(价值)的4V特性。数据作为和土地、资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过程中,地位愈发凸显。下面我们带来了几个经典数据分析案例,帮助大家理解。 https://www.jiushuyun.com/other/14643.html
5.精选30个数据分析案例,建议收藏!腾讯云开发者社区之前,我一直关注的数据大神“郭炜”,他是前易观的 CTO,易观大家都知道,专业做大数据分析研究的,他最近在极客时间上出了一个《数据分析思维课》专栏,把自己20 年来的数据分析心法、思考方式、项目经验都浓缩在这里了。 专栏刚完结,我也读的差不多了,非常通识,而且擅用案例,比如讲「幸存者偏差」时,就举了 201https://cloud.tencent.com/developer/article/1966722
6.商业分析实战项目案例分析商业分析专业,以数理统计和机器学习为核心,以编程为手段的辅助商业决策,其主要应用领域包括市场营销、风险分析、客户分析、供应链分析、人力资源分析,web分析等等。 指南者的商业分析项目实战,就以数据分析方法为核心,引用热门项目实战,由指导老师带领学员,进行明确分析目标,获取分析数据,清洗和变换数据,描述统计分析和深入http://m2.compassedu.hk/article_4328
7.Python数据分析人口分析案例 需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN https://www.cnblogs.com/linranran/p/13307951.html
8.数据分析案例基于多元线性回归算法预测学生期末成绩数据分析案例-基于多元线性回归算法预测学生期末成绩 一、加载数据集 该数据集包含了不同年级数名学生的科目成绩及一些其它的原始 信息,例如学号、姓名、身份证号等,总成绩由考试成绩、作业成绩、实验成绩等通过一定的规律计算得出。 首先,导入本次实验用到的第三方库https://developer.aliyun.com/article/1123414
9.成功大数据项目实战案例福特汽车用这些方法把所有的数据都界定好了以后,第二步是把项目交给了一个差不多200人的大数据分析专业团队,他们获取和搜索所需的外部数据,比方说第三方合同网站,区域经济数据、就业数据等等。 第三步是他们获得数据以后,就开始对数据进行建模分析、挖掘,为销售和决策部门提供精准可靠的角色选择和效果分析,也就是说https://cda.pinggu.org/view/20251.html
10.基于Hadoop部署实践对网站日志分析(大数据分析案例)1、项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实https://blog.51cto.com/u_15172991/5716496
11.通过数据分析驱动用户增长知乎Live整理稿假设是看 6 个月的风险,现在开始设置实验对照组,那么要能看到用户的表现的话至少需要等到 6 个月之后,再开始花几个月半年(这算比较快的)做模型和数据分析,之后再等 6 个月看结果,所以一个项目完整的流程下来都是至少一两年的。基本上是由行业特性决定的,不可能像互联网行业的一些项目周期这么快。https://weibo.com/p/1001603993976268003547
12.鲲鹏产业学院课程介绍《鲲鹏云大数据服务与基础应用实训》课程是基于鲲鹏云大数据的实践课程,提供鲲鹏架构的大数据网站流量离线分析项目用于学生进行实践,项目案例技术面涉及广,按照真实项目场景分析以及技术团队分工及工作流程介绍,与企业项目一致,学生完成后可以达到大数据高级开发工程师水平,采用实训周方式进行授课。 https://xxdz.hnuahe.edu.cn/info/2062/2760.htm
13.我的第一个数据分析项目——51job“数据分析”岗位分析(爬虫篇)最初我把重心都放在编写爬虫代码上,后来发现如果要走数据分析这条路的话,爬虫仅仅是个辅助工具,真正重要的数据分析思维,所以有了我的第一个数据分析项目。 我在网上找到了一个类似的分析案例,学习并参考,当然还有取长补短。参考案例链接:https://blog.csdn.net/lbship/article/details/79452459 https://www.jianshu.com/p/309493fe5c7b
14.案例分享养猪行业的大数据分析,牧原是这样做的!以下方案案例以FineBI构建的自助分析系统为例做分享。 三、总体架构方案 1.项目方案 传统关系型数据库的性能限制,导致难以支持大量级数据多维度查询计算,此时如果直接对接传统关系型数据库进行数据分析查询,就容易出现性能瓶颈。因此项目中采用了FineBI自带的需要做数据抽取的数据引擎。由于前期数据量级不大,根据推荐,直https://maimai.cn/article/detail?fid=806048938&efid=NbSAxmtChWmc2of9L-IZoA