首次开源这一强大算法,我们向Meta致敬人工智能谷歌metatensorflow

Facebook改名Meta后,“财务厄运”并未因此终止,但技术作风却一如既往的大胆。

虽然自2022年2月以来,公司股价已下跌30%,市值损失超过2500亿美元。但是,这并没有影响开发者们的精神世界与工作动力。

本周,来自Meta一小撮程序员的疯狂举动,在全球AI开发者群体中引发了巨大骚动——

MetaAI实验室高调宣布,将开放自己的语言大模型OPT(OpenPretrainedTransformer,预训练变换模型),毫无保留地贡献出所有代码。

不夸张地说,在人工智能圈,这算得上是一个里程碑事件。

这个被称为OPT的大规模语言模型,自建立以来,各项参数与能力便精准对标OpenAI的GPT3,甚至连缺点都是。后者在全球学术界建立的赫赫声望和随处可见的网络小说续写作品,想必已不必再过多赘述。

简而言之,这是一种利用巨量网络文本与书籍进行训练,可以将单词和短语串在一起组成精彩文本的深度学习算法模型。

它能生成复杂句子,有时候甚至读起来与人类撰写毫无异(想粗浅了解GPT,可以看这篇《让00后疯狂的超级算法》)。某种程度上,它所具备的神奇人工文本模仿能力,被视为人类通往真正机器智能道路上的一个巨大突破口。

GPT3生成的文本

然而,“培育”大模型的代价,是昂贵的人力成本与成千上万块显卡。因此,许多学者都认为,把这种大模型开放出来,几乎不可能发生在“游走在垄断边缘”的大型科技公司身上。

譬如,OpenAI的GPT3曾被专家粗略估算过,至少投入了1000万美元。他们后来为了摆脱入不敷出的现状,将GPT3作为一项付费服务来推广——只提供API,但不会开放模型本身和底层代码。

然而,Meta表示,会把不同参数规模的训练模型以及“OPT如何建造和训练”的详细信息分发给研究人员。

其中,也包括一份超过100页的算法训练日志——实验室记录下的每一个错误与崩溃现象,训练和添加数据的过程,以及有效与无效策略。

“考虑到计算成本,如果没有大量资金,这些模型很难复制。对于少数通过api可调用的模型(这里暗指GPT3),如果不能获得完整的模型权重,就难以进行研究。”他们在OPT的论文摘要里鲜明表达了态度,

“是真的开放。”

一位“正准备去看看他们实现情况”的中国开发者查阅了MetaAI网站后,告诉虎嗅,这的确是一个好消息。“从现有数据来看,整个训练代码都被贴出来了。Meta很了不起。”

擅用集体力量

这一次开源,毫无意外地受到了学术界的高度认可,甚至有科学家称其是一个伟大的举动。

究其原因,一方面,一项强大技术,如何在一个封闭的企业精英团队中诞生,一直是包括学界在内大众好奇的焦点;

另一方面,“开源”的优势在于利用集体力量来解决问题,因此长期被硅谷的有识之士所倡导——更多人参与进来,技术突破便来得越快,漏洞便填得越快。

尽管大部分人几乎只记住了GPT3(因为它是迄今为止最好的“通才”),实际上,除了Meta,谷歌、微软都曾在2020年都推出过相似的大模型,但由于都是“关起家门”做私密研究,因此在“透明度”方面饱受诟病。

譬如,2021年的“谷歌人工智能伦理学科学家辞退事件”便引发了长达一年的“批判海啸”,而这一切都是因一篇探讨“语言大模型暗藏重大隐患”的论文而起。

被谷歌无理辞退的人工智能伦理科学家TimnitGebru

没错,GPT3门不仅缺陷多多,而且非常致命。尽管多数责任应归咎背后的人类文本。

创业公司Latitude曾在2019年推出过一款基于GPT3开发的半开放冒险游戏AIDungeon。但没想到,随着用户增多,OpenAI监测到,有玩家竟然利用这项高阶技术,自发生成儿童性爱场景。

然而,“越是危险,越不能回避危险”。这也是Facebook自称选择开放的关键原因之一。

MetaAI负责人JoellePineau承认,团队解决不了所有问题,包括文本生成过程中的伦理偏见和恶毒词句。因此,他们诚邀天下豪杰,共同学习;而实际上,这也是一种彼此监督。

“我认为,建立信任的唯一途径是极端透明。”

我们查看了Meta提供的下载通道,发现实验室根据每个模型的参数规模设立了不同的下载条件:300亿参数以下可随意;而1750亿参数值模型,也就是与GPT3大小相同的OPT,则需要填写申请表证明用于非商业用途,获得批准后方可下载。

翻过大山,仍然是山

当然,理论上这个做法是可圈可点的,但一个更大的问题出现了:如果你要使用这个1750亿参数值的大模型,就意味着你的计算机要带得动它。

换句话说,你需要拥有足够的算力,这里可以直接换算成“财力”。

“一个参数如果是FP32,也就是4个字节大小。而1750亿参数值则先相当于7000亿字节,大约700G显存空间。而现在一张普通显卡是20GB。”一个开发者向虎嗅称赞了Meta的做法,但他认为,对于普通开发者群体,该模型仍然是不可承受之重。

“虽然可以把不同参数放在不同显卡里的框架里,但据个人体验,目前仍然欠缺开源成熟的框架。”

因此,截至目前,这个开源大模型,仍然是属于大型科技公司、拥有充足资金的大型实验室与学术机构的“内部游戏”。

曾有家尝试做中国版GPT3的创业公司叹息说,他们也在想方设法实现GPT3可以实现的文字能力,但的确掣肘于有限算力。

图片来自MIT

此外,在西方社会普遍认知中,比起技术突破,它们带来的巨量能源消耗更是一种原罪。

科学家EmmaStrubell与合作者在2019年发表的论文,就揭露了大型语言模型在碳排放上超乎想象的环境破坏力(上图)。

他们发现,用一种神经结构搜索方法(NAS)训练出的特定语言模型,可产生284吨(626155磅),上图)二氧化碳,这大约是5辆小轿车长达5年的排放总量;

而谷歌搜索引擎的基础——BERT语言模型训练,则产生了0.65吨二氧化碳,Strubell提醒,这相当于一个乘客从纽约到旧金山往返航班的碳排放量。

更需要注意的是,这些数字都应被视为“最保守数值”:只是在一次性训练中的模型成本。

因此,考虑到能源效率与环境成本,西方不少科学家与开发者认为,某种程度上,大模型的训练开发也是在允许大型企业掠夺着环境资源,而这些成本,将会平摊在所有人身上。因此,他们并不希望企业加入到大模型队列中。

“尽管是无意识的,但这只会加大对边缘人群的打击。”

开源商业回报,巨大且无形

很多时候,人们会对开源模式发出这样的质疑:

有什么能比“两个来自竞争对手公司的员工,可以为同一个目标协作,还免费送出自己成果”更不可思议的事情?

事实上,“开源”正是为不同利益群体,提供一种“利远大于弊”的长期技术合作方式——你增加的独特元素我能使用,那么我迭代的版本你也不会错过。

这种“互利”态度,让看似不可思议的“协作”成为可能,经过100多年来的反复修正,早已成为一种常态。如今,Linux就是由全世界超过15000名程序员共同开发和维护。

而在人工智能领域内,最有名的案例则是谷歌的深度学习开源框架Tensorflow。它已是开发人工智能应用程序的标准框架之一。非常有趣,当Tensorflow在2015年开源时,外界也是发出了跟这次Meta开源大模型同样的疑问:

作为开放者,谷歌为什么要放弃对自己搜索业务如此重要的东西?

一部分原因上面讲过——外部开发人员把软件做的更好,该软件就能适应谷歌未来商业化的很多需要。就像当下,大模型商业化还尚不明朗,那么前期工作的开放性与主导性,就变得至关重要。

另外,我们永远不要小看开源软件为企业带来的巨大营销价值。

它最一流的“带货效果”,便是吸引和留住一众顶尖人才,不知道为大厂省下多少高昂的人力资本。这也与当下Meta开始收缩招聘规模的现状,做了完美呼应。

因此,Meta这一决定,将会让OpenAI陷入一个尴尬的境地——虽然名声很大,但它毕竟是一家创业公司。从另一个角度看,在寻找商业落地的过程中,大厂通过开放、免费等手段遏制对手,取得胜利,这种事情似乎永远都在发生。

THE END
1.训练神经网络的五大算法互联网尽管损失函数的值需要由多个参数决定,但是一维优化方法在这里也非常重要。这些方法常常用于训练神经网络模型。 许多训练算法首先计算得到一个训练的方向d,以及速率η来表示损失值在此方向上的变化,f(η)。下图片展示了这种一维函数。 f和η*在η1和η2所在的区间之内。 https://www.iteye.com/news/31902
2.acm编程大赛训练网站ACM编程大赛训练网站是一个很好的在线学习平台,它提供了丰富的算法题目和学习资源,允许用户通过在线提交代码,进行算法竞赛的训练和练习。在这篇文章中,我们将展示如何使用该网站进行算法训练。 首先,在ACM编程大赛训练网站上,您需要注册一个账号。注册完毕后,您可以访问网站的题库,浏览其中的算法问题。 https://www.volcengine.com/theme/1178075-A-7-1
3.基于自编码器的评分预测算法AET每次训练,把训练数据分成10批(batche),每批含有168个电影的训练用例,最后一批含有170个电影训练用例,每一批计算完梯度后进行参数更新,神经网络的隐藏单元个数设置为50。对比实验选择当下预测评分算法中比较流行的SVD,SVD的隐式因子设定为50,数据全部经过算法训练一次记一个周期(epoch),训练50个周期,在1~50个周期的http://www.chinaaet.com/article/3000012575
4.书单豆瓣高分&全网热评的算法神作GitHub高赞硬核算法教程 用喜闻乐见的语言讲述算法,书中配有几百幅有趣的算法图示,并送上部分动画演示 本书专攻算法刷题,训练算法思维,应对算法笔试。注重用套路和框架思维解决问题,以不变应万变。 08 ▊《算法训练营:海量图解+竞赛刷题》 陈小玉 著 http://www.broadview.com.cn/article/420385
5.牛客竞赛OJACM/NOI/CSP/CCPC/ICPC牛客竞赛是专业的编程算法训练平台,包括ACM校赛、ICPC、CCPC、CSP、信息学奥赛、NOI等编程比赛提高训练营。适合初级小白编程入门训练,包含CSP入门级提高级赛前集训、ACM区域赛前多校训练营。https://ac.nowcoder.com/
6.赛氪OJ为编程爱好者提供专业的算法训练平台 开始刷题参加比赛查看排名 功能特色 智能评测系统 强大的评测引擎支持多种编程语言,毫秒级响应 支持C/C++、Java、Python 等多种语言 实时评测反馈 详细的错误分析 智能判题系统 开始刷题 专业比赛系统 支持多种比赛模式,打造公平竞技环境 https://oj.saikr.com/
7.Dotcpp编程(C语言网)编程入门学习训练题库编程训练题库OJ 如何获取音频文件总时长 访问者模式 模板模式 策略模式 空对象模式 C语言教程 C++教程 数据结构教程 单片机教程 数据结构与算法 算法基础 数据结构基础 理解复杂度概念 时间复杂度的度量方法 程序运行时的内存与地址 编程预备 顺序存储和链式存储 https://www.dotcpp.com/
8.酷睿奇编程酷睿奇编程主要从事青少年编程教育,Python算法训练,Scratch算法训练,C++算法训练,蓝桥杯竞赛辅导,CSP认证辅导等编程培训。http://www.kuruiqi.com/
9.深度学习高手笔记卷1:基础算法第二篇主要介绍深度学习在自然语言处理方向的重要突破,主要介绍几个基础序列模型,如LSTM、注意力机制、Transformer等(第4章),以及近年来以BERT为代表的10余个预训练语言模型(第5章)。第三篇(第6章)将介绍模型优化的经典策略,分为两个方向,一个方向是Dropout及其衍生算法,另一个方向是以批归一化、层归一化为代表https://www.epubit.com/bookDetails?id=UB7d8623610d375
10.程序员面试算法研究机器学习大模型/ChatGPT/AIGC论文审稿开博10年有余,回首这10余年,自己一开始侧重编程、面试、数据结构/算法,中途侧重数据挖掘、机器学习,近期则专攻AIGC/ChatGPT,而自己在本blog上也着实花费了巨大的时间和精力,写的东西可能也够几本书的内容了。然不管怎样,希望我能真真正正的为读者提供实实在在的价值与帮助。 https://m.blog.csdn.net/v_JULY_v/article/details/6543438
11.九章算法算法面试训练课(精修) 大厂面试必修课(必修) 上岸简历镀金课(项目) 人工智能实战课(转码) 国内大厂面试精选 精选好课 查看更多 直播+互动 九章算法班 2025版 8周时间精通 57 个核心高频考点,9 招击破 FLAG、BATJ 算法面试。50课时直播课+互动课 直播+互动 九章算法面试押题班2025年1月版 时下算法面试高频http://jiuzhang.com/
12.算法和组件参考模型训练通过算法运行数据。训练群集模型 训练模型 训练Pytorch 模型 优化模型超参数 模型评分和评估度量已训练模型的准确度。应用转换 将数据分配到群集 交叉验证模型 评估模型 为图像模型评分 评分模型 Python 语言编写代码并将其嵌入到组件中,以便将 Python 与管道集成。创建 Python 模型 https://docs.microsoft.com/zh-cn/azure/machine-learning/algorithm-module-reference/module-reference
13.算法训练营Loadinghttps://www.algomooc.com/
14.人工智能基础:机器学习常见的算法介绍腾讯云开发者社区机器学习的算法主要包括监督学习、无监督学习、半监督学习、迁移学习、强化学习。 监督学习 监督学习是机器学习当中非常常见的一种机器学习类型,就是在已知输入输出的情况下训练出一个模型,并且将输入映射输出。 特点:给出了学习目标(比如实际值、标注等等)。 https://cloud.tencent.com/developer/article/2146310