11月,ChatGPT迎来两周年,却是OpenAI官方相对沉寂的一个月。
这只是暂时的。12月4日,OpenAI宣布开启为期12天的发布活动,每个工作日发布一款产品或一项进展,当前已经发布了完整版的o1模型,每月200美元的会员ChatGPTPro,用强化学习的方式微调模型的方法,视频生成模型Sora,以及调动ChatGPT更好写作和编程的功能Canvas。
OpenAI的密集发布是为了追求更快的增长,也间接回应了过去一个月达到高峰的质疑。
更多数据、更多算力,训练更大规模的模型,就能显著提升能力。过去两年,大模型行业沿着这条经验总结前行:买GPU建更大的数据中心,不惜官司缠身也要采集更多数据,想办法扩大模型体量。
到了11月,越来越多的人说,成就OpenAI的这条路似乎撞到了墙:
硅谷风投a16z创始合伙人、投资了OpenAI等多家大模型公司的马克·安德森(MarcAndreessen)说:“我们以相同的速度增加(GPU),根本没有智能提升。”
OpenAI联合创始人、前首席科学家伊尔亚·苏茨克维(IlyaSutskever)说:“2010年代是扩大规模的时代,现在我们再次回到了需要奇迹和新发现的时代。”
这些公司的高管否认了“撞墙”的说法,也有证据表明他们仍在想办法突破,毕竟建设更大规模的算力中心的势头并没有放缓,甚至还在加速。
同时,过去两年整个行业不留余力推广大模型应用的影响也开始显现。比如大模型领域最成熟的AI编程场景,开发者工具供应商GitClear分析了2020年以来其客户提交的10亿行代码数据,发现大模型编程应用普及期间,开发者复制粘贴整行代码的频率在提升。他们认为,这意味着开发者更频繁地添加AI生成的代码。
结果是,开发者提交代码两周内,恢复、删除或更新代码的比例增加了39%。毕竟AI还是有幻觉。
以上只是11月大模型行业发生的部分变化。接下来,我们计划每个月发布一篇综述报道,力求完整地为大家介绍全球AI新风向。
以下是我们第1期AI月报,记录2024年11月AI的进展。欢迎大家在留言区补充我们没有提到的重要进展。
技术丨大模型能力提升撞墙了?这里有一些新尝试
11月,AI行业讨论最多的话题,是大模型能力提升是否撞墙了。
历史新发现:百度早研究出了ScalingLaws的雏形
在这之前,大模型能力提升有一个明确的规律:即用更多数据、更多算力,训练更大规模的模型,就能显著提升能力,这被称为ScalingLaws。
行业中普遍认为,这一规律由OpenAI的研究者在2020年发现,然后发扬光大。
当时百度在硅谷招揽了一批人才研究AI,如顶级AI科学家吴恩达、Anthropic创始人达里奥·阿莫迪(DarioAmodei)等。他们在一篇论文中介绍了用更多算力训练更大的模型会有更好的效果。
只不过他们的研究只在语音和文字上测试,没涉及语言处理,也没用上关键的Transformer。后来达里奥·阿莫迪加入OpenAI,与伊尔亚·苏茨克维等人继续推进研究,提出了ScalingLaws。
瓶颈之后,可能的新方向
现在,ScalingLaws似乎遇到了问题。
为什么这样也不难理解:整个行业缺乏新鲜的高质量数据训练模型——当前领先的大模型,已吞噬了市面上所有的公开(还有一部分非公开的)高质量数据。
1.合成数据
许多公司在寻找新的办法解决数据问题。
2.使用更高精度的数据
还有一部分研究者寻找其他路径提升模型性能,比如哈佛、斯坦福、MIT等机构的研究者,在11月7日发布论文提出了一个现象:用更低的数据精度训练或推理语言模型,会影响质量,当前的ScalingLaws并没有考虑到这一点。
这里的精度,是指计算机表示数据的位数,最早的时候,研究者用64位字符串表示一个字,精度最高。近年来,为了提升大模型的速度,降低算力成本,许多公司减少到32位、16位,到现在的8位,但精度也有损失,会影响模型的性能。
3.从预训练到后训练
以上的尝试和合成数据,属于预训练(Pre-Training)阶段,还有一些研究人员专注后训练(Post-Training)阶段,让训练好的模型在解决问题时,能够发挥更好的效果,比如问模型一个问题数十次,甚至上百次,选择最好的答案。
量子计算时可能会受到各种因素的破坏出现错误,比如热量、振动、电磁干扰,甚至宇宙射线。当前量子计算机每次操作的错误率通常为1%到10%,如果把它用于药物发现、材料设计和加密,错误率要低于0.000000001%。
大模型竞争丨OpenAI摇晃的第一
OpenAI企业市场份额下降,从50%到34%
因技术放缓,OpenAI面临着来自同行越来越大的竞争压力:
xAI、Anthropic、Writer等大模型公司11月获新融资
OpenAI依旧被投资人看好。o1发布没多久,软银就宣布以1570亿美元的估值投资OpenAI5亿美元。软银CEO孙正义还想要更多股份,11月开始,他们正在花15亿美元从OpenAI员工手中收购股票。
一批大模型公司也在11月获得资本支持:
马斯克的xAI在宣布融到50亿美元,投后估值达到500亿美元,是今年初估值的两倍多。今年以来,xAI已经融到了110亿美元。
在图像和视频生成等模型方向,OpenAI也同时面临内外挑战。11月26日,一群拿到OpenAI视频生成模型Sora的艺术家组成的组织,在HuggingFace上公开了Sora的API,供人调用。他们说,OpenAI让他们免费给Sora找bug,但并不注重创意表达和大家的批评,只顾着公关和宣传。
12月初,OpenAI终于发布Sora,但已经没有初次亮相的惊艳感。
多模态、具身大模型公司获融资
2023年成立的Moonvalley,11月筹集了7000万美元种子轮资金。该公司的目标是训练“透明”的视频生成模型——如果创作者或客户发现模型使用了他们的作品,可以提出删除,他们甚至会给赔偿。
在图像领域,今年成立的BlackForestLabs,以10亿美元估值筹到2亿美元,它是研发文生图模型Flux的开发者(它在Telegram中出现频率挺高,用于特别目的),也是马斯克旗下xAI的Grok应用图片生成服务供应商。
今年刚成立的PhysicalIntelligence,以24亿美元的估值获得4亿美元融资。他们要为机器人开发大脑,把通用人工智能与机器人等物理设备结合,已经发布名为π0的基础模型。
2023年成立的银河通用筹到5亿元人民币。他们没有像大多数公司那样做完整的人形机器人,认为做人形机器人双腿在当前不是最优解,只是徒增成本。他们正在尝试用海量的合成数据训练机器人模型,让它具备更多能力。这里有我们与银河通用创始人王鹤的对话。
2023年成立的星海图筹到2亿元人民币。他们认为,要做出通用机器人,最重要的不是物理形态,而是能适应各种形态的、相对通用的智能。这就像哺乳动物形态各异,但都有基础的感知、判断、运动能力,部分还具有会使用工具等相对高级的智能。这里有我们与星海图创始团队的对话。
算力丨更多GPU放在一个地方的竞赛还在继续
大公司今年花了2000亿美元建算力中心,明年可能会加大力度
“对于大科技公司来说,资本支出是新的并购吗?”
11月举办的高盛年度私营会议上,高盛的银行家提出了这样一个问题。他们发现,今年价值超过5亿美元的科技并购交易,一半以上由私募股权公司完成,远远高于历史正常水平,而大公司的并购支出下降了56%,而主要用于建设数据中心的资本支出增加了一倍多。
大模型的能力提升速度有了放缓迹象,并没有打消整个世界的AI投资热情。大公司们还在用一种简单直接的方法衡量谁能在AI竞赛中获胜:能将最多的GPU放在一个地方的公司。
Anthropic的CEO达里奥·阿莫迪在一档播客中说,2026年将出现耗资超过100亿美元的计算集群,他说许多公司希望建立耗资1000亿美元的集群。
其中之一可能是OpenAI,他们在11月发布的政策文件中呼吁建立“北美AI契约”,提议建造一个可能耗资1000亿美元的数据中心。
竞赛催化剂:马斯克122天建成数据中心
埃隆·马斯克(ElonMusk)7月宣布用122天把一个家电厂房改造成10万张H100计算集群,并投入使用,相当于在科技行业扔下一枚炸弹。
沙特、波兰、日本宣布AI投资计划
还有一些政府宣布了AI投资计划:沙特阿拉伯计划向AI创业公司和数据中心投资500亿到1000亿美元;波兰宣布投资2.44亿美元开发波兰语大模型;日本宣布投入650亿美元支持芯片和AI等等。
应用丨更多人用上大模型,Agent成了下一个赛点
大模型融入工作和生活的进度表
ChatGPT上线两年,大模型应用已成为许多人工作和生活的一部分:
风投机构MenloVentures11月发布数据,今年企业在生成式AI方面的支出飙升500%,达到138亿美元。
OpenAI在11月透露,ChatGPT的周活用户达到2.5亿,所有互联网产品中只有抖音有这个速度。12月初,这个数据更新到了3亿。
AI检测公司OriginalityAI发现,从2018年到今年10月,LinkedIn上的长帖子,54%可能是AI写的。
比较有趣的一个报告来自协同办公应用Slack,他们调查了15个国家的1.7万名员工在工作中使用AI的情况,11月19日发布报告:
截至8月,受访者在工作中使用AI的比例达到36%,与2023年1月相比提升了16个百分点。
受访者使用AI最多的5个场景,分别是:(1)领导发信息(2)给同事发信息(3)评估下属绩效(4)给客户写邮件(5)头脑风暴。
Slack还发现了一个现象:使用AI工作的员工中,有近一半(48%)不愿告诉领导自己在工作中用了AI——他们担心领导觉得他们懒、骗人或无能。
企业高管使用AI似乎没那么大的心理压力。宾夕法尼亚大学沃顿商学院和咨询公司GBK调研了800名公司决策层,他们中近72%的人说自己每周至少用一次生成式AI,与前一年相比翻倍增长。
AI编程不完美,但它是竞争焦点
大模型还不完美。有资深的程序员曾告诉我们,他因为太信任AI,过去一年写出来了不少bug。
更多资源还在涌入AI编程领域。当前几乎所有开发大模型应用的公司,都推出了AI编程助手,并重点迭代。
11月,OpenAI把桌面版的ChatGPT与VSCode、Xcode、TextEdit、Terminal等编程工具打通,开发者不用把代码复制粘贴到ChatGPT应用中,就能调用ChatGPT处理代码。
除了开篇提到的Cursor,还有两家AI编程创业公司获得了超过5000万美元的投资,但侧重有所不同:
Tessl,2024年成立,以7.5亿美元的估值筹到1.25亿美元,目前有20多位员工,要做能开发软件的AI应用,计划明年初推出产品。
LightningAI,2019年成立,筹到5000万美元,主要的业务是开发软件,帮开发者简化流程,更方便地开发AI应用。
不少国内的投资人也向我们透露了想要投资AI编程应用的想法。我们曾提及,月之暗面原Noisee产品负责人,1998年出生的明超平在9月底离职后创业做AI编程。据了解,这家公司在10月到11月已完成两轮融资。
从OpenAI到苹果,推广大模型应用的各种方法
大模型行业的参与者,也都在积极探索新的方式,让更多人用上大模型应用。以下是部分头部公司在11月的动作:
苹果:正在开发一款内置AppleIntelligence的壁挂显示器;开发对话版本的Siri,想追上ChatGPT等产品。
大小公司、投资机构都把目光放到了Agent上
整个行业还在投入更多的资源,让大模型能够独立做更多事情,新的竞争点在11月开始显现——Agent(智能体),让大模型充当调度员,理解用户的需求,自动调度数据库和工具完成复杂任务。
OpenAI在去年3月发布GPT-4时,就在技术报告中展示了类似的能力:模型编造自己有视力障碍,让零工网站上的人帮它看验证码。
之后,不少公司,尤其是中国公司,号称开发Agent,建立生态,但大多数都跟真正的Agent相差甚远,就是聊天助手套了一层皮。我们做过一个粗略的统计,中国大模型助手中的科比“智能体”,加起来有数十上百个。
新一轮把Agent做成产品的竞赛,率先由Anthropic发起。他们在10月展示了让大模型Claude像人一样用电脑的能力。比如你想去看金门大桥的日出,它会打开浏览器-搜索网页-在地图中找最佳位置-规划路线-设置日程等。
10月末,阿尔特曼在Reddit上举办的AskMeAnything上说:下一个巨大突破将是Agent。
进入11月,大模型公司做Agent的消息变多:OpenAI一直在研究多个Agent项目,高管在内部说,要在明年1月发布一款名为“Operator”的Agent,能帮人写代码、制定行程等;中国的大模型公司智谱也推出了AutoGLM,称可以在手机上跨App执行任务,最长可以执行超过50个步骤等。
Anthropic则是更进一步,提出一项大模型从业务工具、软件或数据库等提取数据完成任务的标准,称为“模型上下文协议”(ModelContextProtocol),将Agent竞争推进到下一个层次。
11月还有一批Agent创业公司得到了大额融资:
/dev/agents,2024年成立,以5亿美元估值筹集5600万美元,主要业务是开发可以在手机、笔记本和汽车上运行的大模型Agent操作系统。他们认为,如果Agent有一天像App这样无处不在,开发者就需要一个类似Android或iOS这样的操作系统。
Rox,2024年成立,获得5000万美元融资,只有15名员工,专门为销售和客服开发全自动的AIAgent。
11x,2022年成立,以3.2亿美元的估值筹到5000万美元,开发能自动化端到端工作的Agent,处理重复任务,让人专注更重要的工作,年经常性收入已接近1000万美元。
Cresta,2017年成立,筹到1.25亿美元,主要的业务是开发AI软件,用到呼叫中心(客服),帮助增强对话质量,实现日常任务的自动化,优化工作流程。
PyramidAnalytics,2008年成立,筹集5000万美元,主要业务是用AI自动化企业的数据准备和分析流程,减少人工介入的同时提高准确度。
YC合伙人们在一档播客中说,硅谷孵化器充满着各种各样的Agent应用,这些创业公司希望将Agent用到招聘、入职、数字营销、客户支持、质量保证、债务等领域。他们认为,垂直行业的AIAgent很可能会成为新的SaaS,预计诞生超过300家独角兽。
这些公司共同面临着来自大公司的压力。
无人出租车在扩张、AI制药公司在融资
Waymo向洛杉矶的所有乘客开放无人出租车服务,此前有30万人排队等着用;在旧金山,Waymo的日均服务单量(8月)约8800,超过了出租车平均单量6307。
AI制药领域,也有两家公司获得大额融资:
2021年成立的Cradle,获得7300万美元融资,用AI根据客户需求——比如寻找耐热的蛋白质——加速寻找可以用来制药或测试的大型生物分子,以SaaS模型对外提供服务。
2019年成立的Enveda,筹集1.3亿美元,利用AI寻找药物分子,目前正在研究10个分子,覆盖治疗湿疹、炎症性肠炎等,目前已经启动一个治疗特应性皮炎或湿疹的口服药物的I期临床试验。
最后,一些使用大模型小技巧
除了这些由公司采取的动作之外,我们还在一些讨论中和报道中发现了开发者使用大模型的技巧:
不一上来就用单个昂贵的大模型解决问题,而是同时使用多个便宜的大模型。大致的过程是:把问题背景信息先给Llama或Mistral等开源模型,告诉它们你想做什么,让他们检索并总结这些文档中有助于了解关键信息的部分,重复这个过程获得精简的信息摘要,再喂给性能更好的模型,如此节省成本。
不同规模的大模型总结摘要的能力整体上相差不大。我们在今年4月的大模型评测中也证实了这一点,三星手机内置的本地大模型总结录音要点,基本不比ChatGPT差。
还有一个不少开发者常用、能激发大模型能力的提示词:ifyoudon’tgivemethecorrectanswer,Iwillbefired。
*AI月报是我们的一个新尝试,如果你有任何建议,欢迎跟我们交流。