AI赋能的大模型时代:从ChatGPT到国产大模型的角逐与发展契机
在当今科技飞速发展的时代,大模型作为人工智能领域的关键技术,正引发着深刻的变革。它们在自然语言处理、计算机视觉、语音识别等众多领域展现出了惊人的潜力,为各行各业带来了前所未有的机遇和挑战。本文将深入剖析大模型的技术原理、市场态势以及算力需求等方面,全面展现其发展的现状与未来前景。
一、大模型的基石与演进
1.“规模定律”与大模型的发展大语言模型(LargeLanguageModels,LLM)通常指具有超大规模参数或经过超大规模数据训练的语言模型。与传统语言模型相比,大模型在自然语言理解和复杂任务处理方面具有显著优势,其发展呈现出“规模定律”(ScalingLaw)的特征,即模型的性能与模型的规模、数据集大小以及训练所用的计算量之间存在幂律关系。这意味着随着模型规模的扩大、数据集的丰富以及计算量的增加,模型的性能将呈现出线性提升的趋势。
2.Transformer模型的独特优势
当前主流大模型大多基于Transformer模型构建,Transformer模型于2017年在Google团队的论文《AttentionIsAllYouNeed》中首次被提出,其核心优势在于独特的自注意力(Self-attention)机制。这一机制能够直接建模任意距离的词元之间的交互关系,有效地解决循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络在处理长序列数据时存在的依赖问题。与RNN相比,Transformer具有以下显著优势:
-卓越的长序列数据处理能力:RNN受其循环结构的限制,在处理长序列数据时面临挑战。而Transformer的Self-attention机制能够同时处理序列中的所有位置,精准地捕捉全局依赖关系,从而更准确地理解和表示文本含义。
-高效的并行计算实现:RNN作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制。而Transformer则可以一次性处理整个序列,大大提高了计算效率,为大规模数据的快速处理提供了可能。
3.Transformer的组件与网络架构演变
Transformer由Encoder(编码器)和Decoder(解码器)两类组件构成。Encoder擅长从文本中提取信息,以执行分类、回归等任务;Decoder则主要用于生成文本。在实际应用中,这两类组件可以独立使用,并且衍生出了多种架构的大规模预训练语言模型,如以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构以及以GPT为代表的Decoder-only架构。
4.GPT系列模型的发展历程
GPT-1:2018年,OpenAI推出的第一个GPT模型,基于生成式、Decoder-only的Transformer架构开发。由于参数规模相对较小,其通用任务求解能力有限,采用了Pre-training(预训练)+Fine-tuning(微调)的两阶段范式,通过单向Transformer预训练通用模型,再在特定子任务上进行微调。
GPT-2:沿用了类似架构,但将参数规模扩大至1.5B,并使用大规模网页数据集WebText进行预训练。与GPT-1不同的是,GPT-2旨在通过扩大模型参数规模来提升性能,并尝试使用无监督预训练的语言模型来解决各种下游任务。
GPT-3:经过充分的实验探索,OpenAI于2020年将模型参数扩展到了175B,较GPT-2提升了100余倍,验证了神经网络超大规模扩展对模型性能的大幅提升作用。同时,GPT-3正式提出了“上下文学习”的概念,建立了以提示学习方法为基础的任务求解范式。
在GPT-3的基础上,OpenAI通过代码训练、人类对齐、工具使用等技术不断升级模型性能,推出了GPT-3.5系列模型。
ChatGPT主要沿用了2022年1月推出的InstructGPT,其核心技术是基于人类反馈的强化学习算法(RLHF算法,ReinforcementLearningfromHumanFeedback),旨在改进模型与人类的对齐能力。具体实现过程中,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从人类评价奖励和环境奖励两种反馈模式中学习策略,实现持续迭代式微调。
GPT-4:2023年3月,OpenAI发布的GPT-4首次将输入由单一文本模态扩展到了图文双模态,在解决复杂任务方面的能力显著强于GPT-3.5,在一系列面向人类的考试中取得了优异成绩。
GPT-4Turbo:2023年11月,OpenAI在开发者大会上发布了GPT-4Turbo,引入了一系列技术升级,包括将模型内部知识库更新至2023年4月、将上下文长度提升至128K、降低价格以及引入若干新功能(如函数调用、可重复输出等)。
二、全球大模型竞争格局与国产大模型的崛起
1.全球大模型竞争态势
在全球大模型竞争中,OpenAI、Anthropic、谷歌三大厂商处于第一梯队。OpenAI率先推出GPT-4,在2023年基本占据行业龙头地位,而Anthropic凭借Claude、谷歌凭借Gemini奋起直追,2024年以来,三家大模型能力呈现相互追赶的态势。
1).OpenAI的进展与突破:
文生视频大模型Sora的发布:今年2月15日,OpenAI正式发布Sora,能够在保持视觉质量和遵循用户文本提示的情况下,生成长达1分钟的视频,远超以往的视频生成时长。
GPT-4omini的推出:7月18日,OpenAI正式推出GPT-4omini,将取代ChatGPT中的旧模型GPT-3.5Turbo,向ChatGPT的免费用户、ChatGPTPlus和团队订阅用户开放。GPT-4omini的成本为每百万输入标记(token)15美分和每百万输出标记60美分,比GPT-3.5Turbo便宜超过60%。
2).Anthropic的创新与发展:
Claude3家族的推出:今年3月4日,Anthropic发布了Claude3系列模型,包括Opus、Sonnet和Haiku。Opus代表Anthropic最高级、最智能的模型,Sonnet代表中等级别的模型,在性能和成本效益之间取得平衡,Haiku代表入门级别或最基础的快速模型。其中,Claude3Opu被官方认为是性能全面超过GPT-4的最强版本。
Claude3.5Sonnet的优势:6月21日,Anthropic发布了全新大模型Claude3.5Sonnet,被称为“迄今为止最智能的模型”。据Anthropic介绍,Claude3.5Sonnet在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude3Opus,同时在运行速度和成本方面与自家前代Claude3Sonnet相当。
3).谷歌的全面升级与创新:
Gemini系列的升级:继2023年12月推出规模最大、功能最强的多模态大模型Gemini系列之后,今年2月15日,谷歌发布Gemini1.5,其中首个登场的多模态通用模型Gemini1.5Pro将稳定处理上下文的上限扩大至100万tokens。
在谷歌IO开发者大会上的升级:5月14日,谷歌大模型在开发者大会上迎来多项升级。基础大模型方面,Gemini1.5Pro将上下文窗口长度从之前的100万tokens进一步扩展至200万tokens,谷歌首席执行官Pichai称这是目前市场上处理上下文长度规模最大的基础大模型。
视频生成模型Veo和文生图模型Imagen3的发布:谷歌发布了视频生成模型Veo以及文生图模型Imagen3,Veo模型对标Sora,能够根据文字、图片和视频的提示生成长度超过1分钟、分辨率最高1080p的视频;Imagen3文生图模型是Imagen系列的升级版,从细节拟真度来看对标Midjourneyv6。
4).Meta的突破与进展:
Llama3的推出:今年4月18日,Meta推出强大的开源人工智能模型Llama3,发布了包括8B和70B参数的两个版本,作为Llama2的重大升级。Meta表示,正在开发的最大模型是400B参数的版本,将在未来几个月内推出。英伟达科学家JimFan认为,Llama3400B将成为一个分水岭,意味着社区将获得开源的重量级GPT-4模型,这将改变许多研究工作和草根创业公司的计算方式。
Llama3.1的发布:7月23日,Llama3.1正式发布,其405B版本在150多个基准测试集上的表现追平或超越现有领先的基础模型,包括GPT-4、GPT-4o和Claude3.5Sonnet。除了与闭源模型相比具有显著更好的成本/性能比之外,405B模型的开放性使其成为微调和蒸馏更小模型的优质选择。此外,Meta也推出了8B和70B模型的升级版本,能力与同等参数下的顶尖模型基本持平,与具有相似参数数量的开闭源模型构成强大竞争力。
2.国产大模型的发展态势
自2022年11月底ChatGPT发布以来,AI大模型在全球范围内掀起了巨大的浪潮,国内学术和产业界也积极响应,加紧追赶突破。
国内大模型的发展大致分为三个阶段:
1).准备期:2022年11月ChatGPT发布后,国内产学研界迅速形成对大模型的共识。
2).成长期:2023年初,国内大模型的数量和质量开始逐渐增长。
3).爆发期:2023年底至今,各行各业开源闭源大模型层出不穷,形成了百模大战的竞争态势。
从参与者的角度来看,我国AI大模型厂商大致可以分为四类:
1).互联网/科技公司:以百度、阿里、腾讯、字节、快手、华为等为代表。
2).AI公司:以智谱AI、昆仑万维、科大讯飞、商汤科技等专注于AI研发与应用的科技公司为代表。
3).学术、科研机构:包括清华、北大、复旦、中科院等国内一流高校,以及智源研究院、IDEA研究院等科研机构。
4).行业专家品牌:以月之暗面(MoonshotAI)、百川智能、MiniMax等由AI专家创业成立的公司为代表。
从模型能力的角度来看,以开源Llama-3-70B、Llama-3-8B的模型能力为分界线,国内大模型形成三大梯队:
1).开源模型Qwen2-72B在SuperCLUE基准中表现出色,超过众多国内外闭源模型,与Claude-3.5持平,与GPT-4o仅差4分。
2).4个国内大模型(深度求索DeepSeek-V2、智谱GLM-4、商汤SenseChat5.0、OPPO的AndesGPT)超过GPT-4-Turbo-0409。
3).专家创业团队如Baichuan4、Kimi、MiniMax-abab6.5均有超过70分的表现,位列国内大模型第一梯队。
4).国内绝大部分闭源模型已超过GPT3.5Turbo–0125。
三、大模型商业的挑战与机遇
1.大模型商业形态的多元化
从AI产品的商业化程度来看,B端的变现模式更为清晰,而C端的大多数产品仍以免费为主。面向B端的AI产品在通用场景到垂直赛道的分布较为均匀,收入模式以会员订阅和按需付费为主,商业模式相对清晰。尽管纯B端市场占比仅为31%,但80%以上的B端产品都能够实现营收。C端AI产品主要以智能助手以及图像生成类的生产力工具为主,虽然用户量较大(纯C端占比50%以上),但近50%的C端产品目前仍没有明确的收入模式,主要以免费形式提供。
2.OpenAI的商业模式OpenAI确立了一种较为经典的大模型商业模式,主要包括ChatGPT订阅、API调用和战略合作三种营收方式:
-ChatGPT订阅:OpenAI向C端用户提供ChatGPT这一生产力解放工具,并通过付费订阅的方式实现变现,针对ChatGPTPlus会员收取每月20美元的订阅费。
-API调用:对于模型使用灵活性要求较高的用户,OpenAI提供API服务,根据模型的调用量(tokens)或产出内容量(如图片张数、时长)进行收费。
-战略合作:OpenAI与微软建立了密切的合作关系。在ToC方面,OpenAI的模型能力嵌入到微软的生成式AI工具中,如GitHub、Office、Bing等;在ToB方面,微软Azure是OpenAI的独家云服务提供商,Azure全球版企业客户可以在平台上直接调用OpenAI模型。
3.全球API定价的趋势
1).API作为大模型厂商普遍采用的营收模式,由于大模型性能逐渐趋向同质化,全球API价格呈现出下降的趋势。今年5月,作为行业风向标的OpenAI发布了GPT-4o,面向ChatGPT所有付费和免费用户发布,并支持免费试用,其API价格比GPT-4-turbo降低了50%,输入价格低至5美元/百万tokens。同时,谷歌发布的Gemini1.5Flash也将输入价格定为0.35美元/百万tokens。
2).国内方面,5月6日,AI公司深度求索(DeepSeek)率先宣布降价,其发布的第二代MoE大模型DeepSeek-V2的输入价格定为0.001元/千tokens,输出价格为0.002元/千tokens。随后,智谱AI、火山引擎、阿里云、百度、科大讯飞、腾讯云等国内主要大模型厂商也迅速跟进降价。
4.订阅制的挑战与AIAgent的机遇
1).订阅制实现难度较高:尽管有ChatGPT的成功案例,但许多大模型厂商在尝试通过构建AI应用来推行付费订阅制时,面临着用户留存度和粘性不足的问题。即使是ChatGPT、runway等具有代表性的大模型产品,其用户留存度和粘性尚未达到现有领先C端应用的水平。
2).AIAgent:AGI(ArtificialGeneralIntelligence,通用人工智能)能力的实现是一个渐进的过程,而具有专业能力、可定制的AIAgent(智能体)被认为是打开AGI之门的关键。2023年6月,OpenAI应用研究主管LilianWeng提出:Agent=LLM+记忆+规划技能+能+工具使用。在2024年红杉资本的人工智能峰会上,吴恩达认为Agent应该具备反思(Reflection)、使用工具(Tooluse)、规划(Planning)以及多智能体协同(Multi-agentcollaboration)四种主要能力。
3).国内AIAgent市场的发展:以互联网大厂、大模型厂商、企业服务SaaS类厂商为代表的众多企业纷纷参与到AIAgent市场中,产品形态既包括面向企业和开发者的Agent构建平台/框架,也包括服务于各个垂直行业的专业Agent。2024年上半年,国内多个AIAgent平台相继发布,这将进一步提升AIAgent的开发便利性,加速国内大模型应用的发展。
4).2月,字节跳动的新一代一站式AIBot开发平台扣子Coze在国内上线,用户可以快速、低门槛地构建专属聊天机器人;4月,百度AI开发者大会发布了文心智能体平台AgentBuilder;随后,钉钉正式上线AIAgentStore,首批上架了包括通义千问在内的超过200个AIAgents。
5.MaaS助力企业降低模型使用门槛
1).B端对大模型的需求增长:
根据a16z的调研,2023年平均每家受访企业在API、自托管和微调模型上的支出达到700万美元,并且几乎所有企业计划将2024年LLM预算增加2-5倍。企业的AI模型采购决策主要受云服务提供商(CSP)的影响。2023年,大多数企业出于安全考虑通过现有的CSP购买模型,2024年这一情况仍在延续。在使用API访问模型的受访企业中,有超过50%的企业通过其CSP(如Azure、Amazon等)访问,例如Azure用户更常用OpenAI,而Amazon用户更倾向于使用Anthropic或Cohere。剩下28%的受访企业选择了自托管,可能是出于运行开源模型的需要,采用私有化部署或者CSP提供的GPU服务。
2).Maas的作用:
根据中国信通院的定义,MaaS围绕低技术门槛、模型可共享、应用易适配三大特性,提供包括算力服务、平台服务、模型服务、数据集服务、AI应用开发服务在内的全栈服务,使企业能够快速高效地构建、部署、监控和调用模型,无需开发和维护底层基础能力。
3).云厂商的布局:
目前,微软云Azure、阿里云、华为云、腾讯云、百度云、京东云等CSP都已经推出了MaaS服务。以阿里云的魔搭ModelScope为例,它支持用户使用来自达摩院大模型平台和SOTA模型矩阵的超过300个优质大模型,提供包括模型管理和下载、模型调优、训练、推理、部署、应用在内的一站式模型服务。
四、大模型发展对算力的需求与挑战
1.大模型发展与算力需求
大模型的发展受到多种资源的制约,包括能源、算力、显存、通信等。在训练端,大模型延续ScalingLaw的主流技术路线,通过扩大参数规模和数据集的大小来提升模型性能,导致对算力的持续需求。
在推理端,以ChatGPT为代表的AI应用的广泛使用也驱动着算力需求呈指数级增长。根据JaimeSevilla等人的研究,2010-2022年在深度学习兴起的背景下,机器学习训练算力增长了100亿倍。2016-2022年,常规模型算力每5至6个月翻一倍,而大规模模型算力每10至11个月翻一倍。
2.算力需求测算逻辑
1).Transformer模型的训练和推理过程都是通过多次迭代完成。一次训练迭代包含前向传播和反向传播两个步骤,而一次推理迭代相当于一个前向传播过程。前向传播是将数据输入模型并计算输出,反向传播则是计算模型的梯度并存储梯度,以进行模型参数的更新。
2).反向传播的计算量大约是前向传播的2倍。因此一次训练迭代(包含一次前向+一次反向)的计算量大约为一次推理迭代(包含一次前向)的3倍。
3).训练Transformer模型的理论计算量约为C≈6N*D,其中N为模型参数量大小,D为训练数据量大小;推理所需计算量约为2N*D。
3.算力需求测算——训练端
参考7月23日Meta公布的最新开源模型——Llama3.1405B,该模型基于15.6Ttokens的数据量进行预训练以达到最优性能,训练数据量约为模型参数规模的38.5倍。假设最优大模型参数量(N)与Tokens数(D)的近似线性关系为D=38.5*N,并设置了参数量分别为100亿、500亿、1000亿、3000亿、5000亿、1万亿、2万亿的共七档模型进行算力需求的测算。
根据前述公式计算得出训练一次Llama3.1的计算量大致为3.79*10^25FLOPs,与实际情况接近(Llama3.1405B的trainingbudget为3.8*10^25FLOPs)。A10080GSXM、H100SXM在16位精度下(FP16)的算力峰值分别为624TFLOPs、1979TFLOPs,假设集群算力利用率MFU为30%,模型训练时长分别为30天、60天、90天的背景下,则训练一次Llama3.1405B模型分别需要7.8万张、3.9万张、2.6万张A100,或者等同于分别需要2.5万张、1.2万张、8208张H100。
4.算力需求测算——推理端
根据Similarweb的统计,ChatGPT网站在过去12个月平均月访问量为14.1亿次。假设在问答场景下,月访问量为14亿、单用户平均每次访问提问次数为15次,即模型每秒处理请求数8000次,假设单次问答消耗600Tokens,计算得出该场景下每秒消耗0.049亿Tokens。
考虑并发峰值和显存预留等问题,假设峰值预留倍数为10,得出每日峰值消耗4.2万亿Tokens。根据C≈2N*D,对应推理所需算力及所需GPU数量(假设采用INT8精度、MFU=30%),千亿参数模型单问答场景推理大约需要2.6万张A100或者8188张H100。
5.大模型AI服务器成本测算
将前述训练(假设训练时长60天)和推理(单场景)两个阶段所需GPU数量加和,并统一假设1台服务器集成8张A100,计算得出千亿参数规模模型训练+推理大约需要3544台服务器,万亿参数规模模型需要6.2万台服务器。