AI赋能的大模型时代:从ChatGPT到国产大模型的角逐与发展契机

AI赋能的大模型时代:从ChatGPT到国产大模型的角逐与发展契机

在当今科技飞速发展的时代,大模型作为人工智能领域的关键技术,正引发着深刻的变革。它们在自然语言处理、计算机视觉、语音识别等众多领域展现出了惊人的潜力,为各行各业带来了前所未有的机遇和挑战。本文将深入剖析大模型的技术原理、市场态势以及算力需求等方面,全面展现其发展的现状与未来前景。

一、大模型的基石与演进

1.“规模定律”与大模型的发展大语言模型(LargeLanguageModels,LLM)通常指具有超大规模参数或经过超大规模数据训练的语言模型。与传统语言模型相比,大模型在自然语言理解和复杂任务处理方面具有显著优势,其发展呈现出“规模定律”(ScalingLaw)的特征,即模型的性能与模型的规模、数据集大小以及训练所用的计算量之间存在幂律关系。这意味着随着模型规模的扩大、数据集的丰富以及计算量的增加,模型的性能将呈现出线性提升的趋势。

2.Transformer模型的独特优势

当前主流大模型大多基于Transformer模型构建,Transformer模型于2017年在Google团队的论文《AttentionIsAllYouNeed》中首次被提出,其核心优势在于独特的自注意力(Self-attention)机制。这一机制能够直接建模任意距离的词元之间的交互关系,有效地解决循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络在处理长序列数据时存在的依赖问题。与RNN相比,Transformer具有以下显著优势:

-卓越的长序列数据处理能力:RNN受其循环结构的限制,在处理长序列数据时面临挑战。而Transformer的Self-attention机制能够同时处理序列中的所有位置,精准地捕捉全局依赖关系,从而更准确地理解和表示文本含义。

-高效的并行计算实现:RNN作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制。而Transformer则可以一次性处理整个序列,大大提高了计算效率,为大规模数据的快速处理提供了可能。

3.Transformer的组件与网络架构演变

Transformer由Encoder(编码器)和Decoder(解码器)两类组件构成。Encoder擅长从文本中提取信息,以执行分类、回归等任务;Decoder则主要用于生成文本。在实际应用中,这两类组件可以独立使用,并且衍生出了多种架构的大规模预训练语言模型,如以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构以及以GPT为代表的Decoder-only架构。

4.GPT系列模型的发展历程

GPT-1:2018年,OpenAI推出的第一个GPT模型,基于生成式、Decoder-only的Transformer架构开发。由于参数规模相对较小,其通用任务求解能力有限,采用了Pre-training(预训练)+Fine-tuning(微调)的两阶段范式,通过单向Transformer预训练通用模型,再在特定子任务上进行微调。

GPT-2:沿用了类似架构,但将参数规模扩大至1.5B,并使用大规模网页数据集WebText进行预训练。与GPT-1不同的是,GPT-2旨在通过扩大模型参数规模来提升性能,并尝试使用无监督预训练的语言模型来解决各种下游任务。

GPT-3:经过充分的实验探索,OpenAI于2020年将模型参数扩展到了175B,较GPT-2提升了100余倍,验证了神经网络超大规模扩展对模型性能的大幅提升作用。同时,GPT-3正式提出了“上下文学习”的概念,建立了以提示学习方法为基础的任务求解范式。

在GPT-3的基础上,OpenAI通过代码训练、人类对齐、工具使用等技术不断升级模型性能,推出了GPT-3.5系列模型。

ChatGPT主要沿用了2022年1月推出的InstructGPT,其核心技术是基于人类反馈的强化学习算法(RLHF算法,ReinforcementLearningfromHumanFeedback),旨在改进模型与人类的对齐能力。具体实现过程中,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从人类评价奖励和环境奖励两种反馈模式中学习策略,实现持续迭代式微调。

GPT-4:2023年3月,OpenAI发布的GPT-4首次将输入由单一文本模态扩展到了图文双模态,在解决复杂任务方面的能力显著强于GPT-3.5,在一系列面向人类的考试中取得了优异成绩。

GPT-4Turbo:2023年11月,OpenAI在开发者大会上发布了GPT-4Turbo,引入了一系列技术升级,包括将模型内部知识库更新至2023年4月、将上下文长度提升至128K、降低价格以及引入若干新功能(如函数调用、可重复输出等)。

二、全球大模型竞争格局与国产大模型的崛起

1.全球大模型竞争态势

在全球大模型竞争中,OpenAI、Anthropic、谷歌三大厂商处于第一梯队。OpenAI率先推出GPT-4,在2023年基本占据行业龙头地位,而Anthropic凭借Claude、谷歌凭借Gemini奋起直追,2024年以来,三家大模型能力呈现相互追赶的态势。

1).OpenAI的进展与突破:

文生视频大模型Sora的发布:今年2月15日,OpenAI正式发布Sora,能够在保持视觉质量和遵循用户文本提示的情况下,生成长达1分钟的视频,远超以往的视频生成时长。

GPT-4omini的推出:7月18日,OpenAI正式推出GPT-4omini,将取代ChatGPT中的旧模型GPT-3.5Turbo,向ChatGPT的免费用户、ChatGPTPlus和团队订阅用户开放。GPT-4omini的成本为每百万输入标记(token)15美分和每百万输出标记60美分,比GPT-3.5Turbo便宜超过60%。

2).Anthropic的创新与发展:

Claude3家族的推出:今年3月4日,Anthropic发布了Claude3系列模型,包括Opus、Sonnet和Haiku。Opus代表Anthropic最高级、最智能的模型,Sonnet代表中等级别的模型,在性能和成本效益之间取得平衡,Haiku代表入门级别或最基础的快速模型。其中,Claude3Opu被官方认为是性能全面超过GPT-4的最强版本。

Claude3.5Sonnet的优势:6月21日,Anthropic发布了全新大模型Claude3.5Sonnet,被称为“迄今为止最智能的模型”。据Anthropic介绍,Claude3.5Sonnet在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude3Opus,同时在运行速度和成本方面与自家前代Claude3Sonnet相当。

3).谷歌的全面升级与创新:

Gemini系列的升级:继2023年12月推出规模最大、功能最强的多模态大模型Gemini系列之后,今年2月15日,谷歌发布Gemini1.5,其中首个登场的多模态通用模型Gemini1.5Pro将稳定处理上下文的上限扩大至100万tokens。

在谷歌IO开发者大会上的升级:5月14日,谷歌大模型在开发者大会上迎来多项升级。基础大模型方面,Gemini1.5Pro将上下文窗口长度从之前的100万tokens进一步扩展至200万tokens,谷歌首席执行官Pichai称这是目前市场上处理上下文长度规模最大的基础大模型。

视频生成模型Veo和文生图模型Imagen3的发布:谷歌发布了视频生成模型Veo以及文生图模型Imagen3,Veo模型对标Sora,能够根据文字、图片和视频的提示生成长度超过1分钟、分辨率最高1080p的视频;Imagen3文生图模型是Imagen系列的升级版,从细节拟真度来看对标Midjourneyv6。

4).Meta的突破与进展:

Llama3的推出:今年4月18日,Meta推出强大的开源人工智能模型Llama3,发布了包括8B和70B参数的两个版本,作为Llama2的重大升级。Meta表示,正在开发的最大模型是400B参数的版本,将在未来几个月内推出。英伟达科学家JimFan认为,Llama3400B将成为一个分水岭,意味着社区将获得开源的重量级GPT-4模型,这将改变许多研究工作和草根创业公司的计算方式。

Llama3.1的发布:7月23日,Llama3.1正式发布,其405B版本在150多个基准测试集上的表现追平或超越现有领先的基础模型,包括GPT-4、GPT-4o和Claude3.5Sonnet。除了与闭源模型相比具有显著更好的成本/性能比之外,405B模型的开放性使其成为微调和蒸馏更小模型的优质选择。此外,Meta也推出了8B和70B模型的升级版本,能力与同等参数下的顶尖模型基本持平,与具有相似参数数量的开闭源模型构成强大竞争力。

2.国产大模型的发展态势

自2022年11月底ChatGPT发布以来,AI大模型在全球范围内掀起了巨大的浪潮,国内学术和产业界也积极响应,加紧追赶突破。

国内大模型的发展大致分为三个阶段:

1).准备期:2022年11月ChatGPT发布后,国内产学研界迅速形成对大模型的共识。

2).成长期:2023年初,国内大模型的数量和质量开始逐渐增长。

3).爆发期:2023年底至今,各行各业开源闭源大模型层出不穷,形成了百模大战的竞争态势。

从参与者的角度来看,我国AI大模型厂商大致可以分为四类:

1).互联网/科技公司:以百度、阿里、腾讯、字节、快手、华为等为代表。

2).AI公司:以智谱AI、昆仑万维、科大讯飞、商汤科技等专注于AI研发与应用的科技公司为代表。

3).学术、科研机构:包括清华、北大、复旦、中科院等国内一流高校,以及智源研究院、IDEA研究院等科研机构。

4).行业专家品牌:以月之暗面(MoonshotAI)、百川智能、MiniMax等由AI专家创业成立的公司为代表。

从模型能力的角度来看,以开源Llama-3-70B、Llama-3-8B的模型能力为分界线,国内大模型形成三大梯队:

1).开源模型Qwen2-72B在SuperCLUE基准中表现出色,超过众多国内外闭源模型,与Claude-3.5持平,与GPT-4o仅差4分。

2).4个国内大模型(深度求索DeepSeek-V2、智谱GLM-4、商汤SenseChat5.0、OPPO的AndesGPT)超过GPT-4-Turbo-0409。

3).专家创业团队如Baichuan4、Kimi、MiniMax-abab6.5均有超过70分的表现,位列国内大模型第一梯队。

4).国内绝大部分闭源模型已超过GPT3.5Turbo–0125。

三、大模型商业的挑战与机遇

1.大模型商业形态的多元化

从AI产品的商业化程度来看,B端的变现模式更为清晰,而C端的大多数产品仍以免费为主。面向B端的AI产品在通用场景到垂直赛道的分布较为均匀,收入模式以会员订阅和按需付费为主,商业模式相对清晰。尽管纯B端市场占比仅为31%,但80%以上的B端产品都能够实现营收。C端AI产品主要以智能助手以及图像生成类的生产力工具为主,虽然用户量较大(纯C端占比50%以上),但近50%的C端产品目前仍没有明确的收入模式,主要以免费形式提供。

2.OpenAI的商业模式OpenAI确立了一种较为经典的大模型商业模式,主要包括ChatGPT订阅、API调用和战略合作三种营收方式:

-ChatGPT订阅:OpenAI向C端用户提供ChatGPT这一生产力解放工具,并通过付费订阅的方式实现变现,针对ChatGPTPlus会员收取每月20美元的订阅费。

-API调用:对于模型使用灵活性要求较高的用户,OpenAI提供API服务,根据模型的调用量(tokens)或产出内容量(如图片张数、时长)进行收费。

-战略合作:OpenAI与微软建立了密切的合作关系。在ToC方面,OpenAI的模型能力嵌入到微软的生成式AI工具中,如GitHub、Office、Bing等;在ToB方面,微软Azure是OpenAI的独家云服务提供商,Azure全球版企业客户可以在平台上直接调用OpenAI模型。

3.全球API定价的趋势

1).API作为大模型厂商普遍采用的营收模式,由于大模型性能逐渐趋向同质化,全球API价格呈现出下降的趋势。今年5月,作为行业风向标的OpenAI发布了GPT-4o,面向ChatGPT所有付费和免费用户发布,并支持免费试用,其API价格比GPT-4-turbo降低了50%,输入价格低至5美元/百万tokens。同时,谷歌发布的Gemini1.5Flash也将输入价格定为0.35美元/百万tokens。

2).国内方面,5月6日,AI公司深度求索(DeepSeek)率先宣布降价,其发布的第二代MoE大模型DeepSeek-V2的输入价格定为0.001元/千tokens,输出价格为0.002元/千tokens。随后,智谱AI、火山引擎、阿里云、百度、科大讯飞、腾讯云等国内主要大模型厂商也迅速跟进降价。

4.订阅制的挑战与AIAgent的机遇

1).订阅制实现难度较高:尽管有ChatGPT的成功案例,但许多大模型厂商在尝试通过构建AI应用来推行付费订阅制时,面临着用户留存度和粘性不足的问题。即使是ChatGPT、runway等具有代表性的大模型产品,其用户留存度和粘性尚未达到现有领先C端应用的水平。

2).AIAgent:AGI(ArtificialGeneralIntelligence,通用人工智能)能力的实现是一个渐进的过程,而具有专业能力、可定制的AIAgent(智能体)被认为是打开AGI之门的关键。2023年6月,OpenAI应用研究主管LilianWeng提出:Agent=LLM+记忆+规划技能+能+工具使用。在2024年红杉资本的人工智能峰会上,吴恩达认为Agent应该具备反思(Reflection)、使用工具(Tooluse)、规划(Planning)以及多智能体协同(Multi-agentcollaboration)四种主要能力。

3).国内AIAgent市场的发展:以互联网大厂、大模型厂商、企业服务SaaS类厂商为代表的众多企业纷纷参与到AIAgent市场中,产品形态既包括面向企业和开发者的Agent构建平台/框架,也包括服务于各个垂直行业的专业Agent。2024年上半年,国内多个AIAgent平台相继发布,这将进一步提升AIAgent的开发便利性,加速国内大模型应用的发展。

4).2月,字节跳动的新一代一站式AIBot开发平台扣子Coze在国内上线,用户可以快速、低门槛地构建专属聊天机器人;4月,百度AI开发者大会发布了文心智能体平台AgentBuilder;随后,钉钉正式上线AIAgentStore,首批上架了包括通义千问在内的超过200个AIAgents。

5.MaaS助力企业降低模型使用门槛

1).B端对大模型的需求增长:

根据a16z的调研,2023年平均每家受访企业在API、自托管和微调模型上的支出达到700万美元,并且几乎所有企业计划将2024年LLM预算增加2-5倍。企业的AI模型采购决策主要受云服务提供商(CSP)的影响。2023年,大多数企业出于安全考虑通过现有的CSP购买模型,2024年这一情况仍在延续。在使用API访问模型的受访企业中,有超过50%的企业通过其CSP(如Azure、Amazon等)访问,例如Azure用户更常用OpenAI,而Amazon用户更倾向于使用Anthropic或Cohere。剩下28%的受访企业选择了自托管,可能是出于运行开源模型的需要,采用私有化部署或者CSP提供的GPU服务。

2).Maas的作用:

根据中国信通院的定义,MaaS围绕低技术门槛、模型可共享、应用易适配三大特性,提供包括算力服务、平台服务、模型服务、数据集服务、AI应用开发服务在内的全栈服务,使企业能够快速高效地构建、部署、监控和调用模型,无需开发和维护底层基础能力。

3).云厂商的布局:

目前,微软云Azure、阿里云、华为云、腾讯云、百度云、京东云等CSP都已经推出了MaaS服务。以阿里云的魔搭ModelScope为例,它支持用户使用来自达摩院大模型平台和SOTA模型矩阵的超过300个优质大模型,提供包括模型管理和下载、模型调优、训练、推理、部署、应用在内的一站式模型服务。

四、大模型发展对算力的需求与挑战

1.大模型发展与算力需求

大模型的发展受到多种资源的制约,包括能源、算力、显存、通信等。在训练端,大模型延续ScalingLaw的主流技术路线,通过扩大参数规模和数据集的大小来提升模型性能,导致对算力的持续需求。

在推理端,以ChatGPT为代表的AI应用的广泛使用也驱动着算力需求呈指数级增长。根据JaimeSevilla等人的研究,2010-2022年在深度学习兴起的背景下,机器学习训练算力增长了100亿倍。2016-2022年,常规模型算力每5至6个月翻一倍,而大规模模型算力每10至11个月翻一倍。

2.算力需求测算逻辑

1).Transformer模型的训练和推理过程都是通过多次迭代完成。一次训练迭代包含前向传播和反向传播两个步骤,而一次推理迭代相当于一个前向传播过程。前向传播是将数据输入模型并计算输出,反向传播则是计算模型的梯度并存储梯度,以进行模型参数的更新。

2).反向传播的计算量大约是前向传播的2倍。因此一次训练迭代(包含一次前向+一次反向)的计算量大约为一次推理迭代(包含一次前向)的3倍。

3).训练Transformer模型的理论计算量约为C≈6N*D,其中N为模型参数量大小,D为训练数据量大小;推理所需计算量约为2N*D。

3.算力需求测算——训练端

参考7月23日Meta公布的最新开源模型——Llama3.1405B,该模型基于15.6Ttokens的数据量进行预训练以达到最优性能,训练数据量约为模型参数规模的38.5倍。假设最优大模型参数量(N)与Tokens数(D)的近似线性关系为D=38.5*N,并设置了参数量分别为100亿、500亿、1000亿、3000亿、5000亿、1万亿、2万亿的共七档模型进行算力需求的测算。

根据前述公式计算得出训练一次Llama3.1的计算量大致为3.79*10^25FLOPs,与实际情况接近(Llama3.1405B的trainingbudget为3.8*10^25FLOPs)。A10080GSXM、H100SXM在16位精度下(FP16)的算力峰值分别为624TFLOPs、1979TFLOPs,假设集群算力利用率MFU为30%,模型训练时长分别为30天、60天、90天的背景下,则训练一次Llama3.1405B模型分别需要7.8万张、3.9万张、2.6万张A100,或者等同于分别需要2.5万张、1.2万张、8208张H100。

4.算力需求测算——推理端

根据Similarweb的统计,ChatGPT网站在过去12个月平均月访问量为14.1亿次。假设在问答场景下,月访问量为14亿、单用户平均每次访问提问次数为15次,即模型每秒处理请求数8000次,假设单次问答消耗600Tokens,计算得出该场景下每秒消耗0.049亿Tokens。

考虑并发峰值和显存预留等问题,假设峰值预留倍数为10,得出每日峰值消耗4.2万亿Tokens。根据C≈2N*D,对应推理所需算力及所需GPU数量(假设采用INT8精度、MFU=30%),千亿参数模型单问答场景推理大约需要2.6万张A100或者8188张H100。

5.大模型AI服务器成本测算

将前述训练(假设训练时长60天)和推理(单场景)两个阶段所需GPU数量加和,并统一假设1台服务器集成8张A100,计算得出千亿参数规模模型训练+推理大约需要3544台服务器,万亿参数规模模型需要6.2万台服务器。

THE END
1.文献阅读web端插件2:网页阅读插件一,web端LLMQA插件: 1,kimi插件: 2,frago ai插件 3,Perplexity(早期AI搜索引擎) https://chromewebstore.google.com/detail/perplexity-ai-companion/hlgbcneanomplepojfcnclggenpcoldo 总之就是在同一web页面内,如果阅读文献或者是技术疑问,需要随时点开右上角的图标icon,然后输入问题,而且一般不能连续聊天,会https://blog.csdn.net/weixin_62528784/article/details/144328475
2.WordPress必备插件清单:打造快速高效稳定的网站想要让WordPress网站更快、更安全、更优化?少不了一些好用的插件加持!不管是提高性能、优化SEO,还是加强安全,这份WordPress必备插件清单都能让网站更上一层楼。无论是页面构建、图片优化,还是电商工具、多语言支持,都有对应的神器推荐。不管刚开始建站还是想进一步提升网站,这些插件绝对值得试试! https://zhuanlan.zhihu.com/p/11677015773
3.独立站Similarweb插件作用独立站独立站Similarweb插件作用 借助适用于Chrome的Similarweb,我们可以检查任何网站的估计流量、流量来源、访问者地理位置和其他关键统计数据。 此扩展对于评估链接机会和分析竞争对手很有用。 热门指南分类 SUPER DELIVERY金融服务知识产权软件工具跨境物流营销推广跨境培训跨境电商ozon亚马逊Fordealshopeehttps://www.cifnews.com/help/bxxqm
4.火狐发布最影响Firefox速度的10大插件浏览器观察家火狐浏览器官网今天发布了最影响Firefox性能的火狐插件排行榜。这里面,就有一个大名鼎鼎的开发者工具:Firebug,还有其它一些相关插件。影响火狐性能的10大firefox的附加组件排名LOGO火狐附加组件冲突(%)1FoxLingo - Translator / Dictionary作者 Lihttps://www.cnblogs.com/966266-com/archive/2011/04/07/2007618.html
5.Yandex俄罗斯搜索引擎地理定位发挥着重要作用 Yandex 搜索引擎强烈关注本地结果,因此根据区域术语和搜索模式优化您的网站至关重要。他们使用机器学习来个性化结果,使您的网站能够显示特定的地理定位短语。当人们执行本地查询时,这将精确定位来自该地区的人。 使用帮助工具 当然,关键字工具在Yandex中起着至关重要的作用,优化Yandex页面的人通常https://m.10100.com/article/25699
6.38款谷歌SEO外链工具介绍:功能及特点阿睿分享介绍:获取深入的网站信息,包括SimilarWeb排名、流量数据、Whois、DNS记录等,以便更深入地了解您的市场。直观的收藏功能轻松组织您想要研究的网站和关键字。 通过对这些谷歌SEO外链工具的综合评析,我们可以清晰地看到每个工具的优势和适用场景。无论是链接构建、内容营销还是反向链接规划,这些工具都为优化团队提供了丰富的选https://segmentfault.com/a/1190000044437610
7.ChatGPT新增聊天记录存档功能ChatGPT新增聊天记录存档功能 智东西12月21日消息, 今日,OpenAI宣布在ChatGPT中推出聊天记录存档功能,用户在侧边栏点选“Archive chat”即可存档,并随时在设置中查看已存档的聊天记录。目前该功能在网页端和iOS版本推出,安卓版也将很快推出。https://zhidx.com/news/40730.html
8.engagementmetricsprovidedbysimilarwebTraffic and Engagement Metrics from SimilarWeb These features relate to traffic and engagement metrics from our data partnerSimilarWeb. Traffic data is from April and May, 2015. Domain Registration Features from DomainTools These features relate to traffic and engagement metrics from our data partnerDomaihttp://moz.com/search-ranking-factors/correlations
9.WebAssembly应用开发:性能优化与实战案例性能:WebAssembly可以提供接近本地代码的性能,这对于处理大规模数据或需要高度优化的应用程序非常重要。 安全性:由于WebAssembly是在沙箱环境中运行的,因此它可以提供更高的安全性,防止恶意代码访问用户的机器或个人信息。 可移植性:WebAssembly模块可以在支持WebAssembly的任何平台上运行,不受特定操作系统或体系结构的限制。https://www.jianshu.com/p/cfa6dcfac642
10.AI算力专题一:算力大时代,AI算力产业链全景梳理2.1.2 NPU 通过特殊架构设计对 AI 运算起到加速作用 NPU 在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的应用和算法而设计,通常 称之为“特定域架构(Domain Specific Architecture,DSA)”芯片,NPU(神经网络处理器)属于其中一种,常 被设计用于神经网络运算的加速。以华为手机 SoC 麒麟 970 为https://www.shangyexinzhi.com/article/9528471.html