从大模型参数量看,科技大厂的参数量远大于科研院所。科技大厂的大模型参数量较大:阿里通义千问大模型参数在10万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上、京东言犀大模型的参数量为千亿级;垂直行业科技企业已经上线的参数量普遍在千亿级以上;而科研院校大模型的参数量在千亿级及以下。从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向B端企业拓展服务,预计少数企业将在C端市场形成规模。目前,百度文心大模型、华为盘古大模型、中国科学院紫东太初大模型均在B端垂类市场积累了标杆应用案例,腾讯混元大模型、阿里通义大模型则更多聚焦公司自身业务。而在C端市场应用方面,百度文心一言、阿里通义千问、腾讯混元助手三类大模型最有可能向此方向拓展,但目前只有百度文心一言大模型正在进行友好客户测试,阿里通义千问大模型则计划在今年9月份进行公测,腾讯混元助手大模型则处于计划开发状态。
3、产业发展趋势
大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。
生态层是基于大模型能力打造共创、共享社区。大模型“预训练+精调”的新研发范式,让AI在识别、理解、生成等方面的能力实现突破,带来深度语义理解、智能交互、内容生成的技术与产品变革动能。打造基于大模型能力的生态,提供能力、工具、服务,连接供需,吸引更多的开发者和企业共创、共享,是释放大模型潜力的重要路径。“模型+工具平台+生态”的模式需要协同优化,拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。“模型+工具平台+生态”的模式需要协同优化,才能拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。
二、互联网大厂模型
1、阿里
1.1模型
1.2算力
阿里研发出高质量的大模型压缩技术,快速匹配客户计算资源。达摩院推出了大模型落地技术S4(Sound、Sparse、Scarce、Scale)框架,就包含了各种微调算法和模型压缩算法,将稀疏化等技术应用到百亿量级的大模型中。基于这一技术,阿里的270亿参数语言大模型PLUG在压缩率达99%的情况下,多项任务的精度损失在1%以内。这意味着百亿参数大模型也可能在几乎不损失精度的情况下进行稀疏化,最终实现单卡运行。
1.3平台
2022年11月,阿里巴巴达摩院与中国计算机学会开源发展委员会共同推出人工智能模型开源社区“魔搭”(ModelScope),首批合作方还包括澜舟科技、智谱AI、深势科技、中国科学技术大学等多家科研机构,旨在打造下一代开源的模型即服务共享平台,致力降低AI应用门槛。ModelScopeLibrary为模型贡献者提供了必要的分层API,以便将来自CV、NLP、语音、多模态以及科学计算的模型集成到ModelScope生态系统中。所有这些不同模型的实现都以一种简单统一访问的方式进行封装,用户只需几行代码即可完成模型推理、微调和评估。同时,灵活的模块化设计使得在必要时也可以自定义模型训练推理过程中的不同组件。除了包含各种模型的实现之外,ModelScopeLibrary还支持与ModelScope后端服务进行必要的交互,特别是与Model-Hub和Dataset-Hub的交互。这种交互促进了模型和数据集的管理在后台无缝执行,包括模型数据集查询、版本控制、缓存管理等。当前,魔搭社区收录模型共775个,其中中文模型约300个,主要通过大模型帮助开发者提取、抽象知识,通过下游调优,将下游目标精确化,从而快速形成针对行业的解决模型,解决实际应用问题。
1.4应用
2、百度
2.1模型
文心大模型架构分为“基础+任务+行业”三级模型。基础大模型聚焦技术方向的技术挑战、通用性、泛化性探索;任务大模型深入理解任务特性,构建预训练算法、训练数据集,打造紧贴任务的模型能力;行业大模型深度融合行业数据与知识特性,构建更适配行业的模型底座。基础大模型支撑任务与行业大模型的建设,任务和行业大模型结合真实场景与数据反哺基础大模型优化。目前,文心大模型已经建设了36个大模型,其中基础大模型包含:NLP(自然语言处理)大模型、CV(计算机视觉)大模型、跨模态大模型,任务大模型包含对话、搜索、信息抽取、生物计算等多个典型任务,行业大模型包含与来自8个行业的头部企业或机构共建的11个行业大模型。
2.1.1文心NLP大模型
ERNIE3.0系列模型(ERNIE3.0、ERNIE3.0Titan、ERNIE3.0Zeus)有四大特点:从大规模知识图谱和海量无结构数据中学习,突破异构数据统一表达的瓶颈问题。同时输入大规模图谱和相应无标注、无结构化的文本,通过文本的Mask,能够推理这个知识图谱里的关系,从而使这个模型具有知识推理能力。
PLATO(TowardsBuildinganOpen-DomainChatbotviaCurriculumLearning)是文心一言的另一项关键技术,主要作用是多轮对话,其发展经历了三个阶段。1)2019年10月,百度首次发布了PLATO对话模型,其是全球首个大规模变量对话模型,刷新开放领域对话效果。2)2020年7月,发布PLATO-2,其是基于课程学习的对话生成模型,进一步刷新了开放领域对话效果。2020年10月,PLATO-2斩获全球对话技术竞赛DSTC-9五项冠军。3)2021年9月,发布PLATO-XL,其是首个百亿参数中英对话预训练生成模型。PLATO在预训练模型之上,对对话能力进行增强,让对话具有人格属性,包括人设稳定性、知识增强、跨模态对话、情感抚慰、主动对话、长期记忆等。同时,PLATO也已应用到百度的各个产品线,比如:小度聊天,百度推出的虚拟人对话,领域对话。同时,百度也通过UNIT平台,对外输出对话技术。
2021年,百度推出PLATO-XL,将模型的规模推进至110亿,模型有72层。同时引入了roleembedding的特征来感知角色信息。在对话上文中,既有用户的输入,也有系统的输入,使用roleembedding来区分用户和系统的角色。在原有transformer模型三个特征,token、sentencetype、position的基础上,模型新增了roleembedding的信息,能让模型更好的掌控角色。
2.1.2文心CV大模型
VIMER-UFO2.0单个模型一套参数,在不进行下游fine-tuning的情况下,在28个主流的CV公开数据集上取得了SOTA的结果。同时,尽管VIMER-UFO2.0大模型参数量达到了170亿,得益于Task-MoE稀疏结构,每个任务推理时只需激活部分参数,计算量相当于6亿参数模型规模,加速比接近30倍。
VIMER-StrucTexT2.0是端到端文档OCR表征学习预训练模型,首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架,仅通过单一文档图像的输入,就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,包括文档图像分类、文档版式分析、表格结构解析、文档OCR、端到端信息抽取等。VIMER-StrucTexT2.0同时解决了训练数据匮乏和传统OCR+NLP链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。
VIMER-UMS(UnifiedMulti-SourcePre-trainingforProduct),是百度基于海量的互联网商品图文信息提出的多源信息统一建模的商品图文表征预训练模型,也是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对图文多模态建模中模态信息残缺问题,通过构建视觉特征与多源图文对比的多任务学习框架,实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,可以显著改善商品视觉检索和商品多模态检索体验。
2.1.3文心跨模态大模型
文心·跨模态大模型基于知识增强的跨模态语义理解关键技术,可实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建,落实产业智能化转型的AI助力。ERNIE-ViL是业界首个融合场景图知识的多模态预训练模型。ERNIE-ViL将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等5项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。基于文本中解析出的场景图,ERNIE-ViL提出了三个多模态场景图预测任务:物体预测,随机选取图中的一部分物体,然后对其在句子中对应的词进行掩码和预测;属性预测,对于场景图中的属性-物体组合,随机选取一部分词对其中属性词进行掩码和预测;关系预测,对于场景图中的物体-关系-物体三元组,对其中的关系词进行掩码和预测。
ERNIE-ViL在场景图里加入知识,通过它的文字信息去构建场景图,使得模型能够理解图中细粒度的语义。举例而言,下图中有6个人,但只有5个人运动员,因为其中一个是裁判,模型要能依据运动场景进行判断,才能给出正确答案。
2.2算力
2.3平台
百度飞桨是我国首个自主研发的产业级深度学习开源开放平台,飞桨在平台功能上具备丰富的产业级模型库、端到端开发套件、工具组件,以及零门槛AI开发平台EasyDL和全功能AI开发平台BML、学习与实训社区AIStudio,高效支持深度学习模型开发、训练、部署等全流程,降低AI技术应用门槛;在生态上,飞桨推动构建了全方位的生态体系,包括开发者生态、教育生态、企业生态、硬件生态,通过生态共享共创加速产学研用协同创新发展。
2.4应用
3、腾讯
腾讯构建了“太极机器学习平台+混元大模型”,同时腾讯启动了“混元助手”知识增强大语言模型项目。2016年,腾讯成立了AILab实验室。2022年4月,腾讯对外披露了混元大模型,涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力,可支持10TB级模型训练、TB级模型推理计算能力等。腾讯AILab是腾讯的企业级AI实验室,于2016年4月在深圳成立,目前有100多位顶尖研究科学家及300多位应用工程师。2017年公司提出了“MakeAIEverywhere”的战略愿景,和“基础研究—场景共建—能力开放”的三层AI战略架构。作为衡量机构研究实力的重要标准,成立四年多来,腾讯AILab的基础研究成果已覆盖CVPR、ACL、ICML、NIPS及NatureCommunications等国际顶级AI学术会议或期刊,发表论文超过460篇,位居国内企业前列。截止2020年3月,腾讯拥有AI全球专利超过6500个,中国专利超过5000个。
3.1模型
3.2算力
此外,新一代集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。腾讯太极机器学习平台自研的训练框架AngelPTM,也已通过腾讯云TACO提供服务,帮助企业加速大模型落地。依托分布式云原生的治理能力,腾讯云智算平台提供16EFLOPS的浮点算力,规模业界领先。通过腾讯云的大模型能力和工具箱,企业可结合产业场景数据进行精调训练,提升生产效率、快速创建和部署AI应用。
3.3平台
3.4应用
AI+生命健康:在医疗领域,腾讯AILab与北京协和医院共同发布了具有完全自主知识产权的便携式智能化手术导航系统,实现高精度、便携式、低成本等特点,就像给临床医生的手术配上了GPS,辅助医生精准定位隐藏在脑组织中的病变。该系统在协和神经外科已成功开展了50余例临床试验,涉及脑出血、垂体腺瘤、胶质瘤、脑膜瘤、颅咽管瘤等多种疾病,临床初步应用取得成功。腾讯AILab还与迈瑞共同研发了全自动外周血细胞形态学分析仪,并完成了创新医疗器械特别审查申请公示,正式进入国家药品监督管理局创新通道,成为国内体外诊断行业首个进入该程序的AI类产品。该分析仪通过创新性的形态学检测方案,以优异的指标及效率,实现白血病等高发恶性肿瘤的早期筛查辅助临床诊断。
4、字节
相对于阿里、百度、腾讯均已经推出大模型及布局,字节目前仍未公布内部架构、产品体系及大模型的最新进展。字节的AI布局可以追溯到2016年成立的字节AILAB的成立,AILab对自身的定位是作为公司内部的研究所和技术服务商,为平台输出海量内容提供AI技术支持。AILab最初成立的时候聚集了马维英、李航、李磊等大牛,此后马维英离开团队回到学界,目前阿里M6大模型的前带头人杨红霞已加入字节AILab(人工智能实验室),参与语言生成大模型的研发。字节目前大模型仍处于发展阶段,现以旗下云平台火山引擎在算力、平台和生态端布局为主。大模型团队由字节搜索部门牵头,搜索业务部门、AILab和AML(应用机器学习)团队均调任部分人马支援,目前团队规模在40人左右,图片大模型团队由产品研发与工程架构部下属的智能创作团队牵头;团队负责人间接和直接汇报对象,则均为TikTok产品技术负责人朱文佳。根据调研情况,字节目前在仍在做模型调优,计划23年6-9月达到3.5模型相当的水平,9月之后语言模型可以同步做发布和多模态模型训练,语言模型发布至少要到9月之后。后面会基于当前的语言模型,做多模态的模型,多模态相对来说难度会更大,至少要等到24年3-4月。
4.1模型
4.2算力
2023年4月18日,火山引擎在春季火山引擎FORCE原动力大会上正式发布自研DPU等系列云产品,并正式推出智能推荐-高速训练引擎,支持100GB至10TB以上超大模型的高效训练,采取软硬一体优化设计等,让面向推荐场景的高速训练更快,成本更低。火山引擎智能推荐-高速训练引擎具备软硬一体、细粒度算子优化、分布式训练和推理三大特点,1)软硬一体化:针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速训练,综合ROI是CPU的5倍;覆盖更多场景的模型,提供了GPU+CPU混训方案,综合ROI是CPU的2倍;2)细粒度算子优化:针对搜索、推荐和营销场景,优化细粒度算子,使得在模型推理的过程中有更好的性能表现。在训练时,通过算子融合并精细调优,性能提升20%;在推理时,通过算子优化,性能提升40%;3)分布式训练和推理:智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理,包括多分片、多副本,从而保证线上服务的高可用。
4.3平台
4.4应用
火山引擎的AI场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。在内容视频化和互动趣味化的大趋势下,火山引擎创作与体验场景提供了从算法到平台的全域解决方案,在AI底层算法的支持下,通过全品类的正版素材和特色化的创作工具,快速完成视频、特效、虚拟形象、XR等创新内容。不管是企业用户还是个人用户,人人都可拥有创作比较专业的短视频的能力。智能创作云是火山引擎发布的面向企业的创作AI产品,智能创作云包括众多AI创作工具,比如图文转视频能力,用户只需输入文字即可生成视频,AI通过理解文字内容,搭配适合的图片、音乐和转场等,快速生成一支专业的视频;比如视频模板,剪同款功能就是把优质视频内容抽象成脚本,用户只要会打开摄像头拍摄,就有了专业拍、剪视频的能力,极大降低了创作门槛,保障了内容生产的质量。
三、商业模式
当前全球大模型产业落地仍处于早期探索阶段。一方面,研发机构在大模型方面的技术研发已较为成熟,如算法架构、预训练和微调策略、计算并行加速等,但对落地场景不够熟悉,没有形成完善的商业化模式,需要与下游场景企业合作建立大模型商业模式;另一方面,绝大多数下游场景的企业对大模型没有形成基本的概念和认知,同时也没有能够支撑模型微调的算力,以及定制、二次开发模型的人力资源和技术实力。此轮基于ChatGPT的大模型浪潮兴起伊始,结合我国AI产业链与竞争格局现状,一种判断是:基于大模型的通用和泛化性提高,未来手握通用基础大模型的巨头企业会逐渐侵蚀垂直领域厂商业务。这种压力长期来看的确存在,但大模型与产品结合,尤其在非检索或开放域交互等场景中,需要依赖垂直领域数据和行业know-how、应用场景和用户数据反哺、一站式端到端工程化能力等。在此窗口期,垂直领域与应用层厂商应积极将大模型能力整合入自己的技术栈,服务于产品功能优化,建立“数据飞轮”壁垒。在下游丰富的基于大语言模型、AIGC应用开发需求的影响下,还将分化出一类工具型或平台型厂商,主要提供基于各类大模型的开发平台服务,帮助客户实现便捷的AIGC应用开发与落地。
1、API模式
API模式指的是由大模型的研发主体(如科研机构)对完成的模型文件进行封装,将模型在各类任务上的推理能力封装成统一的应用程序接口,对外提供服务的模式。下游企业可以获得这些接口,并按照自身的业务需求,将接口作为可以调用的代码库、程序包等,植入已有的应用和服务中,让大模型的API为整个程序进行赋能。API模式的主要优势在于降低了企业应用大模型的成本。API将大模型内部的所有技术细节进行封闭,企业不需要过多了解模型的技术细节,也不需要投入额外的开发人力和算力资源进行大模型调优。
2、PaaS模式
大模型作为一种技术,将其集成在AI平台上,对外提供能力和服务,成为一些技术实力雄厚企业的选择。这种模式中,企业的主要落地产品的PaaS平台、开发工具、AI服务等组合而成的套件,大模型是套件中的一个重要的组成部分,但不是全部。用户购买或使用平台的过程中,可以利用平台提供的工具,对大模型进行开发和应用,集成于自有的体系中,为自身业务提供服务。需要注意的是,和API模式不同,PaaS服务模式提供的是包括模型在内的一系列工具和平台,用户不能单独获得模型的能力。同时,用户虽然可以通过PaaS模式,获得对模型更高的开发和控制权,但往往需要为此付费,这为PaaS服务的供应商带来了一定的利润。
3、MaaS模式
MaaS商业模式是以算力平台、模型仓库及数据集仓库为基础的,倡导零门槛的模型体验,提供简单快速的模型使用、完整的模型定制链路及模型云端部署服务,主要提供给AI的爱好者、开发者、研究员以及部分中小型转型企业的商业化模型使用。“模型→单点工具→应用场景”是MaaS产业结构的核心。大模型是MaaS的最重要基座,例如OpenAI提供的访问执行各种自然语言任务的GPT-3、将自然语言翻译成代码的Codex、创建和编辑原始图像的DALLE;单点工具是大模型应用的补充,例如ChatGPT是在GPT-3.5模型的基础上,产生出的能“对话”的AI系统;内容写作工具Jasper它基于开源的GPT-3模型,它使用人工智能为用户编写内容等;各种应用场景是大模型应用的变现,例如商汤科技的书生(INTERN)大模型可以让AI模型处理多样化的视觉任务;又如GPT模型系列作为基于互联网可用数据训练的文本生成深度学习模型,应用场景持续扩展。