下面一起看看在“百模大战”下,有哪些横空出世的AI大模型!
国内战场
百度:文心大模型
在芯片层,百度昆仑芯科技已实现两代通用AI芯片“昆仑”的量产及应用,为大模型落地提供强大算力支持。
在模型层,“文心大模型”包括基础大模型、任务大模型、行业大模型三级体系,全面满足产业应用需求。
文心大模型包括NLP大模型、CV大模型、跨模态大模型、生物计算大模型和行业大模型。目前,文心大模型已经迭代至3.5版本,与3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%。据百度官方表示,文心一言大模型的训练数据包括了万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。
腾讯:混元大模型
在模型层,混元大模型完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域/任务模型。其中,HunYuan-NLP1T的模型能力在自然语言理解任务榜单CLUE中登顶。
|混元大模型全景图
阿里:通义大模型
2022年9月,阿里达摩院发布通义大模型系列。该模型打造了AI统一底座,并构建了通用与专业模型协同的层次化人工智能体系,首次实现模态表示、任务表示、模型结构的统一。通义大模型整体架构分为三个层次:
模型底座层:多模态统一底座模型M6-OFA,实现统一的学习范式和模块化设计;
通用模型层:多模态模型“通义-M6”、NLP模型“通义-AliceMind”以及CV模型“通义-视觉”;
行业模型层:深入电商、医疗、法律、金融、娱乐等行业。
在近期的2023世界人工智能大会上,阿里宣布推出通义大模型家族新成员“通义万相”。这是一款AI绘画模型,支持文生图等功能,它能够通过机器学习和自然语言处理技术,从文本描述中生成对应的图片或画作。
华为:盘古大模型
2021年4月华为正式发布盘古系列大模型,包括NLP、CV和科学计算大模型,后续还发布了矿山、药物分子、气象、海浪等行业大模型。
其中,盘古NLP大模型首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。在下游应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配。而盘古CV大模型则是首次实现模型按需抽取的业界最大CV大模型,兼顾判别与生成能力,能够基于模型大小和运行速度需求,自适应抽取不同规模模型,AI应用开发快速落地。
在7月7日的华为开发者大会2023上,盘古大模型3.0正式发布。盘古大模型3.0是一个完全面向行业的大模型系列,包括5+N+X三层架构:
L0基础大模型:包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型在内的5个基础大模型。盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。
L1行业大模型:涵盖N个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的L0和L1上,为客户训练自己的专有大模型。
L2场景模型:为客户提供更多细化场景,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。
网易:玉言、子曰大模型
除了口语训练外,据悉“子曰”大模型系列应用成果还包括中文作文指导与批改、英语习题精讲等多种教育领域细分应用。“子曰”大模型能够作为基座模型支持很多下游任务,为所有下游场景模型提供语义理解、知识表达等基础能力,是有道AI产品体系的核心。有道研发团队在子曰大模型的基础上,会为不同场景设计定制化模型,以实现模型与场景的高度契合。
京东:言犀大模型
京东集团技术委员会主席、京东云事业部总裁曹鹏介绍,即将推出的言犀大规模预训练语言模型将面向多模态,深入零售、物流、工业等产业场景。言犀是“京东版”ChatGPT,其预训练参数达到千亿级、品类覆盖3000+、人工审核通过率95%+、生成文字30亿+。
据悉,新一代京东大模型定位于产业版本的ChatGPT。该模型的落地应用路线图“125”计划也已公布,包括一个平台、两个领域和五个应用。其中,一个平台为ChatJD智能人机对话平台,两个领域为零售和金融,五个应用则包括内容生成、人机对话、用户意图理解、信息抽取和情感分类。
360:360智脑大模型
6月13日,360集团举行360智脑大模型应用发布会,认知型通用大模型“360智脑4.0”亮相,360智脑在多模态等关键能力上完成迭代,将全面接入“360全家桶”,同时360AI数字人正式发布。
浪潮:源大模型
源1.0是浪潮信息在2021年发布的人工智能巨量模型,单体模型参数量达到2457亿。作为通用NLP预训练模型,源1.0能够适应多种类的AI任务需求,降低针对不同应用场景的语言模型适配难度,并提升小样本学习与零样本学习场景的模型泛化应用能力。
浪潮表示,公司在“源”大模型方面的工作在持续推进中。源2.0将会在文生图、Chat、多模态、工具链等方面进行升级提升。
科大讯飞:星火认知大模型
在多年核心技术储备下,科大讯飞于2022年12月15日启动“1+N”认知智能大模型专项攻关,2023年5月6日讯飞星火认知大模型正式发布,涵盖了文本生成、语言理解、知识问答、逻辑推理等七项核心能力,并持续迭代于6月9日再次升级发布星火认知大模型V1.5。
星火认知大模型最先应用于教育、办公、汽车驾驶、数字员工等场景,升级产品智能化功能,极大程度改善了用户体验。
在教育领域,讯飞星火认知大模型+学习机(科大讯飞AI习机T20),可以AI写作批改、精细批改、给优化参考,俨然成为学生的智能家庭教师。在办公领域,讯飞星火大模型+办公(讯飞听见、讯飞智能办公本X2),可以自动会议纪要、自动语篇规整、一键成稿,是职工的智能办公助理。
在汽车驾驶领域,讯飞星火认知大模型+智能座舱,可以提供多轮、多人、多区域、多模态智能汽车人机交互范式,强化智能座舱的科技体验感。在数字员工领域,讯飞星火大模型+数字员工,优化了数字员工语音和文本交互体验……
近日,科大讯飞高级副总裁、认知智能全国重点实验室主任胡国平公布了讯飞与华为的合作,表示讯飞星火将与昇腾AI强强联合,全力打造我国通用智能新底座。“国产大模型只有基于中国自主创新的算力底座才有大未来。”
商汤:日日新大模型
4月,商汤科技董事长兼首席执行官徐立宣布推出“日日新SenseNova”大模型体系。这个体系包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。
近日,“商汤日日新SenseNova”大模型体系多方位全面升级。作为千亿级参数的自然语言处理模型,商汤商量SenseChat2.0版本突破了大语言模型输入长度的限制,并推出不同参数量级的模型版本,可完美适配移动端、云端等不同终端及场景的应用需求,降低部署成本。商汤的自研生成式大模型商汤秒画SenseMirage3.0的模型参数从今年4月首次发布以来的10亿提升至70亿量级,能够实现专业摄影级的图片细节刻画。
智谱AI:智谱AI系列大模型
据360官方消息,360和智谱AI达成战略合作,打造中国的“微软+OpenAI”组合引领大模型技术攻关,共同研发的千亿级大模型“360GLM”。
昆仑万维:天工大模型
4月10日,昆仑万维宣布联合奇点智源共同研发了号称“中国第一个真正实现智能涌现”的国产大语言模型——“天工”3.5。
天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
中国移动:“九天”1+N大模型
2023年7月8日,中国移动正式发布“九天”人工智能大模型:九天海算政务大模型和九天客服大模型。目前,九天人工智能平台的技术团队拥有超过600名研发人员。
据了解,九天海算政务大模型具备政务事项理解能力、多维度信息关联能力、面向复杂事项和复杂流程的多元交互能力,首创“政务大模型—信息场—应用”端到端政务服务体系,可以满足工作人员动态管理、公文写作等需求。
九天客服大模型可根据用户提供的自然语言描述,解析问题并提供答案;还可与人工客服协作,分析历史沟通内容的语义和上下文,总结和归纳对话的重点和关键信息,为人工客服提供回复建议。
7月6日,中国电信数字智能科技分公司正式对外发布中国电信大语言模型TeleChat,并展示了大模型赋能数据中台、智能客服和智慧政务三个方向的产品。
当下,电信TeleChat大模型正在与千行百业的信息化解决方案进行融合,在诸多行业实现商业化落地。
中国联通:鸿湖图文大模型1.0
据了解,鸿湖图文大模型目前有两个版本,分别是拥有8亿训练参数和20亿训练参数的版本。这意味着该大模型具备了强大的计算和学习能力,能够实现多种复杂的图文处理功能。
另外,鸿湖图文大模型还具备视频剪辑和以图生图的功能。视频剪辑功能可以根据用户提供的视频素材,自动进行剪辑和编辑,生成符合用户需求的视频作品。而以图生图功能则可以根据用户提供的图像,生成新的图像,为用户提供更多的创作灵感。
中国科学院自动化研究所:紫东太初大模型
紫东太初是中国科学院自动化研究所研发的跨模态通用人工智能平台,首次发布于2021年7月。紫东太初是图文音(视觉-文本-语音)三模态预训练模型(OPT-Omni-Perceptionpre-Trainer),同时具备跨模态理解与跨模态生成能力。
2023年6月16日,中国科学院自动化研究所发布紫东太初2.0。相比1.0版本,在语音、图像和文本三模态的基础上,加入视频、传感信号、3D点云等模态数据,研究突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力,面向数字经济时代加速通用人工智能的实现。
目前,“紫东太初”大模型已在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开始了一系列应用。
智源研究院:悟道智能模型
悟道2.0智能模型参数规模达到1.75万亿个,可以同时处理中英文和图片数据。该模型还引入大规模的知识图谱,构建了数据与知识双轮驱动的人工智能框架,并通过这种框架分析、理解富含前沿技术信息的知识。
“悟道3.0”包括“悟道·天鹰”(Aquila)语言大模型系列、“悟道·视界”视觉大模型系列,以及一系列多模态模型成果。
国外战场
OpenAI:GPT系列大模型
GPT-4是OpenAI在深度学习扩展方面的最新里程碑。根据微软发布的GPT-4论文,GPT-4已经可被视为一个通用人工智能的早期版本。GPT-4是一个大型多模态模型(接受图像和文本输入、输出),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中表现出人类水平的性能。GPT-4不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度,而且它还能够将多个领域的技能和概念统一起来,并能理解其复杂概念。
微软:Orca大模型等
微软正在利用大规模和多样化的模仿数据来促进Orca的渐进式学习,Orca在Big-BenchHard(BBH)等复杂的零样本推理基准测试中已经100%超过了Vicuna。
谷歌:PaLM2大模型、Gemini大模型等
谷歌最早在2017年提出Transformer网络结构,成为了过去数年该领域大多数行业进展的基础。随后在2018年,谷歌提出的BERT模型,在11个NLP领域的任务上都刷新了以往的记录。基于Transformer结构,谷歌于2019年推出大模型——T5(Text-toTextTransferTransformer)
在ChatGPT取得突破性成功之后,谷歌宣布了自己的聊天机器人谷歌Bard,而Bard这个技术形象背后是LaMDA在提供后端支撑。LaMDA是继BERT之后,谷歌于2021年推出的一款自然对话应用的语言模型。同年谷歌研发出GLaM模型架构,GLaM也是混合专家模型(MoE),其在多个小样本学习任务上取得有竞争力的性能。
2022年,Google发布了PathwaysAI架构的大模型(PathwaysLanguageModel),简称为PaLM),2023年5月,谷歌在GoogleI/O开发者大会上发布了升级款PaLM2,PaLM2同时提供了四种模型大小的版本分别是:壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn)。据谷歌介绍,PaLM2具有改进的多语言能力,在训练模型时加入了100多种语言的语料来,促使PaLM2在理解、生成和翻译细微差别的文本(如成语、诗歌和谜语)的能力上相比前代有着显著提高。同时在推理方面,PaLM2的数据集在理解科学论文以及数学表达式等问题时也有着巨大提升。
Meta:LLaMA语言模型、ImageBind大模型等
继微软、谷歌之后,Facebook母公司Meta也加入AI军备竞赛。2023年2月24日,Meta官网公布了一款新的人工智能大型语言模型LLaMA,从参数规模来看,Meta提供有70亿、130亿、330亿和650亿四种参数规模的LLaMA模型,并用20种语言进行训练。
2023年5月,Meta发布650亿参数语言模型LIMA,仅在1000个精心挑选的样本上微调LLaMa-65B且无需RLHF,就实现了与GPT-4和Bard相媲美的性能。此外,Meta还推出了大规模多语言语音项目MMS(MassivelyMultilingualSpeech)、可“任意图像分割”的基础模型SAM(SegmentAnythingModel)、DINOv2视觉大模型。
AWS:Titan语言大模型
2023年4月,AWS正式入局AIGC,推出自有基础模型Titan和AIGC服务Bedrock,以及AI编程助手AmazonCodeWhisperer,并宣布基于自研推理和训练AI芯片的最新实例AmazonEC2Trn1n和AmazonEC2Inf2正式可用。
在大模型快速演进的关键时期,为方便技术交流,共促产业发展。
原文标题:“百模大战”:盘点国内外横空出世的AI大模型
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)