“百模大战”:盘点国内外横空出世的AI大模型

下面一起看看在“百模大战”下,有哪些横空出世的AI大模型!

国内战场

百度:文心大模型

在芯片层,百度昆仑芯科技已实现两代通用AI芯片“昆仑”的量产及应用,为大模型落地提供强大算力支持。

在模型层,“文心大模型”包括基础大模型、任务大模型、行业大模型三级体系,全面满足产业应用需求。

文心大模型包括NLP大模型、CV大模型、跨模态大模型、生物计算大模型和行业大模型。目前,文心大模型已经迭代至3.5版本,与3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%。据百度官方表示,文心一言大模型的训练数据包括了万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。

腾讯:混元大模型

在模型层,混元大模型完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域/任务模型。其中,HunYuan-NLP1T的模型能力在自然语言理解任务榜单CLUE中登顶。

|混元大模型全景图

阿里:通义大模型

2022年9月,阿里达摩院发布通义大模型系列。该模型打造了AI统一底座,并构建了通用与专业模型协同的层次化人工智能体系,首次实现模态表示、任务表示、模型结构的统一。通义大模型整体架构分为三个层次:

模型底座层:多模态统一底座模型M6-OFA,实现统一的学习范式和模块化设计;

通用模型层:多模态模型“通义-M6”、NLP模型“通义-AliceMind”以及CV模型“通义-视觉”;

行业模型层:深入电商、医疗、法律、金融、娱乐等行业。

在近期的2023世界人工智能大会上,阿里宣布推出通义大模型家族新成员“通义万相”。这是一款AI绘画模型,支持文生图等功能,它能够通过机器学习和自然语言处理技术,从文本描述中生成对应的图片或画作。

华为:盘古大模型

2021年4月华为正式发布盘古系列大模型,包括NLP、CV和科学计算大模型,后续还发布了矿山、药物分子、气象、海浪等行业大模型。

其中,盘古NLP大模型首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。在下游应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配。而盘古CV大模型则是首次实现模型按需抽取的业界最大CV大模型,兼顾判别与生成能力,能够基于模型大小和运行速度需求,自适应抽取不同规模模型,AI应用开发快速落地。

在7月7日的华为开发者大会2023上,盘古大模型3.0正式发布。盘古大模型3.0是一个完全面向行业的大模型系列,包括5+N+X三层架构:

L0基础大模型:包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型在内的5个基础大模型。盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。

L1行业大模型:涵盖N个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的L0和L1上,为客户训练自己的专有大模型。

L2场景模型:为客户提供更多细化场景,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。

网易:玉言、子曰大模型

除了口语训练外,据悉“子曰”大模型系列应用成果还包括中文作文指导与批改、英语习题精讲等多种教育领域细分应用。“子曰”大模型能够作为基座模型支持很多下游任务,为所有下游场景模型提供语义理解、知识表达等基础能力,是有道AI产品体系的核心。有道研发团队在子曰大模型的基础上,会为不同场景设计定制化模型,以实现模型与场景的高度契合。

京东:言犀大模型

京东集团技术委员会主席、京东云事业部总裁曹鹏介绍,即将推出的言犀大规模预训练语言模型将面向多模态,深入零售、物流、工业等产业场景。言犀是“京东版”ChatGPT,其预训练参数达到千亿级、品类覆盖3000+、人工审核通过率95%+、生成文字30亿+。

据悉,新一代京东大模型定位于产业版本的ChatGPT。该模型的落地应用路线图“125”计划也已公布,包括一个平台、两个领域和五个应用。其中,一个平台为ChatJD智能人机对话平台,两个领域为零售和金融,五个应用则包括内容生成、人机对话、用户意图理解、信息抽取和情感分类。

360:360智脑大模型

6月13日,360集团举行360智脑大模型应用发布会,认知型通用大模型“360智脑4.0”亮相,360智脑在多模态等关键能力上完成迭代,将全面接入“360全家桶”,同时360AI数字人正式发布。

浪潮:源大模型

源1.0是浪潮信息在2021年发布的人工智能巨量模型,单体模型参数量达到2457亿。作为通用NLP预训练模型,源1.0能够适应多种类的AI任务需求,降低针对不同应用场景的语言模型适配难度,并提升小样本学习与零样本学习场景的模型泛化应用能力。

浪潮表示,公司在“源”大模型方面的工作在持续推进中。源2.0将会在文生图、Chat、多模态、工具链等方面进行升级提升。

科大讯飞:星火认知大模型

在多年核心技术储备下,科大讯飞于2022年12月15日启动“1+N”认知智能大模型专项攻关,2023年5月6日讯飞星火认知大模型正式发布,涵盖了文本生成、语言理解、知识问答、逻辑推理等七项核心能力,并持续迭代于6月9日再次升级发布星火认知大模型V1.5。

星火认知大模型最先应用于教育、办公、汽车驾驶、数字员工等场景,升级产品智能化功能,极大程度改善了用户体验。

在教育领域,讯飞星火认知大模型+学习机(科大讯飞AI习机T20),可以AI写作批改、精细批改、给优化参考,俨然成为学生的智能家庭教师。在办公领域,讯飞星火大模型+办公(讯飞听见、讯飞智能办公本X2),可以自动会议纪要、自动语篇规整、一键成稿,是职工的智能办公助理。

在汽车驾驶领域,讯飞星火认知大模型+智能座舱,可以提供多轮、多人、多区域、多模态智能汽车人机交互范式,强化智能座舱的科技体验感。在数字员工领域,讯飞星火大模型+数字员工,优化了数字员工语音和文本交互体验……

近日,科大讯飞高级副总裁、认知智能全国重点实验室主任胡国平公布了讯飞与华为的合作,表示讯飞星火将与昇腾AI强强联合,全力打造我国通用智能新底座。“国产大模型只有基于中国自主创新的算力底座才有大未来。”

商汤:日日新大模型

4月,商汤科技董事长兼首席执行官徐立宣布推出“日日新SenseNova”大模型体系。这个体系包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。

近日,“商汤日日新SenseNova”大模型体系多方位全面升级。作为千亿级参数的自然语言处理模型,商汤商量SenseChat2.0版本突破了大语言模型输入长度的限制,并推出不同参数量级的模型版本,可完美适配移动端、云端等不同终端及场景的应用需求,降低部署成本。商汤的自研生成式大模型商汤秒画SenseMirage3.0的模型参数从今年4月首次发布以来的10亿提升至70亿量级,能够实现专业摄影级的图片细节刻画。

智谱AI:智谱AI系列大模型

据360官方消息,360和智谱AI达成战略合作,打造中国的“微软+OpenAI”组合引领大模型技术攻关,共同研发的千亿级大模型“360GLM”。

昆仑万维:天工大模型

4月10日,昆仑万维宣布联合奇点智源共同研发了号称“中国第一个真正实现智能涌现”的国产大语言模型——“天工”3.5。

天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。

中国移动:“九天”1+N大模型

2023年7月8日,中国移动正式发布“九天”人工智能大模型:九天海算政务大模型和九天客服大模型。目前,九天人工智能平台的技术团队拥有超过600名研发人员。

据了解,九天海算政务大模型具备政务事项理解能力、多维度信息关联能力、面向复杂事项和复杂流程的多元交互能力,首创“政务大模型—信息场—应用”端到端政务服务体系,可以满足工作人员动态管理、公文写作等需求。

九天客服大模型可根据用户提供的自然语言描述,解析问题并提供答案;还可与人工客服协作,分析历史沟通内容的语义和上下文,总结和归纳对话的重点和关键信息,为人工客服提供回复建议。

7月6日,中国电信数字智能科技分公司正式对外发布中国电信大语言模型TeleChat,并展示了大模型赋能数据中台、智能客服和智慧政务三个方向的产品。

当下,电信TeleChat大模型正在与千行百业的信息化解决方案进行融合,在诸多行业实现商业化落地。

中国联通:鸿湖图文大模型1.0

据了解,鸿湖图文大模型目前有两个版本,分别是拥有8亿训练参数和20亿训练参数的版本。这意味着该大模型具备了强大的计算和学习能力,能够实现多种复杂的图文处理功能。

另外,鸿湖图文大模型还具备视频剪辑和以图生图的功能。视频剪辑功能可以根据用户提供的视频素材,自动进行剪辑和编辑,生成符合用户需求的视频作品。而以图生图功能则可以根据用户提供的图像,生成新的图像,为用户提供更多的创作灵感。

中国科学院自动化研究所:紫东太初大模型

紫东太初是中国科学院自动化研究所研发的跨模态通用人工智能平台,首次发布于2021年7月。紫东太初是图文音(视觉-文本-语音)三模态预训练模型(OPT-Omni-Perceptionpre-Trainer),同时具备跨模态理解与跨模态生成能力。

2023年6月16日,中国科学院自动化研究所发布紫东太初2.0。相比1.0版本,在语音、图像和文本三模态的基础上,加入视频、传感信号、3D点云等模态数据,研究突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力,面向数字经济时代加速通用人工智能的实现。

目前,“紫东太初”大模型已在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开始了一系列应用。

智源研究院:悟道智能模型

悟道2.0智能模型参数规模达到1.75万亿个,可以同时处理中英文和图片数据。该模型还引入大规模的知识图谱,构建了数据与知识双轮驱动的人工智能框架,并通过这种框架分析、理解富含前沿技术信息的知识。

“悟道3.0”包括“悟道·天鹰”(Aquila)语言大模型系列、“悟道·视界”视觉大模型系列,以及一系列多模态模型成果。

国外战场

OpenAI:GPT系列大模型

GPT-4是OpenAI在深度学习扩展方面的最新里程碑。根据微软发布的GPT-4论文,GPT-4已经可被视为一个通用人工智能的早期版本。GPT-4是一个大型多模态模型(接受图像和文本输入、输出),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中表现出人类水平的性能。GPT-4不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度,而且它还能够将多个领域的技能和概念统一起来,并能理解其复杂概念。

微软:Orca大模型等

微软正在利用大规模和多样化的模仿数据来促进Orca的渐进式学习,Orca在Big-BenchHard(BBH)等复杂的零样本推理基准测试中已经100%超过了Vicuna。

谷歌:PaLM2大模型、Gemini大模型等

谷歌最早在2017年提出Transformer网络结构,成为了过去数年该领域大多数行业进展的基础。随后在2018年,谷歌提出的BERT模型,在11个NLP领域的任务上都刷新了以往的记录。基于Transformer结构,谷歌于2019年推出大模型——T5(Text-toTextTransferTransformer)

在ChatGPT取得突破性成功之后,谷歌宣布了自己的聊天机器人谷歌Bard,而Bard这个技术形象背后是LaMDA在提供后端支撑。LaMDA是继BERT之后,谷歌于2021年推出的一款自然对话应用的语言模型。同年谷歌研发出GLaM模型架构,GLaM也是混合专家模型(MoE),其在多个小样本学习任务上取得有竞争力的性能。

2022年,Google发布了PathwaysAI架构的大模型(PathwaysLanguageModel),简称为PaLM),2023年5月,谷歌在GoogleI/O开发者大会上发布了升级款PaLM2,PaLM2同时提供了四种模型大小的版本分别是:壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn)。据谷歌介绍,PaLM2具有改进的多语言能力,在训练模型时加入了100多种语言的语料来,促使PaLM2在理解、生成和翻译细微差别的文本(如成语、诗歌和谜语)的能力上相比前代有着显著提高。同时在推理方面,PaLM2的数据集在理解科学论文以及数学表达式等问题时也有着巨大提升。

Meta:LLaMA语言模型、ImageBind大模型等

继微软、谷歌之后,Facebook母公司Meta也加入AI军备竞赛。2023年2月24日,Meta官网公布了一款新的人工智能大型语言模型LLaMA,从参数规模来看,Meta提供有70亿、130亿、330亿和650亿四种参数规模的LLaMA模型,并用20种语言进行训练。

2023年5月,Meta发布650亿参数语言模型LIMA,仅在1000个精心挑选的样本上微调LLaMa-65B且无需RLHF,就实现了与GPT-4和Bard相媲美的性能。此外,Meta还推出了大规模多语言语音项目MMS(MassivelyMultilingualSpeech)、可“任意图像分割”的基础模型SAM(SegmentAnythingModel)、DINOv2视觉大模型。

AWS:Titan语言大模型

2023年4月,AWS正式入局AIGC,推出自有基础模型Titan和AIGC服务Bedrock,以及AI编程助手AmazonCodeWhisperer,并宣布基于自研推理和训练AI芯片的最新实例AmazonEC2Trn1n和AmazonEC2Inf2正式可用。

在大模型快速演进的关键时期,为方便技术交流,共促产业发展。

原文标题:“百模大战”:盘点国内外横空出世的AI大模型

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
1.我姓算,能力强,数字浪潮连接世界精准高效任翱翔家人们,谁懂啊!近期,“算力”一词频繁出现在各类科技新闻、产业发展报告甚至日常对话中——以数据、算法等为新生产要素的算力正以前所未有的广度和深度向社会各领域渗透融合,成为激活新质生产力的关键引擎。算力,顾名思义,就是计算机设备或数据中心处理信息的能力,是计算机硬件和软件配合共同执行某种计算需求的https://baijiahao.baidu.com/s?id=1818949109203476983&wfr=spider&for=pc
2.原创如何释放大模型对金融行业的价值?新闻频道大模型=大算力+大数据+强算法 今年以来ChatGPT风头强劲,带火了大模型技术。大模型即网络参数规模达到亿级以上的“预训练深度学习算法”,在文本图像理解、内容生成等任务表现出显著优势和巨大潜力。 “大模型必须基于‘大算力+大数据+大算法参数网络结构’进行训练。”吕仲涛介绍,大模型技术是一个复杂的体系性工程,涵盖https://news.hexun.com/2023-06-14/208961897.html
3.山东省大数据局省级层面上海市通信管理局等11个部门联合印发以构建支撑本市公共服务、商业服务的智能算力供给体系为指引,形成上海算力交易平台、上海市人工智能公共算力服务平台两大算力资源调度核心,以及面向智算应用的算力中心多极分布的“1+1+X”智能算力建设和服务体系,不断完善和深化探索算力、运力、存力协同布局的智能算力基础设施建设,聚焦智能芯片、算法模型、训练框架、计http://bdb.shandong.gov.cn/art/2024/4/1/art_329234_10326855.html
4.以算力算法强大大数据应用以创新生态壮大大数据产业6月10日,省委书记楼阳生在山西同方知网公司调研,了解大数据平台建设和应用情况。山西日报记者李联军摄 山西晚报讯(山西日报记者 陈俊琦)6月10日,省委书记楼阳生在太原市调研大数据产业发展并主持召开座谈会。他强调,要认真学习贯彻习近平总书记视察山西重要讲话重要指示精神和关于实施国家大数据战略的重要论述,以算力算法强大http://epaper.sxrb.com/wap/sxwb/20200611/506453.shtml
5.贵州省大数据局印发《面向全国的算力保障基地建设规划》贵州有着建设面向全国的算力保障基地多维度优势,政策方面,印发《国家大数据(贵州)综合试验区“十四五”建设规划》,提出要持续推进国家大数据综合试验区高质量建设,建成全国一体化大数据中心国家(贵州)枢纽节点。制定《贵州省新型数字设施中长期建设纲要》,提出着力做强数字新基建,将加快建设算力基础设施作为一项重大工作予以https://www.cbdio.com/BigData/2023-04/17/content_6172657.htm
6.全面落地金融业需要大数据大算力大合作大创新吕仲涛表示,大模型技术目前尚未完全成熟,而金融行业是一个强监管的行业。因此,大模型技术应用于金融场景下,仍然存在着安全隐私、科技伦理、可信可解释等方面的风险。同时,大模型技术应用全面落地的过程中,还面临着数据、算力、算法、应用等诸多挑战。 当前阶段不成熟,短期内不建议直接对客使用 https://static.nfapp.southcn.com/content/202309/11/c8090398.html
7.揭秘大模型背后的神秘力量:算力数据与算法的“黄金三角在人工智能的浩瀚星空中,大模型犹如一颗璀璨的新星,引领着技术的前沿。但你是否好奇,是什么让这颗新星如此耀眼?今天,就让我们一起揭开大模型背后的神秘面纱,探索那支撑其辉煌成就的“黄金三角”——算力、数据与高性能算法。 一、算力:大模型的超级引擎 https://cloud.tencent.com/developer/article/2453952
8.周志华:“数据算法算力”人工智能三要素,在未来要加上“知识”今天的人工智能热潮主要就是由于机器学习,特别是其中的深度学习技术取得巨大进展,而且是在大数据、大算力的支持下发挥出巨大的威力。 谈到深度学习,就要谈到深度神经网络。深度神经网络是非常庞大的系统,要训练出来需要很多数据、很强算力的支撑。人工智能算法模型对于算力的巨大需求,也推动了今天芯片业的发展。例如现在训练http://www.360doc.com/content/20/0811/08/54396214_929604489.shtml
9.AI大模型:大数据+大算力+强算法大模型算力算法数据AI大模型:大数据+大算力+强算法 前言:好久不见,甚是想念,我是辣条,我又回来啦,兄弟们,一别两年,还有多少老哥们在呢? 目录 一年半没更文我干啥去了? AI大模型火了 人工智能 大模型的理解 为什么学习大模型 大模型Function Calling功能增强 大模型接入公司的数据:embeddings&RAGhttps://blog.csdn.net/m0_65555479/article/details/139085917
10.地平线L4级AI芯片单挑英伟达,3岁壁仞创全球算力纪录,国产芯开挂了何为大模型?通俗讲,就是“大数据+大算力+强算法”的结合产物,是实现人工智能应用的载体。 如鹏城—百度·文心大模型,是去年底百度发布的全球最大的中文单体模型,并已大规模应用于百度搜索、信息流、智能音箱等产品。在金融领域,该模型能完成一份合同内近40个类目条款的智能分类,将处理单份合同文本的时长缩短至1https://www.jfdaily.com/wx/detail.do?id=523435
11.数据算法和算力:人工智能时代的三要素工业互联网观察当前的时代,无时无刻不在产生大数据。人手一部的手机、无处不在的摄像头和传感器等设备都在产生和积累着数据,这些数据形式多样化,大部分都是非结构化数据。 这些大数据需要进行大量的预处理过程(特征化、标量化、向量化),处理后的数据才能为人工智能算法所用。 https://www.shangyexinzhi.com/article/10565456.html
12.“移”起AI+丨“人工智能+”行动,中国移动怎么干?大平台派上“大用场” 模型不是直接“跑”在算力上,还需要平台来连接算力和应用,需要通过各种各样的平台工具,实现基础模型、行业模型到应用的跨越。中国移动自主研发的“九天”人工智能平台,就是面向个人及行业客户提供从算力、数据、算法框架到研发工具的全栈AI服务,并面向通用智能及大小模型训推场景,实现全面升级。https://www1.10086.cn/aboutus/news/groupnews/index_detail_49938.html
13.多城共同点亮人工智能算力网络,赋能人工智能产业发展深圳、武汉、西安、成都、北京、上海等21个城市共同点亮“人工智能算力网络”,通过“一网络”实现“算力、数据、生态”三汇聚,以“大算力+大数据”使能大模型,会上也发布了全球首个三模态大模型紫东.太初和生物信息研究平台鹏程.神农,通过大模型孵化新应用,推动AI产业发展。https://www.huawei.com/cn/news/2021/9/huawei-connect-2021-ai-matrix
14.美国最新芯片管制对国内供应链的影响华强资讯AI的发展离不开大算力、强算法、大数据三大要素。其中,大算力相当于人工智能的土壤,没有大算力的支持,就不会有AI的成功。 美国的“如意算盘”:卡住AI芯片的“脖子” 为了限制中国人工智能等高科技产业的发展,早在2022年10月7日,美国政府就规定算力上限为4800(INT8 超过 600TOPS 或 FP16 超过 300TFLOPS)以及带https://news.hqew.com/info-371137