业界首发行业大模型,落地3大关键路径,百度的大模型是这么用的文心算法

这次的WaveSummit,我们聊聊大模型,但重点不是参数。

具体来说,他们从三个方面开展工作:第一是建设更适配应用场景的模型体系,包含学习了足够多数据与知识的基础大模型、面向常见AI任务专门学习的任务大模型、以及引入行业特色数据和知识的行业大模型;第二是要有更有效的工具和方法来让大模型发挥作用,充分考虑落地应用的全流程问题;第三是要有开放的生态,以生态促创新。这些内容都包含在最新的文心全景图中。

作为支撑文心大模型走向规模化生产和产业级应用的重要平台,飞桨也在同一天迎来了重要升级。最新版的飞桨全景图包含技术、场景、生态三大领域的六大全新发布,旨在夯实工业大生产强大底座,加速AI规模化落地。

这次WAVESUMMIT的所有发布,都折射出百度对人工智能新发展趋势的思考。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在演讲中表示,人工智能越来越普惠,赋能千行百业,惠及千家万户。2019年,在第一届WaveSummit深度学习开发者峰会上,王海峰提出,深度学习具有很强的通用性,并具备标准化、自动化和模块化的工业大生产特征,推动人工智能进入工业大生产阶段。三年来,深度学习技术、平台和产业应用的发展正是这一观点的最好验证。王海峰指出,在AI工业大生产阶段,深度学习技术的通用性越来越强,深度学习平台的标准化、自动化和模块化特征越来越显著,深度学习应用越来越广泛且深入,已经遍地开花。

AI大模型是深度学习技术的新突破,进一步增强了AI技术的通用性,也让广大深度学习开发者可以更低成本、低门槛,助力普惠AI。吴甜表示,今年是大模型产业落地的关键年。

以下是百度为这个「关键年」所贡献的解法。

3+1+1:百度文心贡献大模型落地新解法

AI大模型作为深度学习技术的新突破,是普惠AI的重要助推力。此次飞桨大模型的架构升级可以概括为「3+1+1」,即三类大模型+一套工具平台+一个生态系统,并发布了10个新的大模型,其关键词是「产业级」和「知识增强」。

三类大模型

此次新增的10个大模型可以分成三个不同的层次,包括基础通用大模型、任务大模型、行业大模型三大类。

为什么要把模型分成这些层次?吴甜解释说,基础大模型和应用场景之间其实存在鸿沟,因为它只是掌握了通识知识,缺乏对特定任务和行业知识、行业know-how的深入了解,因此在应用到特定场景、特定行业时可能无法达到性能最优。

为了弥合这一鸿沟,文心大模型此次最重要的升级是业界首次发布行业大模型,旨在为行业头部企业搭建AI基础设施,共同推进大模型在行业的深度应用。

一套工具平台

在提及上述三类模型时,吴甜把它们比作齐头并进、奔向产业应用的三驾马车。但好马还要配好鞍,要想让不同算法能力的开发者都能方便、快速地使用文心大模型,全面释放大模型的使用效能,配套一些开发套件、平台并开放一些API是非常必要的。

此次新发布的文心大模型套件包括四方面的能力:

在平台层面,使用者可以通过飞桨的EasyDL和BML开发平台直接调用文心大模型的能力,因为这一能力已经内置在两个开发平台中。在这两个平台上,超过1万名用户使用了文心预训练大模型进行开发,累计创建了3万多个任务。平台数据显示,在使用了大模型技术之后,数据标注量平均降低了70%,模型效果平均提升了10.7%。

在API层面,文心大模型此次开放了4个大模型的API服务供使用者直接调用,包括:

这些API可以让开发者低门槛享受大模型带来的收益。

一个生态系统

在扫除了种种障碍之后,百度的文心大模型已经在保险、银行、农业、工业、生物医药、搜索引擎等多个领域得到了应用。但我们也知道,在世界范围内,大模型的应用其实都还处在探索阶段,还有很大的创意和探索空间。

为了促进文心大模型惠及最广泛的行业与人群,把最新大模型API试用提供给更多人,文心大模型宣布将共享飞桨生态,同时新发布了基于文心大模型的创意社区——旸谷大模型创意与探索社区。「旸谷」在传说中是「日出的地方」,百度希望借助这个社区进一步把智能化能力带到千行百业,带到所有人面前。

六大全新发布,飞桨要做最懂中国AI场景的深度学习平台

我们经常开玩笑说,大模型都是用「钞能力」堆出来的。但我们也知道,要想训练出千亿参数大模型,光有钞能力是不够的,还需要一个成熟的开发、训练、推理平台做支撑。对于文心来说,这个支撑就是飞桨。它是产生和应用大模型的关键。

在这次的WaveSummit大会上,飞桨迎来了六项重要发布,技术、场景、生态三大领域都有了进一步深化。

在技术领域,飞桨框架推出了最新的2.3版本,开发、训练、推理部署全面升级,提升了深度定制开发和自动化能力。

为了满足真实产业场景的很多刚性需求,进一步推动AI规模化落地,飞桨发布了训推一体导航图、产业模型选型工具、PaddleScience赛桨、飞桨移动工作站和深度学习实践教辅书。

此外,为了共建中国最强大的AI开发者生态,飞桨的「大航海」2.0共创计划新增了产业实践范例库、AIforScience、硬件生态三个领域共创计划。

飞桨框架v2.3:定制化、自动化、上云需求统统满足

具体来说,飞桨框架v2.3涉及四个方向的核心升级。

一是灵活的深度定制开发。一个深度学习框架有大量的开发接口可以直接调用,但如果想要实现一些比较定制化的功能,你需要对框架底层的很多功能进行改造。为了满足高阶开发者的这种深度定制开发需求,飞桨框架v2.3推出了高复用性算子库,极大地降低了开发成本,典型算子内核(如einsum)代码量可以降低至业内领先水平。

此外,飞桨框架的通用异构参数服务器架构也实现了升级,这项技术解除了传统参数服务器模式必须严格使用同一种硬件型号Trainer节点的枷锁。升级后的通用异构参数服务器适配新硬件代码量从万行减少至千行,仅需添加图采样策略即可实现GPU三级存储图检索引擎。

二是自动调优的高性能训练。对于开发者来说,把一个深度学习框架性能调到最优是非常具有挑战性的,需要大量背景知识。针对这一困难,飞桨框架v2.3推出了业内首个全流程性能自动调优方案,充分发挥软硬一体融合优势,关键环节感知硬件特性自动调优。有了这个方案,开发者无需了解硬件特性,即可获得与专家级手工优化水平相当的性能。

三是自动化压缩与高性能推理部署。模型压缩牵扯到整个训练推理的全部流程以及硬件特性,想要做好是非常具有挑战性的。为此,飞桨框架v2.3推出了业内首个自动化压缩功能,通过蒸馏微调解除对模型训练代码的依赖,感知硬件延时,自动选择最优压缩方案,压缩精度与手工方法相当,代码量减少50%以上。此外,它的高性能推理引擎还能实现端到端深度优化,端、边、云多平台推理性能全面提升。

四是云上飞桨。当前,深度学习的规模正变得越来越大,很多的训练、推理任务需要多个算力中心协同,还要兼顾算力中心的数据隐私需求。为此,飞桨框架v2.3推出了业内首个异构多云自适应分布式训练架构,支持多个算力中心联合训练。此外,它还推出了飞桨专属云上部署编排工具,仅需两行配置,即可定制云上开发部署环境,用户基于多套件多模型配置模板,可快速完成多模型自由组合,实现AI应用高效落地。

训推一体导航图:为开发、训练、部署全流程趟出过千条完整路径

在AI实际应用的过程中,模型的部署一直是一个让人头疼的问题。在某些深度学习平台上,如果你想把训练出的模型部署到不同的芯片、不同的硬件设备上(比如服务器、手机),你就需要针对每种情况进行额外开发,这种训练和推理解耦的情况对于开发者来说是非常痛苦的。

飞桨的训推一体旨在解决这个问题,它能让模型在训练完成后立即在不同的芯片、不同的硬件设备上进行部署,在各个场景中做推理。在去年发布的「推理部署导航图」中,飞桨展示了300多条部署通路,深刻诠释了飞桨在打通AI应用最后一公里所做出的不懈努力。

飞桨去年发布的推理部署导航图

在今年的WaveSummit上,这个导航图升级为训推一体导航图,打通了模型的开发、训练、推理部署整个流程,为AI产业应用的落地提供了全流程智能导航。

飞桨今年发布的训推一体导航图

产业模型选型工具:专治「选择困难症」

在2018年刚推出的时候,飞桨上只有十几个模型,如今几年过去,这一数字变成了几百个。在本次WaveSummit上,百度AI技术生态总经理马艳军宣布,飞桨产业级开源模型新增100多个,总数达到500+;结合产业实际场景、精心打造的精度与性能平衡PP系列特色模型由13个新增至23个;产业实践范例由原来的22个增加到47个。这无疑给了用户更多选择,但也带来了困惑:模型、范例那么多,哪个适合我?「产业模型选型工具」就是用来解决这个问题的。

这个工具根据用户输入的「场景任务」、「需求指标」、「标注文件」等展开需求分析,然后给出自己的推荐结果,告诉你选择哪个模型、硬件和产业实践范例更好。产业实践范例是飞桨团队与各个行业的企业共同建设的,里面包含任务实现的整个流程,可以降低AI应用落地门槛。

PaddleScience赛桨:比量桨、螺旋桨更通用的科学计算工具集

2020年,飞桨团队发布了量子机器学习开发工具集量桨(PaddleQuantum)和生物计算平台螺旋桨(PaddleHelix)。在此基础上,飞桨今年又发布了一个更加基础、通用的工具集——赛桨(PaddleScience)v1.0Beta,具备支持多领域多场景算例、丰富的算法和开发接口、端到端核心框架功能支持、广泛适配异构硬件四大优势,支持的科学领域要更加广泛。

这几个工具和与之配套的算力、框架、算例、场景一起,组成了最新的飞桨AIforScience全景图。

飞桨移动工作站:把EasyDL拎进车间

针对那些数据保密度极高的行业,飞桨推出了一款便携式可移动的AI工作站,解决数据「不能出工厂」甚至「不能出车间」的问题。

飞桨企业版重磅发布的飞桨移动工作站,是以便携式可移动工业加固计算机为硬件底座,集成显示屏/键盘等输入输出设备,专为人工智能任务设计,最多可支持2张350W功耗的AI加速卡。具备宽温、稳定性强、抗干扰能力强等特点。特别适合工业级环境使用。

飞桨移动工作站搭配EasyDL桌面版和智能边缘控制台,实现了训推一体和边端协同的全流程AI开发和应用。适应诸多移动作业场景,如教育教学、公安/交通移动执法、临时指挥布控、防疫检测作业、产线临时采样检测等。一体化解决模型开发、部署、迭代问题。

深度学习实践教辅书,培养更懂应用的AI人才

为帮助开发者更好地理解深度学习框架运行机理、掌握深度学习实践知识,飞桨在本次峰会上联合浙江大学上海高等研究院常务副院长、浙江大学人工智能研究所所长吴飞教授,以及复旦大学计算机学院邱锡鹏教授分别发布了深度学习实践教辅书《人工智能导论:案例与实践》和《神经网络与深度学习:案例与实践》。借此,飞桨希望将产业实践与理论教学深度结合的教辅书能够进一步完善人工智能领域教学资源,向产业输送更懂应用的AI人才。

三大共创计划,共建飞桨生态

在生态领域,飞桨已经有了非常成功的实践,尤其是在硬件领域。截至目前,飞桨已经适配了30多款国内外最主流的芯片,不少芯片厂商也推出了针对自家芯片优化的飞桨版本,比如英伟达。这是过去两年开展的共聚、共研计划结出的果实。

在此基础上,飞桨更进一步,提出了「共创计划」,而且这次不仅涉及硬件,还新增了产业实践范例库和AIforScience两个领域。这两个领域知识跨度都非常大,开源共建、产学研结合将是非常理想的发展方式。

稳居中国深度学习平台市场综合份额第一,飞桨是怎么做到的?

过去的几年,飞桨一直在高速发展。截至2022年5月,飞桨平台开发者规模达到477万,平台上的企业和开发者共同创造了56万个AI模型,服务企事业单位18万,广泛应用于工业、农业、金融、医疗、能源、物流等各行业。IDC的报告显示,飞桨在中国深度学习市场中的综合份额已超越其他国际巨头,成为中国第一,稳居中国深度学习平台市场综合份额第一。

这个「第一」的取得包含很多因素。第一个因素是前面提到的动静统一、训推一体、大规模分布式训练、各种自动化技术等核心产业级技术能力。

从事智能编程机器人产品研发的某一线算法工程师告诉机器之心,从大规模分布式训练的角度,他感觉飞桨的分布式训练APIFleetX用起来非常方便,基本上只需要配置到底使用什么样的分布式策略,就能将单机模型改为可以进行大规模分布式训练的模型。而且本来PaddleNLP模型库就有很多大规模分布式训练的例子,改起来非常方便。此外,在分布式训练的过程中,框架的运行也很稳定,没有出现过NaN问题,学习率、梯度、损失都非常正常,分布式训练的中断、加载权重以继续训练都没有问题。值得注意的是,飞桨的保存与加载用起来也很方便,不需要手动做多余操作。

上述算法工程师提到,他认为PaddleNLP在推理方面做得比较好的一点是能对接NVIDIA之前开发的FasterTransformer,其用CUDA底层重新写了一遍Transformer模型,并向上提供一些高效的API,这样一般类似Transformer的模型就能编译为可高效运行的算子,并通过C++高效地调用、嵌入到应用中。所以总体来看,他觉得,「从分布式数据迭代器、分布式训练到推理,飞桨把整个模型的训练与应用都打通了,算法工程师也不需要多少额外的开发工作就能完整地跑通,所以还是很好用的。」

结语

纵观历史,每一次科技革命都是由一项通用性技术的突破来驱动的,第一次是机械技术,第二次是电气技术,第三次是信息技术。这些技术往往从少量场景开始,然后逐渐走向标准化、自动化和模块化,并最终实现人类社会生产力的提升,我们管这种现象叫做工业大生产。

在我们所身处的第四次科技革命中,深度学习技术在人工智能的各个方向上已经表现出良好的通用性。而预训练大模型的兴起,使得人工智能的通用性进一步增强。吴甜表示,目前飞桨已构建了业内布局最全、最适宜产业应用的模型库体系。大模型作为人工智能应用的「基础设施」,不仅拓宽了场景覆盖的广度,更加深了产业应用的深度。文心大模型将持续降低应用门槛,推动产业智能化升级,让人工智能技术惠及每一个人。

与此同时,深度学习平台的工业大生产特征也越来越显著。王海峰表示,「基于飞桨平台,人人都可以成为AI应用的开发者。」

THE END
1.飞桨alstudio使用tensorFlowmob64ca140a59b0的技术博客1、飞桨Paddle Serving企业级部署 Paddle Serving 依托深度学习框架 PaddlePaddle 旨在帮助深度学习开发者和企业提供高性能、灵活易用的工业级在线推理服务。Paddle Serving 支持 RESTful、gRPC、bRPC 等多种协议,提供多种异构硬件和多种操作系统环境下推理解决方案,和多种经典预训练模型示例。 https://blog.51cto.com/u_16213658/12779477
2.如何快速使用百度飞桨(PaddlePaddle)在AIStudio上创建一个新的项目来进行机器学习或深度学习实验。 点击页面上方的“项目”按钮,并选择“创建项目”。 根据提示填写项目信息并创建项目。 6. 使用Notebook Notebook是百度飞桨AIStudio的一个重要功能,用于编写和运行代码。 在页面中选择“笔记本”选项卡,可以看到预配置的编程环境。 https://blog.csdn.net/wsl3465205046/article/details/140775701
3.百度飞桨平台官网,paddlepaddle,开源深度学习平台别摸鱼导航快速安装,本地快速安装,开发灵活,推荐有深度学习开发经验、有源代码和安全性需求的开发者使用! 百度飞桨平台官网:https://www.paddlepaddle.org.cn/ 数据评估 百度飞桨浏览人数已经达到723,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据https://biemoyu.com/sites/paddlepaddle.html
4.百度飞桨平台官网,paddlepaddle,开源深度学习平台快速安装,本地快速安装,开发灵活,推荐有深度学习开发经验、有源代码和安全性需求的开发者使用! 百度飞桨平台官网:https://www.paddlepaddle.org.cn/ 数据评估 百度飞桨浏览人数已经达到870,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据https://feizhuke.com/sites/paddlepaddle.html
5.飞桨(PaddlePaddle)是一款由百度公司开发的开源深度学习平台飞桨(PaddlePaddle)是一款由百度公司开发的开源深度学习平台,旨在为开发者提供简单易用、高性能的深度学习框架。飞桨集成了深度学习的核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件,适用于各种深度学习应用场景。 飞桨平台提供了多种功能,包括: https://www.openmao.cn/sites/4667.html?menu-id=196&mininav-id=1079
6.AI大国博弈深度学习平台好在,中国企业还是能有办法避免“地震”,这就不得不说到百度的深度学习平台飞桨(PaddlePaddle)。 我们可以看一看飞桨的全景图。 飞桨集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,囊括支持面向真实场景应用、达到工业级应用效果的模型,针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引https://news.pedaily.cn/201907/444847.shtml
7.百度飞桨AIStudio官网,基于百度深度学习平台飞桨的一站式AI开发百度AI Studio是基于百度深度学习平台飞桨的一站式AI开发平台,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。它是一个面向开发者的平台,提供了一整套的开发环境和工具,可以帮助开发者更快速地进行AI模型的开发和部署。 https://www.8kmm.com/sites/9861.html
8.国内最大开源深度学习框架百度飞桨发布21项新内容提供1亿元GPU【Tec hWeb】11月5日,在WAVE SUMMIT+”2019深度神经网络开发人员秋天高峰会上,中国较大的开源系统深度神经网络架构百度搜索飞桨(PaddlePaddle)全新升级公布和关键更新21个商品方位,包含朝向产业链应用领域的四大端到端开发设计模块、结合数据信息和专业知识的预训炼融合迁移学习的飞桨Master方式、端侧逻辑推理模块Paddle https://www.cockor.com/a/11268.html
9.量桨出世!飞桨成为国内首个支持量子机器学习的深度学习平台在谷歌开源 TensorFlow 一年以后,百度宣布开源其深度学习平台飞桨(英文名 PaddlePaddle)。飞桨发展到现在,已经具备了开发便捷的核心框架、支持超大规模深度学习模型训练、多端多平台部署的高性能推理引擎和产业级开源模型库等技术。飞桨是中国首个也是目前国内唯一开源开放、功能完备的产业级深度学习平台,正是因为它的出现,https://www.infoq.cn/article/U8rfp0BVLK24Urgg8sgg
10.百度飞桨与第三代英特尔?至强?可扩展处理器为深度学习针对这两点需求,百度开源深度学习平台百度飞桨结合第三代英特尔? 至强? 可扩展处理器给出了令产业开发者满意的解决方案,为深度学习技术在实际场景用落地提供了有力支撑。 关于百度飞桨 百度飞桨以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术先进、功能完备的产业级深度学习平台,集深度https://www.intel.cn/content/www/cn/zh/now/data-centric/creating-speed-security-leverage-points-baidu.html
11.百度飞桨与华为麒麟深度合作,加速智能时代嘲应用风险库百度“飞桨”是目前国内唯一开源开放的深度学习平台,华为“麒麟”是全球领先的端侧AI芯片平台,双方深度合作,为端侧AI提供最强劲的算力,加速中国产业智能化进程。 在2019百度AI开发者大会上,百度CTO王海峰与华为消费者BG软件总裁王成录联合宣布,百度飞桨与华为麒麟芯片达成深度合作,这个重磅消息让人们对智能时代有了更多的http://www.riskbbs.com/paddlekirin.html
12.百度大脑5.0技术干货:详解飞桨五大优势,鸿鹄芯片架构细节据介绍,百度飞桨(PaddlePaddle)是国内唯一功能完备的开源深度学习平台,自Paddle Fluid v1.0发布以来,飞桨陆续在开发、训练和部署全流程上进行全方面的升级。 而在刚刚过去的百度AI开发者大会上,百度CTO王海峰介绍了飞桨的五大优势。 在此,我们根据百度大脑分论坛的介绍,对这五大优势进行更详细的解读。 https://zhidx.com/p/152013.html
13.fromIndustrialPractice(『飞桨』核心框架,深度学习&机器PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署) - PaddlePaddle/Paddlehttps://github.com/PaddlePaddle/Paddle
14.2022服贸会进行时百度吴甜:深度学习平台+大模型加速AI产业落地极客当前,人工智能已经广泛渗透到人们经济生产活动的主要环节,用户对「智能」的需求越来越旺盛。吴甜表示,AI 技术越来越复杂的同时,深度学习平台的标准化、自动化和模块化特征也越来越显著,并正在通过开源开放助力 AI 开发和应用越来越容易。 国内首个产业级深度学习开源开放平台飞桨,为各个产业铺起低门槛、创新升级之路。https://www.geekpark.net/news/307692
15.百度深度学习平台——飞桨全景介绍神秘嘉宾 2116 EasyEdge-百度端计算模型生成平台简介 神秘嘉宾 1950 基于Paddle Lite的移动端目标检测部署实践 神秘嘉宾 1809 基于Paddle Lite的EdgeBoard边缘AI部署实践 神秘嘉宾 2272 视频介绍 课程资料 评价 嘉宾介绍 主题介绍 百度深度学习平台——飞桨全景介绍https://itdks.com/Home/Course/detail?id=117513
16.深度学习与飞桨PaddlePaddleFluid实战飞桨PaddlePaddle Fluid是百度推出的深度学习框架,不仅支撑了百度公司的很多业务和应用,而且随着其开源过程的推进,在很多行业得到普及、应用和关注。 本书基于最新的飞桨PaddlePaddle Fluid版本,以真实的应用案例介绍如何用飞桨PaddlePaddle解决主流的深度学习问题。全书共14章。本书首先介绍了什么是飞桨PaddlePaddle,然后介绍了https://www.epubit.com/bookDetails?id=UB6c964719f6a5a