在12月20日举行的「WAVESUMMIT+2020深度学习开发者峰会」上,飞桨平台交出了一份非常亮眼的年终成绩单。
2020年,是不平凡的一年:这一年,人工智能全面进入落地期,与各行业深度融合,也更加深刻地改变了人类社会。
数以千万计的开发者,正扮演着越来越重要的角色。像百度飞桨这样的产业级深度学习平台,也为产业智能化贡献着更多的力量。
本届峰会,百度飞桨带来八大全新发布与升级,有支持前沿技术探索和应用的生物计算平台PaddleHelix螺旋桨,开发更加便捷的飞桨开源框架2.0RC版,端云协同的AI集成开发环境BMLCodeLab,支持更强大分布式训练的业界首个通用异构参数服务器架构,开源算法库增至200+,飞桨企业版EasyDL智能数据服务升级,飞桨硬件生态路线图以及携手全球开发者开启「大航海」计划。可见飞桨技术与生态发展的步调越来越快。
飞桨是一个开源的平台,既受益于开源,也反过来促进了开源社区的发展。在谈到开源开放的重要性时,百度CTO王海峰表示,「开源开放对人类社会过去几百年科学和技术的发展起到非常重要的作用,让我们可以更快追踪到最新的技术进展,并将改进意见以及创新思想迅速进行反馈,形成一个正循环,进一步推动科技的创新迭代。当下,中国开源力量正在影响全球的科技创新。同时,在以深度学习为代表的人工智能发展浪潮中,产业界已经成为驱动开源开放的重要力量。而成熟的开源开放技术生态与开放平台,也正在推动社会各界加快融合发展。」
这是在飞桨平台与开发者的共同努力下,短短半年内取得的卓越成绩,且它的未来更加可期。
接下来,让我们打开百度飞桨这份2020年度成绩单。
飞桨的跨界:生物计算平台「螺旋桨」发布
人工智能是新一轮科技革命和产业变革的重要驱动力量,飞桨在这场时代变革中成为了承载体。作为AI开发的基础设施,飞桨和人工智能一起在向更多的行业、地域和领域发挥着价值。在人工智能技术和生物计算领域的结合上,百度已经做出了一系列尝试和探索。
在本次的WaveSummit+峰会上,百度正式发布了生物计算平台「PaddleHelix螺旋桨」。这个人工智能和生物计算领域结合的平台,是飞桨的一次「跨界」。
该平台先期将开源螺旋桨生物计算开源工具集,提供包括RNA二级结构预测、大规模的分子预训练、DTI药物靶点亲和力预测以及ADMET成药性预测等在内的新药研发和疫苗设计环节的核心能力,帮助生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴,更便利地构建AI算法模型。
编程一致、动静统一:飞桨开源框架迎来2.0RC版本
作为国内开源最早、技术领先、功能完备的产业级深度学习平台,飞桨一直在进行迅速地迭代。在本次的WaveSummit+峰会上,百度深度学习技术平台部高级总监马艳军宣布:飞桨开源框架2.0RC版本正式发布。
经过两年的研发,新版本能够给开发者带来「编程一致、动静统一」的全新开发体验。这一体验的实现,离不开飞桨在以下几个方向的重要创新和升级。
动态功能走向成熟,默认开发模式升级为动态图模式
为了兼顾两种编程范式的优势,飞桨2.0RC将默认的开发模式正式升级为动态图模式。开发者可以随时查看变量的输入、输出,方便快捷地调试程序,还可以使用Python原生的控制流(如:if,for等)灵活组网。
然而,动态图的模型在使用C++部署时会面临巨大的挑战。对此,新版飞桨提供了完备的动转静支持,在Python语法支持覆盖度上达到领先水平。在动态图编程调试的过程中,开发者仅需添加一个小小的装饰器,就可以无缝平滑地自动转静态图训练部署。同时,2.0RC版本的飞桨还做到了模型存储和加载的接口统一,保证动转静之后保存的模型文件能够被纯动态图加载和使用。
全新升级的API体系
如果说深度学习框架是开发者们在AI海洋中乘风破浪的动力引擎,那么API就是这个引擎的控制面板上的按钮,是深度学习框架威力发挥的直接入口。飞桨开源框架2.0RC版本升级了整个API体系,使其更加简洁、系统,还能向前兼容。
在开发过程中,开发者往往需要以一种更加简单、快捷的方式应用API,完成数据增强、建立数据流水线等可以标准化的工作流程。针对这个需求,新版飞桨提供了更适合低代码编程的高层API,允许开发者用10行代码编写完成训练部分的程序。而且,这些高层API和基础API可以灵活地交叉使用,让开发者在简捷开发与精细化调优之间自由定制,改变了很多开源框架高层API和基础API割裂的局面。
说到这里,很多开发者可能会问,这个新的API体系迁移成本高不高?马艳军在会场强调,「我们是完全向前兼容的」。此外,飞桨还提供了专门的迁移工具和新旧版本的API对照表,以降低开发者的迁移成本。
更好地支持深度概率编程等前沿学术研究
飞桨2.0RC「编程一致,动静统一」的编程体验对深度概率编程、量子机器学习开发等前沿技术研究也有巨大的支撑作用。
此次大会上,清华大学计算机系教授、深度学习技术及应用国家工程实验室副主任朱军介绍了珠算深度概率编程与百度飞桨的合作,依托飞桨框架成熟的底层功能和动静统一的开发体验,更好地支持深度概率编程工具开发和前沿技术探索。
在设计上,珠算底层复用了飞桨框架的核心能力,实现了动态图编程。它还基于飞桨的全新API体系实现了进一步的丰富和扩展,增加了BayesianNet、StochasticTensor等特色组件,丰富了底层概率库,让开发者能够轻松地完成深度生成模型建模、变分推断、蒙特卡洛采样等应用,有力支持了深度概率编程领域的研究与探索。
在量子机器学习开发方面,飞桨框架新增了对复数计算方面的支持,成倍地提升了复数运算的效率,基础复数运算速度最高可提升22.3倍。此外,飞桨还优化了复数Tensor运算的写法,简化了使用量桨开发模型的代码实现规模,助力量桨进一步提升了性能和易用性。
业内首个通用异构参数服务器架构
伴随着2.0RC版本的发布,飞桨还宣布了大规模分布式训练的升级,正式推出业内首个通用异构参数服务器架构。
在搜索推荐领域,模型通常具有大规模稀疏特征,训练时是一个IO密集型任务。这种任务适合用CPU搭建的参数服务器架构来完成。但为了追求更好的效果,开发者通常需要在推荐模型中增加越来越多的复杂网络结构,使得训练算力成为瓶颈。
算力不够,加GPU行不行?首先,传统服务器架构往往要求硬件类型一致,无法加入算力较强的GPU等硬件。其次,GPU等硬件不擅长IO密集型任务,因此我们也不能用GPU完全取代原来的硬件。
在这种背景下,飞桨推出了首个异构服务器训练架构,实现了异构硬件的自由混布,能够实现数据的独立存取传输,大幅提高了数据吞吐量。此外,它还通过流水线机制提高了训练速度,通过多种通信策略提高了带宽的利用率。
测试结果表明,在相同的硬件条件下,飞桨的异构参数服务器架构比单纯的非异构参数服务器架构性能提升了65%以上。
开源算法库全面升级
开源算法库的升级也是新版飞桨的一个重大更新。新版飞桨官方支持的算法从140+个扩充到200+个,涉及各个领域,而且都升级到了动态图实现。
飞桨企业版两大新特性发布
除了以上发布的全新内容外,飞桨企业版还迎来了两大新特性的发布。
全新AI集成开发环境BMLCodeLab
很多AI开发者都遇到过「想做模型训练,本地机器资源不够用」、「租云服务器好贵,机型少不稳定」等问题。基于开发者的痛点,百度飞桨企业版推出了全新的端云协同AI集成开发环境——BMLCodeLab。
BMLCodeLab在基于JupyterLab优秀功能的基础上,引入了微软MonacoEditor-VSCode的编码体验,支持任何编程语言的代码补全、用法提示、多光标等IDE功能,实现了50多个体验优化项。
为了达到开箱即用的效果,BMLCodeLab集成了许多高性能的AI工具组件,比如高性能单机引擎,相比开源Pandas/Sklearn加速性能平均高6倍以上;还有飞桨文心(ERINE)NLP开发套件,将数据标注、算力投入、开发时长等成本大幅降低。
另一个非常有特色的功能是端云协同。BMLCodeLab可通过云端仓库把本地的代码、数据、模型上传到云端,在大数据量和大计算量的情况下,将本地任务无缝扩展到云端。
智能数据服务平台EasyData
随后,百度AI平台研发部总监忻舟介绍了智能数据服务EasyData的升级。
在智能数据标注方面,EasyData通过核心算法、算法流程、硬件的升级,将智能标注的时长平均减少了74%,在物体检测和图像分割上的准确率分别提升了6.4和3.2个点。
EasyData的多人标注功能能够解决数据分发、标注结构审核等问题,将数据集和标签管理进行了拆分,让开发者更加灵活地使用数据。
第三个新特性是高级智能清洗,可自动过滤无人脸、无人体的数据,广泛应用于安全生产、视频监控等场景。
此外,飞桨的生态建设离不开广大的生态伙伴。为了加快生态建设,飞桨在5月份发布了硬件生态圈共建计划。在半年之后的今天,马艳军宣布:飞桨硬件生态路线图正式发布。
从图中可以看出,整个飞桨已经与20家硬件企业达成合作,目前正在适配和已经完成适配的芯片和IP的型号已经有29种,并且在国产硬件的支持方面遥遥领先,加速了国产AI产业链适配升级。
产业共进、人才共育、开源共建:AI大咖共话未来发展
开源以来,飞桨一直秉持开源开放、技术创新,产学研用通力融合,从产业应用、人才培养、开源社区三个维度全面推进生态繁荣,助力产业智能化升级。在本次的WaveSummit+大会中,多位大咖围绕「产业共进」、「人才共育」、「开源共建」探讨了深度学习的未来发展问题。
在「开源共建」环节的圆桌论坛上,百度飞桨总架构师于佃海邀请了复旦大学计算机科学技术学院教授邱锡鹏、北京大学信息科学与技术学院前沿计算研究中心助理教授董豪、PreAngel合伙人李卓桓、Zilliz创始人兼首席执行官星爵等人共同探讨了AI开源项目的创建与维护经验。
从左到右:于佃海、董豪、邱锡鹏、星爵、李卓桓
如何打造一个成功的AI开源项目?嘉宾们认为,首先要保证实现「生态」和「技术」两个闭环,做开源项目和创业十分相似,找到一个好的「选题」是重中之重,而项目成员的多样性,能够促使项目后期去探索无限的可能性,此外还需要一群优质的、多元化的开发贡献者。
开源开放的飞桨促进了AI产学研社区的发展壮大。其实,这不仅是我们的主观感受,还体现在飞桨平台的一些数据中。在大会上,百度集团副总裁吴甜为我们解读了其中的一些数据。
当然,AI社区的持续壮大离不开人才培养。而在这方面,基于在产品、技术、生态各个方面的积累,飞桨已经准备就续,准备全面开启大航海计划。
大航海计划包括领航、启航和护航三个部分,领航计划面向核心开发者群体,践行开源布局理念,永当AI时代的先行者,领航前行。护航计划面向产业界,通过企业培训、技术咨询、技术服务等方式护航企业智能化转型,启航计划面向人才培养,通过校企合作、产教融合开启AI人才培养的新篇章。在本次峰会上,飞桨正式发布了启航计划,预计在未来三年投入总价值5亿元的资金与资源,支持全国500所高校,联合培养50万关键AI人才。
在峰会上,百度、LFAI&DATA基金会、深度学习技术及应用国家工程实验室也联合为97位飞桨社区核心开发者颁发了「PPDE飞桨开发者技术专家」证书,作为对开源开放工作的鼓励与支持。
百度副总裁徐菁现场为AI濒危物种保护项目、AI文物保护项目、AI沙漠栽树机器人项目三支团队颁发了2020年度AI公益合作项目证书并授予星辰计划基金。
左上:王爱华、吴甜为产业应用奖获奖项目颁奖、右上:徐菁颁发星辰计划基金;左下&右下:张伟民、朱军为飞桨技术开发者技术专家颁发证书
时隔半年,人们再次见证了百度飞桨在开源开放之路上的巨大进步。驱动这种核心力量的正是每一位飞桨平台的开发者,265万飞桨开发者的每一步,都将推动中国人工智能领域走向全新的方向。