新版本MindSpore1.3,打造无所不在的智能,诠释可以信赖的开源人工智能人工智能

夏日的阳光已经洒在树梢枝畔,奋斗了又3个月的MindSpore社区开发者们,带着无比的兴奋,为大家献上全新的1.3版本!日益精进的我们,在这个版本中为大家带来了全新的MindSporeFederated能力,解锁了支撑盘古千亿稠密大模型的众多关键特性、以及面向更多类型硬件的推理优化、图算融合、简易部署等新工艺,犹如开源时所誓言,持续不断的为AI开发者带来惊喜。下面就带大家快速浏览1.3版本的关键特性。

MindSporeFederated——支持千万级无状态设备的联邦学习

联邦学习是一种加密的分布式机器学习技术,它是指参与联邦学习的各用户在不共享本地数据的前提下共建AI模型,主要用于解决数据隐私和数据孤岛的问题。MindSporeFederated优先专注于大规模参与方的横向联邦的应用场景。

端云场景下的参与方是非常大量的手机或者IoT设备,其分布规模和设备不可靠性带来了系统异构、通信效率、隐私安全和标签缺失等挑战。MindSporeFederated设计了松耦合分布式服务器、限时通信模块、容忍退出的安全聚合等模块,使得任何时候只要部分客户端可用,都可以进行联邦学习任务,并解决了系统异构带来的“长尾效应”,提高了学习效率。

搭载于MindSpore端边云全场景统一的基础架构,MindSporeFederated将会作为华为终端的核心竞争力之一,在保护用户隐私的前提下,提供更具有个性化的用户信息决策。

查看介绍:

盘古千亿稠密大模型关键特性开源

0.中文语言理解任务评测全球第一

全球最大中文语言预训练模型“鹏程.盘古”,在2021年4月23日权威的中文语言理解评测基准CLUE榜单中,总成绩及阅读理解、分类任务单项均排名第一,刷新三项榜单纪录,总成绩得分83;在NLPCC2018文本摘要任务中,取得了Rouge平均分0.53的业界最佳成绩,超越第二名百分之六十。

1.超大模型关键特性之——分布式推理及在线部署

当大模型推理参数量较大难以部署到一张卡上时,MindSpore可通过OP-Level和PipeLine模型并行将大模型切分到多卡。我们实现了鹏程.盘古2000亿级参数量的模型部署。

MindSporeServing支持分布式模型的在线推理部署,根据模型并行策略切分为多个小图,每个卡部署两个图的各一个小图。下图中,每个卡通过一个Agent进程管理图加载和执行,卡之间通过HCCL进行高速通信,分布式主worker进程和各个Agent进程之间通过gRPC通信,用于请求数据的发送和请求结果的接受。

2.超大模型关键特性之——增量推理(stateresuse)及部署

对于自回归(Auto-regressive)的语言模型,随着新词的生成,推理输入长度不断增大。如果使用动态图执行,在不同迭代间,图中每个算子的shape发生改变,无法利用之前缓存的算子编译信息,会影响性能。我们通过修改推理脚本,实现了增量推理的功能,一次增量推理的流程包含两个阶段:第一阶段推理,输入为全量,将输入padding到固定长度,保存到state,这一阶段是为了处理不定长的输入,将输入的state保存下来;后续推理阶段,输入字长为1,即每次输入上一步生成的token,利用保存的state实现增量推理,产生下一个token并更新state。由于非线性操作的存在,此种增量推理的流程与正常全量推理并不完全等价,不过我们在下游任务推理中发现,增量推理的精度并无明显劣化。我们通过鹏程.盘古在昇腾硬件平台上进行了一系列实验,结果如下图所示:

在增量推理过程中,第一阶段只执行一次,而第二阶段会执行多次,比单纯的全量推理,整体性能提升比较明显。

MindSporeServing支持增量推理模型部署,包括单卡模型和分布式模型场景。使用自定义子图间编排串接两个不同序列长度输入的执行,维护模型的状态,避免多个请求的执行干扰。

查看介绍:

MindSporeLite端云训练

MindSporeLite采用了训练内存复用、virtualbatch、混合精度训练、在线融合、量化等手段对减少端侧训练时的内存占用。同时在联邦学习MindSporeFederated场景下支持云侧对端侧权重的读写,权重采用差分隐私方式进行端云传输进一步保证了端云训练中的安全性。端云训练一般流程如下:

端侧训练特性demo试用:

调试器易用性更上一层楼:图码结合调试和训练回放

作为MindSpore图模式下的调试利器,调试器提供了丰富的检查规则帮助用户快速识别常见精度问题。为了帮助大家更好地在图模式下调试脚本,1.3版本中,我们新增了图码结合调试和训练回放功能。

l图码结合调试能帮助您掌握代码和计算图的关系,通过调试器提供的代码信息,您能够更好地理解计算图背后的代码逻辑,提升精度问题分析效率。

l训练回放是通过离线调试这一全新的试模式实现的,在训练结束后,您可以通过离线调试模式对训练过程进行分析,还能对并行训练(单机多卡)中的精度问题进行分析和定位。

1.图码结合调试:一眼掌握代码和计算图的关系

MindSpore图模式的调试中,如果能方便地找到某行代码所关联的计算图节点,对调试效率将有很大提升。在调试器的帮助下,您可以方便地查看计算图中算子节点和代码的关联关系,无论是以码搜图,还是以图找码,都能在图形界面下快速完成。

以码搜图时,输入想要查找的代码行(例如alexnet.py:52),即可寻找同此行代码关联的计算图节点。如下图所示:

以图找码时,在计算图中选中算子节点(例如Conv2D-op108),即可在堆栈信息中查看该算子对应的代码行。如下图所示:

2.支持离线调试:随时离线回放分析训练过程,节约AI处理器资源

在使用之前的调试器时,要求先启动训练进程,在训练进程运行的过程中对精度问题进行分析。我们提供了离线调试的能力,通过dump功能将调试数据保存到磁盘上,然后就可以在不使用昇腾AI处理器的情况下回看训练过程,分析精度问题。由于数据在磁盘上,离线调试中还可以随意切换正在调试的迭代,回放训练,免去在线调试错过关键迭代后又要从头运行脚本的烦恼

3.支持单机多卡调试:定位并行训练中的精度问题

在离线调试功能的基础上,调试器支持了单机多卡训练的调试。在MindSpore上调试单机多卡的训练时,只需通过dump功能保存数据到磁盘,就可以使用MindInsight可视化地进行分析。调试器中已经提供的监测点,例如检查梯度消失,检查激活值饱和,检查权重不更新等,都可以继续在此场景下使用。图码结合调试同样支持单机多卡。查看教程:

推理优化——X86_64CPUPC推理能力

为了更好的支持PC侧推理,x86_64从汇编层面入手,支持针对不同卷积shape的动态block切分,充分利用寄存器等硬件资源,使我们推理性能达到极致,较上个版本推理时延有了10%~75%+的提升。我们在IntelCorei7-8700CPU上与OpenVINO(2021.3.394)、MNN(1.2.0)、TNN(v0.3)在几个经典CV类网络上进行benchmark测试,从测试结果可以看出MindSporeLite保持了较高的水平。

更多推理性能优化

图算融合加速MindSpore网络训练

同时,在易用性方面我们新增了环境变量的控制方式,使得用户不需要对网络代码做任何侵入修改,即可享受图算融合带来的性能收益:

exportMS_GRAPH_KERNEL_FLAGS=”–opt_level=2”

我们选取了部分主流的网络(NLP、推荐及CV)开展性能对比评测,使用图算融合的有普遍的性能提升,提升详情如下图所示:

通过分析实时传感器计数、历史天气记录、结构工程数据以及卫星图像等输入,AI模型可以更好地预测危机可能在何时/何地发生。除了预测之外,AI科技还能够在危机期间做出更细致的决策:机器学习算法可以确定安全的救援路线,评估基础设施遭受的潜在破坏,并优先考虑在最需要的区域内选择发放清洁水、食物及医疗用品的最佳地点。

银行控股企业AllyFinancial在监管严格的行业中运营,开发了一个平台来利用生成式AI,同时保持严格的数据安全和治理。

美国奥克兰港口(PortofAuckland)的数据团队正在通过数据驱动的洞察力彻底改变决策,应对云迁移和AI挑战,倡导STEM领域的多样性。

THE END
1.相比于离线训练,在线训练的好处有什么?问答离线训练毕竟使用的是 T-1 或者 T-2 的数据去做的,没有对线上实时产生的行为数据进行利用,对于数据的时效性利用相对较差。 比如说,有这样的一个场景,今天我的整个平台只对 14 岁以下的少女做某个运营活动,而平台上充斥了大量的年龄段的客户,整个平台的交互行为都变了,这个时候你的模型还是 T-1 去做的,将https://developer.aliyun.com/ask/446535
2.蚂蚁金服核心技术:百亿特征实时推荐算法揭秘备注:弹性特征带来一个显著的优势:只要用足够强的L1稀疏性约束,在单机上就能调试任意大规模的特征训练,带来很多方便。我们的hashmap实现是KV化的,key是特征,value是vector的首地址。 离线训练优化 经过这样的改造后,在离线批量学习上,带来了以下变化: 在线训练优化 https://maimai.cn/article/detail?fid=1010621115&efid=mIQCHnkj0zjxlpygUmo5mg
3.科学网—[转载]群视角下的多智能体强化学习方法综述基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方处于策略解耦合状态,与离线批(batch)式策略学习方法不同,在线博弈对抗策略的求解本质是一个流https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
4.深度学习难分样本挖掘(HardMining)数据派关键是找出影响网络性能的一些训练样本,针对性的进行处理。 简单来说就是把难分的样本,剔除出来,放到另外一个地方里面。最后将难分样本,给负样本,加强训练分类器。但是,这样又会造成数据不平衡的问题,下面会讲到。 03、方法:离线和在线 在样本训练过程中,会将训练结果与GroundTruth计算IOU。通常会设定一个阈值(0.5https://www.shangyexinzhi.com/article/4713934.html
5.粗排优化探讨得物技术离线在线一致性分析 待补充实际效果 四 样本设计 粗排相较于精排样本选择偏差(SSB)的问题更加严重,借鉴召回经验,可以通过适当采样减少偏差。采样设计的目的也是希望离线训练样本尽可能与线上分布一致。 样本选择方法 负样本可选范围: 曝光未点击样本; 全库除转化外样本; https://blog.itpub.net/70027824/viewspace-3000851/
6.基于Kmeans聚类的CSI室内定位AET对于单个天线对得到fin,对于m个天线的每个天线对使用Kmeans算法,得到训练向量: 2.2 在线定位阶段 在线定位阶段采用与离线训练阶段相同的方法提取到m个天线对的指纹: 将提取到的指纹与训练阶段建立的数据库中的指纹作比较,即将获取到的第i个天线对的指纹矩阵与数据库中的第i个天线对的指纹矩阵,进行两个指纹矩阵中任http://www.chinaaet.com/article/3000057028
7.离线学习(训练)和在线学习(训练)在线训练和离线训练文章浏览阅读1.4w次,点赞4次,收藏4次。https://blog.csdn.net/a133521741/article/details/79221015_在线训练和离线训练https://blog.csdn.net/sinat_40966515/article/details/100073130
8.编程入门实战训练CodeCamp在线编程实战CodeCamp, freeCodeCamp, 在线编程实战训练,是一个以操作实验为基础的编程训练营,它包含了HTML,CSS,Javascript,jQuery,Bootstrap等编程语言编程闯关,让你在实践中提升自己的编程能力。https://www.w3cschool.cn/codecamp
9.强化学习离线模型离线模型和在线模型推荐系统里非常常见,并且往往非常的隐蔽的一种数据分布不一致的情况被称之为冰山效应,也就是说离线训练用的是有偏的冰山上的数据,而在线上预估的时候,需要预测的是整个冰山的数据,包括大量冰面以下的数据!我们看下面这张图。左边是我们的Baseline,绿色的表示正样本,红色表示负样本,灰色部分表示线上由于推荐系统的“https://blog.51cto.com/u_14499/11815202
10.使用Merlin分层参数服务器扩展推荐系统推理推荐模型有两种培训模式:离线和在线。在线培训将新的模型更新部署到实时生产中,对于推荐的有效性至关重要。HPS 雇佣无缝更新机制通过Apache Kafka– 基于消息缓冲区连接训练和推理节点,如图 5 所示。 图5. HugeCTR 推理在线更新机制 更新机制有助于 MLOps 工作流,支持在线/频繁以及离线/再培训更新,无需停机。它还通https://www.eet-china.com/mp/a159829.html
11.推荐系统完整的架构设计和算法(协同过滤隐语义)其中,数据上报和离线训练组成了监督学习中的学习系统,而实时计算和 A/B 测试组成了预测系统。另外,除了模型之外,还有一个在线存储模块,用于存储模型和模型需要的特征信息供实时计算模块调用。图中的各个模块组成了训练和预测两条数据流,训练的数据流搜集业务的数据最后生成模型存储于在线存储模块;预测的数据流接受业务https://cloud.tencent.com/developer/article/1508050
12.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习离线强化学习,即智能体从先前收集的数据集中学习的过程,已被广泛研究并在机器人控制、推荐系统、智慧医疗等领域取得了巨大成功。然而,由于受到离线数据集质量的限制,离线强化学习智能体的性能通常是次优的。因此,在部署之前,通常需要进一步通过在线交互对预训练的离线强化学习智能体进行微调。 http://icfs.jlu.edu.cn/info/1007/3101.htm
13.2020年最值得收藏的60个AI开源工具语言&开发李冬梅SiamMask 是一款实时在线目标跟踪与目标分割统一框架。技术简单、通用、快速高效。它可以对目标实时跟踪。此款库还包含预训练模型。 项目地址:https://github.com/foolwood/SiamMask DeepCamera 世界首个自动机器学习深度学习边缘 AI 平台 ARM GPU 上的深度学习视频处理监控,用于人脸识别以及更多方法。将数码相机变成人工https://www.infoq.cn/article/2uabiqaxicqifhqikeqw