特约文章丨大规模端云协同智能计算算法视频生成模型

目前,许多智能技术已经走入人们的日常生活,例如交互式商品推荐、人脸识别、语音识别、体征观测、疾病诊断、智能决策等,这些智能技术在为我们生活带来极大便利的同时,也深刻改变了产业形态,推动零售、家居、交通、医疗、战备等传统行业向智能化转型。

在传统基于云服务的框架下,终端上传用户的原始数据,云服务器维持机器学习模型,得到用户输入数据后进行模型推理,然后返回推理结果给用户。用户终端就是起到采集数据和展示结果的作用。然而,传统的基于云智能的服务框架存在多种问题,首先,用户数据上传到云服务器,存在泄露用户隐私的风险;其次,数据上传、推理结果回传都会带来通信延时,影响服务响应的实时性;再有,云侧可能需要同时运行上千种不同的机器学习任务,响应亿级端设备的请求,形成了高负载服务的瓶颈。

为了突破上述云智能的瓶颈,端云协同智能新范式应运而生。端云协同智能就是力图通过将部分智能推理任务或智能推理任务的部分阶段卸载到端侧进行处理,利用端侧本地即时处理的优势,削减响应延时,降低云服务器负载;同时用户原始数据不离开本地,数据安全隐私可以得到良好的保障。

1大规模端云协同学习

大规模端云协同学习从本质上讲是一种分布式机器学习范式,然而又有别于传统分布式机器学习。主要区别在于,传统分布式机器学习所使用的训练服务器性能明显强于用户终端设备,而且训练数据集经过有机切分满足独立同分布的性质,保证分布式训练的收敛性。

传统分布式机器学习主要采用数据并行和模型并行两种方式(见图1)。对于数据量巨大的机器学习任务,可以采用数据并行的模式加速学习。如图1(a)所示,数据集被拆分为若干个数据子集存放在不同服务器上;同时每个服务器下载一份模型副本。各服务器基于本地数据子集训练模型,并将模型更新汇聚到参数服务器,参数服务器再周期性地重新分发最新的聚合模型,从而加速训练过程。而对于模型规模巨大、难以由单一训练服务器完成的任务,可以采用模型并行的模式来分担运算量。如图1(b)所示,每个训练服务器仅存放完整模型的一部分。数据则以数据流的形式在各个训练服务器间进行流转,从而逐步更新各模型的组成部分。但是,在云上分布式机器学习中,对数据集和模型的拆分通常是随机的。这样的随机拆分在端智能场景下并不适用。

图1传统分布式机器学习方案:有机切分数据/模型

美国谷歌公司率先将数据并行分布式训练的想法拓展应用到资源受限的移动端设备场景,提出了FederatedLearning联合学习框架,也译作“联邦学习”。在谷歌的联合学习框架下(见图2),用户数据遵循自然切分驻留在用户设备本地,并简单借用数据并行的思想分布式训练机器学习模型。这种方法仅适用于模型规模小的应用场景,所以谷歌利用它优化安卓键盘输入法Gboard的单词推荐功能,取得了不错的效果。考虑到一种语言的常用单词量大概是1万个左右,针对1万个单词嵌入向量的语言模型大小约为1.4MB,从而可以轻松地在端设备侧完成训练和推理。

图2谷歌数据并行联合学习框架

然而,当模型的特征规模进一步扩大时,基于完整模型的联合学习框架将无法适用。我们在与阿里巴巴手机淘宝部门合作过程中,发现在产业级的推荐场景中,要面向10亿移动终端用户,从20亿候选商品中为其做出个性化最优推荐。支持此应用的云侧机器学习模型叫做深度兴趣网络。这个模型嵌入了20亿个商品标识,其规模超过100GB。显然,完整的深度学习网络模型无法直接部署到端侧设备上进行训练,所以简单地沿用谷歌的数据并行联合学习框架不可行。

我们团队与阿里手机淘宝部门合作的MobiCom工作,考虑了移动端超大规模联合学习。这个工作具体考虑了一个10亿移动终端用户、20亿候选商品超大规模的产业级场景,而手机淘宝应用的运行内存上限为200MB。

考虑到云侧模型巨大,要想在端侧进行推理,必

须想办法把大模型变小。如图3所示,我们首先尝试了既有的模型压缩方法,包括模型剪枝、量化、知识蒸馏等方法。模型剪枝就是通过分析评估原始模型中各个参数对于最终结果的作用和贡献,删除贡献小的、重要性低的节点与边,实现模型参数量的减少。模型量化则是通过降低模型参数的精度,让每个参数占据的比特数更少,从而减少模型整体占用的空间。知识蒸馏则是重新构建一个结构更加简单的学生模型,以原始的复杂模型为老师模型,通过训练让学生模型模仿老师模型的输出,从而实现模型的简化。

图3既有压缩模型

上述方法得到的压缩模型的准确性都没有达到预期效果。究其原因,是因为单一压缩模型无法充分刻画海量端侧设备的个性化数据特征。端侧推理都做不好,更不用说在端侧做训练了。

2大小模型端云协同联合学习

为了解决上述问题,我们深入分析了端侧的个性化数据特征,并提出了一套大小模型端云协同的联合学习框架。

如图4所示,我们观察到,一个终端的数据往往只涉及到完整特征空间的一个子空间,因此该终端只需要获取其本地数据特征对应的部分模型参数(我们称之为“子模型”),就可以满足本地需求。也就是说,利用终端本地数据进行训练后,只有其映射的子模型部分的参数才会被更新。从模型切分角度来看,子模型是基于特征的模型切分。

图4子模型——基于特征的模型切分

基于上述思路,我们根据终端本地数据特征从参数服务器拉取其映射的子模型,每个终端仅需要使用其本地数据训练拉取的子模型,并提交子模型参数更新,就可以参与到端云协同模型联合学习过程,从而摆脱了对完整模型的依赖。

此外,如果当每个终端使用完整模型而非特征对应的子模型,联合子模型框架将会退化到传统的联合学习,因此此框架更为一般化。一般化意味用于提升联合学习效率的方案也可以应用到联合子模型学习,例如,前面提到的模型压缩不仅可以压缩全局模型,也可以压缩子模型以进一步削减开销。

此外,终端下载子模型和上传子模型更新会向不可信的协调服务器泄露其子模型位置,即泄露其数据隐私,违背了联合学习的初衷。为此,我们设计了一个子模型隐私保护机制,有机结合了安全多方并集计算、随机回答和安全聚合,从而赋予了终端对于其子模型真实位置的混淆能力,实现在不暴露子模型位置的情况下拉取和汇聚子模型。为了保护终端在子模型框架下的隐私,设计了基于安全多方集合并集计算、随机回答和安全聚合的安全协议,赋予了终端对于其子模型真实位置的抵赖性,从而保护数据隐私。其中抵赖性的强度可以用本地差分隐私进行精确地度量。此外,终端本地可以通过设置随机回答中的参数来调整隐私保护程度,从而取得隐私和效用之间良好的平衡。

图5模型准确率

我们还想知道每个终端对联合学习模型训练的贡献度,从而增强联合学习系统的透明性和可解释性。这里采用leave-one-out的思想度量终端对全局模型的影响,即有无某个终端参与时全局模型性能的差异。考虑到leave-one-out需要重新训练模型产生难以承受的开销,我们提出了基于一阶近似和链式求导法则的估计方法,规避了重新训练;同时设计了基于费希尔信息(Fisherinformation)的海森矩阵(Hessianmatrix)近似算法,进一步削减计算开销。此外,为了削减面向非突学习任务的估计误差,还提出了层次化的模型参数数值检查与截断方法,降低面向非凸优化目标的估计误差。有了贡献度量,可以根据终端的贡献度动态调整其模型聚合权重。比如,提高高贡献终端的权重,降低低贡献终端的权重,甚至剔除搞破坏的终端。实验结果表明,本方法可以有效提升全局模型的准确率(见图6)。

图6全局模型的准确率

另外一个影响端侧训练的问题是端侧样本量少,容易产生小样本过拟合的问题。我们可以发挥端云协同的优势,以云为协调服务器,通过域迁移为终端本地增广数据特征分布相似的数据集,从而在保有终端本地模型个性化特征的前提下,规避小样本过拟合问题。具体解决的基本思路是,针对每个终端,从云上全局数据集中筛选出与其本地数据分布相似的样本,扩充本地数据集。在具体的技术路线方面,主要采用了域迁移(domainadaption)的思想。首先,以指定终端的本地数据集为目标域,云上其他终端的数据集为源域;然后,用源域数据增量式训练模型,并用目标域评估模型准确率,选取使得模型准确率提升的样本,用于扩充本地数据;最后,终端利用本地扩充数据训练模型。相比于基于云服务的机器学习,基于域迁移的数据增强方案能够降低训练数据与测试数据之间的分布偏差;相比于端上仅用本地数据训练,新方案通过扩充相似样本能够有效降低泛化误差。

3端云协同智能系统

2019年“双十一”期间,Walle端智能系统在手机淘宝大规模落地,覆盖主搜、信息流推荐、云主题、会场、智能Push、红包雨、促升、直播等场景,当日共执行了2235亿次调用,在大幅提升成交量总额GMV的同时,也为用户带来了更好的交互体验。除了手机淘宝外,目前Walle端智能系统也已在闲鱼、优酷、猫客、AE、CBU、零售通等App有成熟方案落地。

目前,我们在已有的Walle系统框架中,主要增加了三组模块(见图7)。即,云上用户粒度的样本和任务管理模块;个性化样本下发和任务发布通道;端侧样本筛选和生命周期管理,以及模型训练、模型推断、模型版本控制模块。从而搭建了以数据和模型管理、云上样本下发、端上训练为核心的端云协同链路,实现了数据采集、数据增强、个性化训练三个主要功能,从根本上支撑了千人千模思想的落地应用。

图7端-通道-云系统模块

进一步我们还把子模型拆分联合学习技术实现到低功耗嵌入式设备上,包括树莓派和NvidiaJetsonNano、TX2,这些设备可以搭载到无人车、无人机、无人艇等设备上实现大规模分布式边缘学习。

4结束语

上述是我们在端云协同联合学习方面的初步探索,后续还有很多亟待解决的挑战问题。第一,如何设计弹性模型结构,动态适应异构终端设备的运行时环境;第二,如何设计分布式优化算法更好地消除数据异质性带来的模型聚合偏差;第三,如何抵御恶意终端的攻击,保障端云协同进化稳定可靠进行;第四,期待自主可控且开源的开发环境,以促进端云协同智能系统的快速开发和大规模部署。

(参考文献略)

吴帆

上海交通大学计算机科学与工程系主任、特聘教授,承担科技创新2030-“新一代人工智能”重大项目、国家重点研发计划课题、国家自然科学基金、上海市科委项目等20余项,发表学术论文200余篇。曾获教育部自然科学一等奖、中国计算机学会科技进步一等奖、上海市计算机学会自然科学一等奖、ACM中国新星奖、CCF-IEEE青年科学家奖,以及7次国际学术会议论文奖。

THE END
1.一次开发一键部署!跨平台高性能边端AI推理部署框架的应用与实践算法模型一般都运行在 NPU 上,在边端硬件层,包含了芯片、NPU 算力、推理库和量化工具等关键部分,尽管不同硬件厂商提供的推理库和量化工具各异,但它们的 NPU 一般只支持 INT8,这就要求模型必须经过 INT8 量化才能在 NPU 上跑。INT8 量化是模型生产阶段的一部分,由于每家硬件的量化工具不同,如果在各硬件平台上https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/141073493
2.在线协作工具都有哪些?推荐这10款即时设计是一款免费的在线 UI 设计工具,无系统限制,浏览器打开即可使用,更有丰富的在线素材、云端字体、交互动画等功能满足多种需求,轻松应付移动端、Web端、可视化大屏等设计场景,还可和产品、开发轻松协作,实时在线评审、交付切图、查看代码标注,大幅提高团队工作效率。 http://www.wjks.cn/news/64952.html
3.企业常用的文件加密软件分享轻松加密,2025年文件加密软件精选软件推荐:Zoho Vault:一款在线协作加密工具,支持对文档、密码和其他敏感信息进行加密管理。它提供直观的用户界面和强大的权限管理功能,确保团队成员只能访问他们被授权的文件。 五、混合加密法 方法介绍:混合加密是结合多种加密算法和加密方法,对文件进行多重加密保护的方法。这种方法能够提供更高级别的安全性,但也可能增https://maimai.cn/article/detail?fid=1857884355&efid=E5NGU5xfjtYYef_Um3RK-A
4.基于JavaScript实现实时在线协作编辑器javascript技巧这个函数接收两个用户操作作为参数,并根据操作转换算法计算合并后的操作。具体实现可以根据所选算法进行自定义。你可以查阅相关资料或使用现有的库来实现操作转换算法。 4. 冲突解决 冲突解决是在线协作编辑器中的另一个挑战性任务。一种常见的方法是使用三向合并算法来解决冲突。以下是一个简单的示例: 1 2 3 4 fuhttps://www.jb51.net/javascript/313108jfq.htm
5.在线协作文档编辑原理合集以下给?家带来了?款在线协同编辑?档软件,?家就根据的需求进?选择吧。 ?墨?档 轻便、简洁 的在线协作?档?具,PC端和移动端全覆盖,?持多?同时对?档编辑和评论,让你与他?轻松完成协作撰稿、?案讨论、会议记录 和资料共享等?作,可以创建 ?档、表格、幻灯?、https://wenku.baidu.com/aggs/d73c7216866fb84ae45c8d4e.html
6.如何实现多人协作的在线文档腾讯云开发者社区文档加锁:当有人修改文档时,对整个文档加写锁,别人都只能看不可编辑。虽然实现简单,不过协作的体验会特别差。 diff+patch的合并算法:diff+patch是常用的文档内容比较和合并算法,Linux本身就提供了diff和patch命令支持文件的比较和合并。git也使用了diff+patch方法来合并文件,当无法解决冲突时,会把冲突抛给用户手动合https://cloud.tencent.com/developer/article/2081616
7.实现一个多人协作在线文档有哪些技术难点?用于多人协同编辑 Autodesk Maya 文档OT算法维持一致性的基本思路是根据先前执行的并发操作的影响将编辑操作转换为新形式,以便转换后的操作可以实现正确的效果,并确保复制的文档相同。 这是一篇鸽了很久的回答,正巧 Cloud Studio 也实现了多人协作代码编辑,技术原理上来说是差不多的,这里把之前我的一篇博客发上来吧https://www.51cto.com/article/681349.html
8.智能感知与人机协同教育部重点实验室多项研究成果入选NeurIPS上海科技大学“智能感知与人机协同”教育部重点实验室共有10篇论文入选。该系列论文展示了重点实验室在多模态场景感知与生成、多模态学习推理和负责任的人工智能理论方向上的高水平学术成果,为探索人类智能与机器智能交互协作奠定了理论和算法基础。 一、场景感知与生成https://www.shanghaitech.edu.cn/2023/1228/c1001a1087388/page.htm
9.七月在线七月在线创始人,七月大模型与机器人技术总负责人 北理工校外导师,微软AI MVP,Github上2万余star,CSDN 2000万PV博客『结构之法 算法之道』博主,去过近百所985/211高校分享算法,亦是华为云等数十个大会的演讲嘉宾。2015年创办七月在线,并于2018年获得好未来千万投资,到2022年平台上聚集了350+的大厂专家讲师团队https://www.julyedu.com/
10.基于人工智能算法的推荐系统原理及优势人工智能DL 技术还利用庞大且快速发展的新颖网络架构和优化算法,对大量数据进行训练,利用深度学习的强大功能进行特征提取,并构建更具表现力的模型。 当前基于 DL 的推荐系统模型:DLRM、Wide and Deep (W&D)、神经协作过滤 (NCF)、b 变分自动编码器 (VAE) 和 BERT(适用于 NLP)构成了 NVIDIA GPU 加速 DL 模型产品组合https://www.elecfans.com/rengongzhineng/2315977.html
11.推进上海经济数字化转型赋能高质量发展行动方案(2021——经济“存量”基础能级提升。数字新基建能力保持全国领先,全球信息枢纽城市基本建成,关键核心技术创新和智能产品转化力度全面增强,在集成电路、人工智能、工业软件等领域集中突破100+关键技术、形成100+标准化算法产品、培育100+智能硬件产品。 ——产业“增量”动能全面释放。在线新经济增长极作用显现,业态模式持续创新https://www.sheitc.sh.gov.cn/bmgzjxgwj/20211110/95deefdb2e3040e39714927266acdc5c.html
12.Agent机制6篇(全文)2.2.3 算法描述 设计多Agent协作算法应遵循以下3个原则。一是尽可能保证系统内各Agent的总付出花费接近。二是总付出相等时,应该保证系统总花费尽可能小。三是更倾向于与轻载Agent进行合作,保证执行效率尽可能高。 依据上述原则,将系统中的Agent以及其要完成的任务用加权有向图的方式来表示(见图1)。在图1中每条https://www.99xueshu.com/w/ikeyplhg7o3k.html
13.一种基于蚁群算法的多机器人协作方法经管文库相似文件换一批 国民经济行业分类与国际标准行业分类(ISIC R15.33 KB0个论坛币 如何用Stata实现https://bbs.pinggu.org/thread-13315003-1-1.html
14.桂林电子科技大学导师教师师资介绍简介李树2. “基于多源偏振遥感数据的云光学厚度及有效粒子半径反演研究”(编号:桂科AD**),广西科技人才项目,2019.12-2022.11 3. “基于多光谱偏振成像的目标变化检测技术研究”,协作课题 4. “弱标注深度学习数据生成算法开发”,协作课题 专利及知识产权 联系信息邮箱:lishu_owen@sina.comhttp://school.freekaoyan.com/guangxi/guet/2021/06-13/16235680151504762.shtml
15.新一代知识管理与协同平台,在线文档笔记知识库,项目管理协作FlowUs息流新一代知识管理与协作平台,以云端笔记为载体, 为个人和团队提供在线协作文档、多维表、流程图、网盘等多形态功能。产品覆盖移动及PC端全生态链条,依托FlowUs息流,团队和个人用户能够实现项目管理、知识库、网盘、内部工作流等一站式解决方案。https://flowus.cn/product
16.干货一夏丨RDS核心功能讲解篇「下」行业资讯资讯有别于传统的格点矩阵地图,RDS 基于有向图,运用多智能体协作规划(MAPF)算法,在面向任意拓扑结构、存在任意人为干扰的场景时,通过动态全局协同规划,进行多机器人路径搜索和交通管制,可令机器人有效躲避拥堵、及时预防和解除死锁。 「全厂调控,智慧调度」,RDS 已实现支持各种复杂的现场环境和路线;支持不同程度的模块化https://www.chinaagv.com/news/detail/202306/26982.html
17.目录《新兴权利》集刊2023年第2卷澎湃号·政务澎湃新闻“人机协作”在智慧司法不同阶段具有不同的功能定位,立案阶段目的在于人民司法获得感的实践提升,智慧裁判目的在于对数字正义的司法追求,智慧执行的目的在于对胜诉权益的司法维护。然而,我国智慧法院建设仍面临着缺乏能动司法意识,存在机械司法的法律风险、阻碍法官自主性的伦理风险,算法黑箱与技术鸿沟依然存在的技术风险。https://www.thepaper.cn/newsDetail_forward_26108976
18.金山协作隐私政策在进行在线文档协作时,为使参与协作编辑的各方知晓被编辑、改动的信息,我们会对展示您的头像、昵称和修改痕迹,并供各方查看文档的历史版本。此外,您可以根据个人需求设置文档权限。 音视频会议 当您使用本服务的音视频会议时,我们需要您授权我们获取设备的摄像头/麦克风权限,如果您拒绝授权将无法使用本功能,但不影响https://www.wps.cn/privacy/xiezuo
19.张西恒生成式人工智能对在线异步审理困境的疏解及限度而生成式人工智能嵌入在线异步审理,可以在增强司法的可及性、提升审理效率、优化诉讼参与主体表述的准确性等方面疏解在线异步审理与传统诉讼原理之间的紧张关系。但是,也应注意其在异步审理中的运用可能造成的负面影响,包括对司法人员的技术奴役将可能使司法人员庸化并丧失主体性;技术自身的算法伦理风险有可能使司法丧失公https://www.jfdaily.com/sgh/detail?id=1205126