一站式机器学习平台建设实践

本文根据美团配送资深技术专家郑艳伟在2019SACC(中国系统架构师大会)上的演讲内容整理而成,主要介绍了美团配送技术团队在建设一站式机器学习平台过程中的经验总结和探索,希望对从事此领域的同学有所帮助。

2019年7月份,美团外卖的日订单量已经突破3000万单,占有了相对领先的市场份额。围绕着用户、商户、骑手,美团配送构建了全球领先的即时配送网络,建设了行业领先的美团智能配送系统,形成了全球规模最大的外卖配送平台。

如何让配送网络运行效率更高,用户体验更好,是一项非常有难度的挑战。我们需要解决大量复杂的机器学习和运筹优化等问题,包括ETA预测、智能调度、地图优化、动态定价、情景感知、智能运营等多个领域。同时,我们还需要在体验、效率和成本之间达到平衡。

如果要解决上述的机器学习问题,就需要有一个功能强大且易用的机器学习平台来辅助算法研发人员,帮助大家脱离繁琐的工程化开发,把有限的精力聚焦于算法策略的迭代上面。

目前业界比较优秀的机器学习平台有很多,既有大公司研发的商用产品,如微软的Azure、亚马逊的SageMaker、阿里的PAI平台、百度的PaddlePaddle以及腾讯的TI平台,也有很多开源的产品,如加州大学伯克利分校的Caffe、Google的TensorFlow、Facebook的PyTorch以及Apache的SparkMLlib等。而开源平台大都是机器学习或者深度学习基础计算框架,聚焦于训练机器学习或深度学习模型;公司的商用产品则是基于基础的机器学习和深度学习计算框架进行二次开发,提供一站式的生态化的服务,为用户提供从数据预处理、模型训练、模型评估、模型在线预测的全流程开发和部署支持,以期降低算法同学的使用门槛。

公司级的一站式机器学习平台的目标和定位,与我们对机器学习平台的需求不谋而合:为用户提供端到端的一站式的服务,帮助他们脱离繁琐的工程化开发,把有限的精力聚焦于算法策略的迭代上面。鉴于此,美团配送的一站式机器学习平台应运而生。

美团配送机器学习平台的演进过程可以分为两个阶段:

初始阶段,大家对机器学习平台要发展成什么样子并不明确,很多事情也想不清楚。但是为了支撑业务的发展,必须快速上线、快速试错。因此,在此阶段,各个业务线独自建设自己的机器学习工具集,按照各自业务的特殊需求进行各自迭代,快速支持机器学习算法上线落地应用到具体的业务场景,也就是我们所熟知的“烟囱模式”。此种模式各自为战,非常灵活,能够快速支持业务的个性化需求,为业务抢占市场赢得了先机。但随着业务规模的逐渐扩大,这种“烟囱模式”的缺点就凸显了出来,主要表现在以下两个方面:

为了避免各部门重复造轮子,提升研发的效率,同时统一业务指标和特征的计算口径,标准化配送侧的数据体系,美团配送的研发团队组建了一个算法工程小组,专门规整各业务线的机器学习工具集,希望建设一个统一的机器学习平台,其需求主要包括以下几个方面:

平台化阶段,我们对美团配送机器学习平台的目标定位是:一站式机器学习平台,给算法同学提供一站式服务,覆盖算法同学调研、开发、上线、评估算法效果的全流程,包括:数据处理、特征生产、样本生成、模型训练、模型评估、模型发布、在线预测和效果评估。为了响应这个目标,大家还给平台取了个大胆的名字——Turing,中文名称为图灵平台,虽然有点“胆大包天”,但是也算是对我们团队的一种鞭策。

1)首先在获取数据阶段,支持在线和离线两个层面的处理,分别通过采样、过滤、归一化、标准化等手段生产实时和离线特征,并推送到在线的特征库,供线上服务使用。

2)模型训练阶段,支持分类、回归、聚类、深度学习等多种模型,并支持自定义Loss损失函数。

3)模型评估阶段,支持多种评估指标,如AUC、MSE、MAE、F1等。

4)模型发布阶段,提供一键部署功能,支持本地和远程两种模式,分别对应将模型部署在业务服务本地和部署在专用的在线预测集群。

5)在线预测阶段,支持AB实验,灵活的灰度发布放量,并通过统一埋点日志实现AB实验效果评估。

离线训练平台的目标是:搭建可视化训练平台,屏蔽多个训练框架的差异,降低算法RD的接入门槛。

为了降低算法RD进入机器学习领域的门槛,我们开发了带有可视化界面的离线训练平台,通过各种组件的拖拉拽组合成DAG图,从而生成一个完整的机器学习训练任务。

目前支持的组件大致分为:输入、输出、特征预处理、数据集加工、机器学习模型、深度学习模型等几大类,每种类别都开发了多个不同的组件,分别支持不同的应用场景。同时为了不失去灵活性,我们也花费了一番心思,提供了多种诸如自定义参数、自动调参、自定义Loss函数等功能,尽量满足各个不同业务方向算法同学各种灵活性的需求。

我们的离线训练平台在产出模型时,除了产出模型文件之外,还产出了一个MLDL(MachineLearningDefinitionLanguage)文件,将各模型的所有预处理模块信息写入MLDL文件中,与模型保存在同一目录中。当模型发布时,模型文件连带MLDL文件作为一个整体共同发布到线上。在线计算时,先自动执行MLDL中的预处理逻辑,然后再执行模型计算逻辑。通过MLDL打通了离线训练和在线预测,贯穿整个机器学习平台,使得线下和线上使用同一套特征预处理框架代码,保证了线下和线上处理的一致性。

在发布模型时,我们还提供了模型绑定特征功能,支持用户把特征和模型的入参关联起来,方便在线预测时模型自动获取特征,极大地简化了算法RD构造模型输入时获取特征的工作量。

前面介绍了,我们的图灵平台集成了SparkML、XGBoost、TensorFlow三种底层训练框架,基于此,我们的训练平台产出的机器学习模型种类也非常多,简单的有LR、SVM,树模型有GBDT、RF、XGB等,深度学习模型有RNN、DNN、LSTM、DeepFM等等。而我们的模型管理平台的目标就是提供统一的模型注册、发现、部署、切换、降级等解决方案,并为机器学习和深度学习模型提供高可用的线上预测服务。

模型管理平台支持本地和远程两种部署模式:

对于超大规模模型,单机无法装载,需要对模型进行Sharding。鉴于美团配送的业务特性,可以按照配送城市/区域进行分区训练,每个城市或区域产出一个小模型,多个分区模型分散部署到多个节点上,解决单节点无法装载大模型的问题。分区模型要求我们必须提供模型的路由功能,以便业务方精准地找到部署相应分区模型的节点。

同时,模型管理平台还收集各个服务节点的心跳上报信息,维护模型的状态和版本切换,确保所有节点上模型版本一致。

配送线上业务每天会记录许多骑手、商家、用户等维度的数据,这些数据经过ETL处理得到所谓的离线特征,算法同学利用这些离线特征训练模型,并在线上利用这些特征进行模型在线预测。离线特征平台就是将存放在Hive表中的离线特征数据生产到线上,对外提供在线获取离线特征的服务能力,支撑配送各个业务高并发及算法快速迭代。

最简单的方案,直接把离线特征存储到DB中,线上服务直接读取DB获取特征Value。读取DB是个很重的操作,这种方案明显不能满足互联网大并发的场景,直接被Pass掉。

第二种方案,把各个离线特征作为K-V结构存储到Redis中,线上服务直接根据特征Key读取Redis获取特征Value。此方案利用了Redis内存K-V数据库的高性能,乍一看去,好像可以满足业务的需求,但实际使用时,也存在着严重的性能问题。

因此,我们需要对离线特征从存储和获取进行优化。我们提出了特征组的概念,同一维度的特征,按照特征组的结构进行聚合成一个KV,大大减少了Key的数目;并且提供了相对完善的管理功能,支持对特征组的动态调整(组装、拆分等)。

相比于传统配送,即时配送无论是在位置信息、骑手负载,还是在当前路网情况,以及商家出餐情况等方面都是瞬息变化的,实时性要求非常高。为了让机器学习算法能够即时的在线上生效,我们需要实时地收集线上各种业务数据,进行计算,提炼成算法所需要的特征,并实时更新。

AB实验并不是个新兴的概念,自2000年谷歌工程师将这一方法应用在互联网产品以来,AB实验在国内外越来越普及,已成为互联网产品运营精细度的重要体现。简单来说,AB实验在产品优化中的应用方法是:在产品正式迭代发版之前,为同一个目标制定两个(或以上)方案,将用户流量对应分成几组,在保证每组用户特征相同的前提下,让用户分别看到不同的方案设计,根据几组用户的真实数据反馈,科学的帮助产品进行决策。

即时配送领域的AB实验是围绕用户、商户、骑手三者进行,用户/商户/骑手之间不再是相互独立的,而是相互影响相互制约的。针对此类场景,现有的分流方案会造成不同策略的互相干扰,无法有效地评估各个流量各个策略的优劣。

鉴于上述的问题,我们将配送侧的AB实验分为三个阶段:事前的AA分组,事中的AB分流,事后的效果评估。

1)加强深度学习的建设。

2)在线预测平台化,进一步解耦算法和工程。

艳伟,美团配送技术团队资深技术专家。

如果你想近距离感受一下图灵平台的魅力,欢迎加入我们。美团配送技术团队诚招调度履约方向、LBS方向、机器学习平台、算法工程方向的技术专家和架构师,共建全行业最大的单一即时配送网络和平台,共同面对复杂业务和高并发流量的挑战,迎接配送业务全面智能化的时代。感兴趣同学可投递简历至:tech@meituan.com(邮件标题注明:美团配送技术团队)。

THE END
1.机器学习中的在线学习与离线学习onlinelearning在线学习算法这种理解方式在国外论文中出现比较多,国外称为online and batch learning.离线就是对应batch learning.这两种方式各有优点,在线学习比较快,但是有比较高的残差,离线(batch)学习能降低残差。 理解方式二: 在离线学习中,所有的训练数据在模型训练期间必须是可用的。只有训练完成了之后,模型才能被拿来用。简而言之,先训练https://blog.csdn.net/a133521741/article/details/79221015
2.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
3.和学在线App排行榜华为手机和学在线app推荐感谢欧粉一直以来的支持与喜爱,你们的陪伴是我们做的更好的无限动力!欧拉数理化致力于为用户提供一个优质的在线学习平台,面市以来即受到小学、初中和高中生的热捧!【产品简介】欧拉数理化主要服务于小学、初中和高中的学生,目前涵盖数学、英语、物理、化学、语文和生物6个学科全国多教材版本的内容,采用AI视频的形式https://www.diandian.com/phb/1392/2-1.html
4.学习公社APP操作手册点击导航栏【个人】,进入个人空间,可以查看个人信息、项目学习档案、离线缓存、帮助中心、系统消息、设置等。 七、学习档案与电子证书 点击导航栏【个人】,选择项目学习档案,可查看学习档案,了解学习进度和具体内容。点击“查看电子证书”,查看证书。 八、离线缓存 https://jgdw.ccit.edu.cn/info/1027/1157.htm
5.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
6.在对齐AI时,为什么在线方法总是优于离线方法?根据现有的强化学习研究成果,在线比离线更好似乎是显而易见的结论。在线和离线强化学习算法之间的性能差距也已经被多项研究发现,所以这项研究给出了什么不一样的结论呢? 最重要的是,在线 RLHF 算法依赖于一个学习后的奖励模型,该奖励模型是使用与离线 RLHF 算法一样的成对偏好数据集训练得到的。这与常规强化学习https://i.ifeng.com/c/8Zi94qkPSLp
7.美河学习在线美河学习在线(主站) eimhe.com?论坛 今日:94|昨日:150|帖子:355426|会员:223988|欢迎新会员:sprn1fr 最新回复 下载桌面快捷访问 美河学习在线 www.eimhe.com - IT认证超级社区 更多IT认证热门资源请访问 美河学习在线 - 完美超乎想象 信赖拥有值得! https://eimhe.com/
8.在线学习课程PADI在繁忙的生活中,PADI 在线学习是完成水肺潜水课程的最简单的方式。 您可以使用电脑或移动设备,自行安排在线或离线学习。 准备就绪后,随时开始安排水下训练。PADI 在线学习 FAQ 获得关于 PADI 在线课程最常见问题的答案。我的在线学习课程访问权限的有效期是多久? 我想更改与我的课程关联的 PADI 潜水馆 我可以https://www.padi.com/zh-hans/padi-elearning
9.环球网校在线网络课程辅导服务条款- 在线答疑:“环球网校”学员在学习中出现的疑难问题可以在“环球网校在线”课堂答疑室提出,由辅导专家解答,保证考生及时解决复习中的难点。 - 课件下载:“环球网校在线”自主开发了方便、快捷、实用的离线课件,学员可以将网校的离线课件下载到本机进行播放,播放的过程中不需要上网,达到与在线学习一样的效果。“环球网https://www.hqwx.com/help/article.htm
10.线上线下融合教学的优势不足与发展策略内容首先,在教学方式上:以信息网络的学习平台为载体,以现代信息技术为媒介,依靠手机,平板电脑等个人智能终端设备,实现线上线下学习与线下的交互学习。学习内容:根据时间分为课前准备,课中教学和课后辅导三个阶段;按空间分为在线和离线;按照对知识点的解释,重构,将学习分解为学习,内化和外化三个阶段,全方位传授学习内容;https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
11.通关一点通下载,高效学习与便捷生活的必备神器财务局通过智能算法,通关一点通能根据用户的学习行为和习惯,为用户推荐合适的学习资源,实现个性化学习。 (三)互动学习与交流 软件支持在线互动学习与交流,用户可与老师、同学进行实时互动,共同探讨问题,提高学习效率。 (四)离线下载与随时随地学习 通关一点通支持离线下载功能,用户可在有网络的情况下,将学习资源下载到移动设备https://www.hnjwwzy.cn/post/157.html
12.争学网官方版争学网最新版下载2.1.271、软件能支持在线学习和离线下载,让用户随时地学习; 2、根据用户的学习记录和兴趣,智能推荐相应的课程; 3、覆盖多个行业领域,提供专业的学习课程,使用便利。 软件亮点 1、是一个可以满足广大用户需要的学习平台。 2、线上包含了超多的课程让大家随时都能学习。 3、提供了丰富的学习资源与培训资料供大家使用。 软https://www.qimu86.com/soft/66139.html
13.4)针对固定周期模式下的,基于Q学习理论对多个路口进行相位差优化a4) 针对固定周期模式下的,基于Q学习理论对多个路口进行相位差优化研究,建立了延误最小为优化目标的离线Q学习模型。以集成VISSIM-Excel VBA-Matlab的仿真平台为技术平台,采用VBA及Matlab编程实现算例,然后将最优解在线应用到VISSIM实时交通控制中,并与MAXBAND方法进行对比。 4) In view of the fixed cyclical patternhttp://riyu.zaixian-fanyi.com/fan_yi_8290601
14.新东方在线官方版新东方在线官方版下载[外语学习]新东方在线官方版是一个十分优秀的网络外语在线学习工具,新东方在线官方版拥有中国最先进的教学内容开发与制作团队。新东方在线主要功能在线观看视频、离线缓存视频、倍速学习,听课进度同步,为大家提供很好的学习帮助,致力于为广大用户提供个性化、互动化、智能化的卓越在线学习体验。 http://downza.cn/soft/264936.html
15.闻思科技离线学习系统使用说明之系列三为了更好的帮助各位学员掌握学习方法,小编呈上终端学习&回传记录、学习终端课程下载相关视频,供各位学员参考! 终端学习&回传记录 学习终端课程下载 以上为使用我们离线学习终端实际操作相关步骤,希望对各位学习有所帮助。也欢迎与我们的售后服务中心联系咨询使用及操作问题,电话18603038374(微信号同步),期待各位小粉的咨询http://www.wthink.com.cn/h-nd-56.html
16.强化学习(一)入门介绍腾讯云开发者社区4、在线学习 和 离线学习在线学习就是必须本人在场,并且一定是本人一边行动一边学习。离线学习是可以选择自己行动,也可以选择看着别人行动,通过看别人行动来学习别人的行为准则,离线学习 同样是从过往的经验中学习,但是这些过往的经历没必要是自己的经历,任何人的经历都能被学习。https://cloud.tencent.com/developer/article/1707034
17.线上学习方案学校成立线上教育教学工作领导小组,由校长任组长,教务处、科年组长为小组成员,负责学校线上教育教学工作的组织协调、方案制定、教学指导、技术支持等。科学制定措施,加强对各班级、各学科在线教学的过程监控、教师教学质量评价和学生学习效果评价,注重痕迹管理,做到每周评价一次,发现问题及时处理。 https://www.unjs.com/fanwenku/419088.html
18.东师在线dansl’AppStore1. 灵活的学习体验移动端课程教学,在线观看与离线下载双管齐下,让碎片时间系统学习成为可能;在线作业手机做,有空就能顺手做,让作业不再是负担;在线文档随时看,让你的学习不掉队。 2. 及时的信息传达重要信息第一时间推送,不错过任何学习动态;考试信息手机查询,https://apps.apple.com/ci/app/%E4%B8%9C%E5%B8%88%E5%9C%A8%E7%BA%BF/id1446385736
19.蚂蚁金服新计算实践:基于Ray的融合计算引擎架构蔡芳芳随着计算和 AI 体系逐步成熟,我们希望机器学习应用能更多地在动态环境下运行、实时响应环境中的变化,这推动了机器学习从传统离线学习逐渐向在线学习演进。相比于传统的离线机器学习,在线学习可以带来更快的模型迭代速度,让模型预测效果更贴真实情况,对于线上的波动更加敏锐。https://www.infoq.cn/article/ualTzk5OwDb1crVHg7c1
20.中欧在线学习下载app手机版2024最新免费安装中欧在线学习介绍 介绍(2024-09-21) 中欧移动商学院 “中欧在线学习”是由中欧商业在线推出的手机2.0学习客户端本应用需要购买课程(详情请查询中欧商业在线官网),获得用户名和密码后,才能登录学习,获得学习资源。主要特性:1. 支持学习课件(视频,测验)、离线学习2. 支持在线考试,评价3. 手机端学习数据与PC端数据https://m.pianwan.com/app/109752
21.推荐27个在线学习WordPress资源网站您可以在所有设备上学习吗?它支持所有设备,以及离线学习的无互联网观看。 学习WordPress 的总体价值:高。 3. WP101 WP101具有专业的外观和感觉,并且具有只专注于WordPress的好处。它几乎没有涵盖那么多的WordPress主题(与Lynda和Udemy 相比),但它对初学者来说是一个干净而热情的环境。 https://www.wbolt.com/learn-wordpress.html
22.线上培训方案(精选14篇)按照教育部20xx年春季学期延期开学的要求,为满足幼儿园教师假期自我提升、自主学习的需求,特制定本方案。 一、指导思想 以现代化教育理念为指导,深入贯彻落实《幼儿园教育指导纲要》和《3-6岁儿童学习与发展指南》精神,不断提高幼儿园园长、教师的'专业素养和教育教学能力,推动我市学前教育质量全面发展。 https://www.ruiwen.com/fangan/6607293.html
23.首页业内名师,系统讲解大纲知识点突 出重点、难点,紧跟命题方向透彻 解析教材! 海量全真模拟试题全面覆盖各类考 点记录每次模考过程并汇总错题供 反复演练。 科学教学规划采用多班次的渐进式 教学体系让学习层层递进,稳步锁 分! 支持移动设备在线或离线学习,清 晰展示同步板书,课件可下载,学 习更灵活!http://sls.360xkw.com/