智能搜索模型预估框架Augur的建设与实践|离线训练是什么意思_在线学习

在过去十年，机器学习在学术界取得了众多的突破，在工业界也有很多应用落地。美团很早就开始探索不同的机器学习模型在搜索场景下的应用，从最开始的线性模型、树模型，再到近两年的深度神经网络、BERT、DQN等，并在实践中也取得了良好的效果与产出。

本文将与大家探讨美团搜索与NLP部使用的统一在线预估框架Augur的设计思路、效果、优势与不足，希望对大家有所帮助或者启发。

搜索优化问题，是个典型的AI应用问题，而AI应用问题首先是个系统问题。经历近10年的技术积累和沉淀，美团搜索系统架构从传统检索引擎升级转变为AI搜索引擎。当前，美团搜索整体架构主要由搜索数据平台、在线检索框架及云搜平台、在线AI服务及实验平台三大体系构成。在AI服务及实验平台中，模型训练平台Poker和在线预估框架Augur是搜索AI化的核心组件，解决了模型从离线训练到在线服务的一系列系统问题，极大地提升了整个搜索策略迭代效率、在线模型预估的性能以及排序稳定性，并助力商户、外卖、内容等核心搜索场景业务指标的飞速提升。

其实，模型预估的逻辑相对简单、清晰。但是如果要整个平台做得好用且高效，这就需要框架系统和工具建设（一般是管理平台）两个层面的配合，需要兼顾需求、效率与性能。

纯粹从一个工程人员视角来看：模型可以简化为一个公式（举例：f(x1,x2)=ax1+bx2+c），训练模型是找出最合适的参数abc。所谓特征，是其中的自变量x1与x2，而模型预估，就是将给定的自变量x1与x2代入公式，求得一个解而已。（当然实际模型输出的结果可能会更加复杂，包括输出矩阵、向量等等，这里只是简单的举例说明。）

所以在实际业务场景中，一个模型预估的过程可以分为两个简单的步骤：第一步，特征抽取（找出x1与x2）；第二步，模型预估（执行公式，获得最终的结果）。

模型预估很简单，从业务工程的视角来看，无论多复杂，它只是一个计算分数的过程。对于整个运算的优化，无论是矩阵运算，还是底层的GPU卡的加速，业界和美团内部都有比较好的实践。美团也提供了高性能的TF-Serving服务（参见《基于TensorFlowServing的深度学习在线预估》一文）以及自研的MLX模型打分服务，都可以进行高性能的Batch打分。基于此，我们针对不同的模型，采取不同的策略：

这一套逻辑很简单，构建起来也不复杂，所以在建设初期，我们快速在主搜的核心业务逻辑中快速实现了这一架构，如下图所示。这样的一个架构使得我们可以在主搜的核心排序逻辑中，能够使用各类线性模型的预估，同时也可以借助公司的技术能力，进行深度模型的预估。关于特征抽取的部分，我们也简单实现了一套规则，方便算法同学可以自行实现一些简单的逻辑。

跟所有新系统的诞生故事一样，老系统一定会出现问题。原有架构在少特征以及小模型下虽有优势，但业务耦合，无法横向扩展，也难以复用。针对需求和老框架的种种问题，我们开始构建了新的高性能分布式模型预估框架Augur，该框架指导思路是：

架构上的改变，让Augur具备了复用的基础能力，同时也拥有了分布式预估的能力。可惜，系统架构设计中没有“银弹”：虽然系统具有了良好的弹性，但为此我们也付出了一些代价，我们会在文末进行解释。

框架思路只能解决“能用”的问题，平台则是为了“通用”与“好用”。一个优秀的预估平台需要保证高性能，具备较为通用且接口丰富的核心预估框架，以及产品级别的业务管理系统。为了能够真正地提升预估能力和业务迭代的效率，平台需要回答以下几个问题：

下面，我们将逐一给出答案。

4.1.1Operator和Transformer

在搜索场景下，特征抽取较为难做的原因主要包括以下几点：

针对特征的处理逻辑，我们抽象出两个概念：

Operator：通用特征处理逻辑，根据功能的不同又可以分为两类：

通过IO、计算分离，特征抽取执行阶段就可以进行IO异步、自动聚合RPC、并行计算的编排优化，从而达到提升性能的目的。

基于这两个概念，Augur中特征的处理流程如下所示：首先，我们会进行特征抽取，抽取完后，会对特征做一些通用的处理逻辑；而后，我们会根据模型的需求进行二次变换，并将最终值输入到模型预估服务中。如下图所示：

4.1.2特征计算DSL

有了Operator的概念，为了方便业务方进行高效的特征迭代，Augur设计了一套弱类型、易读的特征表达式语言，将特征看成一系列OP与其他特征的组合，并基于Bison&JFlex构建了高性能语法和词法解析引擎。我们在解释执行阶段还做了一系列优化，包括并行计算、中间特征共享、异步IO，以及自动RPC聚合等等。

举个例子：

4.1.3配置化的模型表达

特征可以用利用OP、使用表达式的方式去表现，但特征还可能需要经过Transformer的变换。为此，我们同样为模型构建一套可解释的JSON表达模板，模型中每一个特征可以通过一个JSON对象进行配置，以一个输入到TF模型里的特征结构为例：

其中，我们将输入模型的特征名（tf_input_name）和原始特征名（name）做了区分。这样的话，就可以只在外部编写一次表达式，注册一个公用特征，却能通过在模型的结构体中配置不同Transfomer创造出多个不同的模型预估特征。这种做法相对节约资源，因为公用特征只需抽取计算一次即可。

此外，这一套配置文件也是离线样本生产时使用的特征配置文件，结合统一的OP&Transformer代码逻辑，进一步保证了离线/在线处理的一致性，也简化了上线的过程。因为只需要在离线状态下配置一次样本生成文件，即可在离线样本生产、在线模型预估两个场景通用。

4.2.1高效的模型预估过程

OP和Transformer构建了框架处理特征的基本能力。实际开发中，为了实现高性能的预估能力，我们采用了分片纯异步的线程结构，层层CallBack，最大程度将线程资源留给实际计算。因此，预估服务对机器的要求并不高。

为了描述清楚整个过程，这里需要明确特征的两种类型：

一个典型的模型预估请求，如下图所示：

Augur启动时会加载所有特征的表达式和模型，一个模型预估请求ModelScoreRequest会带来对应的模型名、要打分的文档id（docid）以及一些必要的全局信息Context。Augur在请求命中模型之后，将模型所用特征构建成一颗树，并区分ContextLevel特征和DocLevel特征。由于DocLevel特征会依赖ContextLevel特征，故先将ContextLevel特征计算完毕。对于Doc维度，由于对每一个Doc都要加载和计算对应的特征，所以在Doc加载阶段会对Doc列表进行分片，并发完成特征的加载，并且各分片在完成特征加载之后就进行打分阶段。也就是说，打分阶段本身也是分片并发进行的，各分片在最后打分完成后汇总数据，返回给调用方。期间还会通过异步接口将特征日志上报，方便算法同学进一步迭代。

在这个过程中，为了使整个流程异步非阻塞，我们要求引用的服务提供异步接口。若部分服务未提供异步接口，可以将其包装成伪异步。这一套异步流程使得单机（16c16g）的服务容量提升超过100%，提高了资源的利用率。

4.2.2预估的性能及表达式的开销

框架的优势：得益于分布式，纯异步流程，以及在特征OP内部做的各类优化（公用特征、RPC聚合等），从老框架迁移到Augur后，上千份文档的深度模型预估性能提升了一倍。

至于大家关心的表达式解析对对于性能的影响其实可以忽略。因为这个模型预估的耗时瓶颈主要在于原始特征的抽取性能（也就是特征存储的性能）以及预估服务的性能（也就是Serving的性能）。而Augur提供了表达式解析的Benchmark测试用例，可以进行解析性能的验证。

4.2.3系统的其他组成部分

一个完善可靠的预估系统，除了“看得见”的高性能预估能力，还需要做好以下几个常被忽略的点：

Augur在完成了以上多种能力的建设之后，就可以当做一个功能相对完善且易扩展的在线预估系统。由于我们在构建Augur的时候，设立了明确的边界，故以上能力是独立于业务的，可以方便地进行复用。当然，Augur的功能管理，更多的业务接入，都需要管理平台的承载。于是，我们就构建了Poker平台，其中的在线预估管理模块是服务于Augur，可以进行模型特征以及业务配置的高效管理。我们将在下一小节进行介绍。

4.3.1能力的快速复用

Augur在设计之初，就将所有业务逻辑通过OP和Transformer承载，所以跟业务无关。考虑到美团搜索与NLP部模型预估场景需求的多样性，我们还为Augur赋予多种业务调用的方式。

其中服务化是被应用最多的方式，为了方便业务方的使用，除了完善的文档外，我们还构建了标准的服务模板，任何一个业务方基本上都可以在30分钟内构建出自己的Augur服务。服务模板内置了60多个常用逻辑和计算OP,并提供了最佳实践文档与配置逻辑，使得业务方在没有指导的情况下可以自行解决95%以上的问题。整个流程如下图所示：

当然，无论使用哪一种方式去构建预估服务，都可以在美团内部的Poker平台上进行服务、模型与特征的管理。

4.3.2Augur管理平台Poker的构建

实现一个框架价值的最大化，需要一个完整的体系去支撑。而一个合格的在线预估平台，需要一个产品级别的管理平台辅助。于是我们构建了Poker（搜索实验平台），其中的在线预估服务管理模块，也是Augur的最佳拍档。Augur是一个可用性较高的在线预估框架，而Poker+Augur则构成了一个好用的在线预估平台。下图是在线预估服务管理平台的功能架构：

首先是预估核心特征的管理，上面说到我们构建了语言化的特征表达式，这其实是个较为常见的思路。Poker利用Augur提供的丰富接口，结合算法的使用习惯，构建了一套较为流畅的特征管理工具。可以在平台上完成新增、测试、上线、卸载、历史回滚等一系列操作。同时，还可以查询特征被服务中的哪些模型直接或者间接引用，在修改和操作时还有风险提示，兼顾了便捷性与安全性。

4.3.3Poker+Augur的应用与效果

随着Augur和Poker的成熟，美团搜索与NLP部门内部已经有超过30个业务方已经全面接入了预估平台，整体的概况如下图所示：

4.4.1ModelasaFeature，同构or异构？

在算法的迭代中，有时会将一个模型的预估的结果当做另外一个模型输入特征，进而取得更好的效果。如美团搜索与NLP中心的算法同学使用BERT来解决长尾请求商户的展示顺序问题，此时需要BERTasaFeature。一般的做法是离线进行BERT批量计算，灌入特征存储供线上使用。但这种方式存在时效性较低（T+1）、覆盖度差等缺点。最好的方式自然是可以在线实时去做BERT模型预估，并将预估输出值作为特征，用于最终的模型打分。这就需要Augur提供ModelasaFeature的能力。

得益于Augur抽象的流程框架，我们很快超额完成了任务。Modelasafeature，虽然要对一个Model做预估操作，但从更上层的模型角度看，它就是一个特征。既然是特征，模型预估也就是一个计算OP而已。所以我们只需要在内部实现一个特殊的OP，ModelFeatureOpreator就可以干净地解决这些问题了。

我们在充分调研后，发现ModelasaFeature有两个维度的需求：同构的特征和异构的特征。同构指的是这个模型特征与模型的其他特征一样，是与要预估的文档统一维度的特征，那这个模型就可以配置在同一个服务下，也就是本机可以加载这个Stacking模型；而异构指的是ModelFeature与当前预估的文档不是统一维度的，比如商户下挂的商品，商户打分需要用到商品打分的结果，这两个模型非统一维度，属于两个业务。正常逻辑下需要串行处理，但是Augur可以做得更高效。为此我们设计了两个OP来解决问题：

美团搜索内部，已经通过LocalModelFeature的方式，实现了BERTasaFeature。在几乎没有新的使用学习成本的前提下，同时在线上取得了明显的指标提升。

4.4.2OnlineModelEnsemble

Augur支持有单独抽取特征的接口，结合ModelasaFeature，若需要同时为一个文档进行两个或者多个模型的打分，再将分数做加权后使用，非常方便地实现离线Ensemble出来模型的实时在线预估。我们可以配置一个简单的LR、Empty类型模型（仅用于特征抽取），或者其他任何Augur支持的模型，再通过LocalModelFeature配置若干的ModelFeature，就可以通过特征抽取接口得到一个文档多个模型的线性加权分数了。而这一切都被包含在一个统一的抽象逻辑中，使用户的体验是连续统一的，几乎没有增加学习成本。

除了上面的操作外，Augur还提供了打分的同时带回部分特征的接口，供后续的业务规则处理使用。

当然，肯定没有完美的框架和平台。Augur和Poker还有很大的进步空间，也有一些不可回避的问题。主要包括以下几个方面。

被迫“消失”的Listwise特征

前面说到，系统架构设计中没有“银弹”。在采用了无状态分布式的设计后，请求会分片。所以ListWise类型的特征就必须在打分前算好，再通过接口传递给Augur使用。在权衡性能和效果之后，算法同学放弃了这一类型的特征。

当然，不是说Augur不能实现，只是成本有些高，所以暂时Hold。我们也有设计过方案，在可量化的收益高于成本的时候，我们会在Augur中开放协作的接口。

单机多层打分的缺失

Augur一次可以进行多个模型的打分，模型相互依赖（下一层模型用到上一层模型的结果）也可以通过Stacking技术来解决。但如果模型相互依赖又逐层减少预估文档（比如，第一轮预估1000个，第二轮预估500），则只能通过多次RPC的方式去解决问题，这是一个现实问题的权衡。分片打分的性能提升，能否Cover多次RPC的开销？在实际开发中，为了保持框架的清晰简单，我们选择了放弃多层打分的特性。

离线能力缺失？

Poker是搜索实验平台的名字。我们设计它的初衷，是解决搜索模型实验中，从离线到在线所有繁复的手工操作，使搜索拥有一键训练、一键Fork、一键上线的能力。与公司其他的训练平台不同，我们通过完善的在线预估框架倒推离线训练的需求，进而构建了与在线无缝结合的搜索实验平台，极大地提升了算法同学的工作效。

未来，我们也会向大家介绍产品级别的一站式搜索实验平台，敬请期待。

在统一了搜索的在线预估框架后，我们会进一步对Augur的性能&能力进行扩展。未来，我们将会在检索粗排以及性能要求更高的预估场景中去发挥它的能力与价值。同时，我们正在将在线预估框架进一步融合到我们的搜索实验平台Poker中，与离线训练和AB实验平台做了深度的打通，为业务构建高效完整的模型实验基础设施。

如果你想近距离感受一下Augur的魅力，欢迎加入美团技术团队！

朱敏，紫顺，乐钦，洪晨，乔宇，武进，孝峰，俊浩等，均来自美团搜索与NLP部。

THE END

智能搜索模型预估框架Augur的建设与实践

中国电信申请一种网络模型的训练方法及装置专利，提高通过网络模型对数据集蒸馏的有效性样本

Nature2017AlphaGoZero强化学习论文解读系列(二)

DLRover：蚂蚁开源大规模智能分布式训练系统·SOFAStack

开局被军校退学？我反手拿一等功第五十二章下雨了更要挑战自我！免费小说阅读

快科技资讯2023年02月14日Blog版资讯中心

“去高精地图”跟“轻高精地图”有啥区别？落地的挑战又是啥？

智能搜索模型预估框架Augur的建设与实践

坐飞机可以玩手机之后，9个建议帮你更好打发飞行时间

戴上Garmin245，感受迎面吹拂的风