丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
最真实的开发者用云体验
让每位学生受益于普惠算力
让创作激发创新
资深技术专家手把手带教
遇见技术追梦人
技术交流,直击现场
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
为开发者定制的Chrome浏览器插件
作者:阿里巴巴搜索推荐事业部高级研究员沈加翔
从另一个角度纵观AI·OS上众多的业务场景,整个体系内会涵盖以下技术或概念(如图):
再下面,就是整个体系内有资源管理,高可用性,相应的计算引擎的支撑,运维的管控和插件的支持。
以下是AI·OS工程体系技术的概念图。
在这个组件的最下层是资源的管理,叫Hippo,是一个非常高效的资源管理系统。
左侧的算法平台、离线平台、训练平台、计算平台,是我们在深度学习时代新的开拓。从样本和特征的处理链路来说,有我们的算法平台——星云体系,在这个过程当中,有训练引擎的对接——XDL。计算平台,是支撑算法样本和训练的基础,也是阿里集团内部强大的技术支点,是和搜索一起成长起来的,相互促进相互支撑。
AI·OS在线服务架构,对逐步走向规模化的初创公司,具备一定的参考意义。
2015年到2018年,随着信息流业务的进入,我们将搜索底层(Suez或AI·OSframework)数据抽象沉淀出来,在沉淀的数据上面,衍生了图引擎、预测引擎、搜索引擎、推荐引擎,形成了今天AI·OS的主体框架。在这个过程中,我们也统一了全集团的搜索和信息流基础框架,但这个过程是很依赖于阿里集团内部自下而上的搜索平台推进,这是在业界获得证明,在集团获得认同后,纳入到集团战略里的。
2018年~2019年,我们推进了全图化的架构,是从深度学习开源框架TensorFlow学来的。在深度神经网络迭代过程中,全图化架构这种图化DAG的表达,对业务描述更为标准通用化,我们把这个全图化架构学来后,推广到所有业务线,不仅是深度学习上,还包括业务逻辑调整、场景迭代、功能调整,如粗排、精排、统计、过滤这些功能,都用图化的方式来表达,在业务迭代效率上,有了质的飞越。
由于之前在定制业务逻辑时,难以避免有些代码级的,像C++、JAVA、插件开发,虽然能解决业务需求,但维护升级成本较高。解决方案就是用DAG算子化的表达,完成算子图后,随着版本升级,不需要改变算子图,仅需改变算子的实现,把业务迭代、平台升级的耦合度大大降低,非常好地解决了这个问题,这是近两年重要的技术突破。
在这个过程中,我们也把搜索和推荐的技术,用到了非常有趣的场景上面,比如菜鸟物流引擎,本质上是图检索和图计算的表达,跟我们的引擎体系,与iGraph图引擎一起成长,成就了这个典型的场景,在这个场景上每天有亿级别的包裹在图中流动,寻找最优化的路径,都是通过这个引擎来支持的。还有像钉钉消息搜索,消息是加密的,我们是无法查看的,而这个加密是从上到下贯彻到每一个环节的,在常规的搜索引擎中,是无法实现的。这个加密能力,是靠引擎的迭代实现的,除了深度学习外,我们在逐步引入SQL的能力。
随着集团内部进一步贯彻中台战略,不管是在软件的抽象,还是在能力的衍生,都需要在云上发挥。我们已经在集团内部已与蚂蚁金服业务拉通,并开辟了新的突破口。我们也真正在践行平台化、通用化的思路,用最高效的方式解决问题,并打造出了海神(一站式选品投放系统)、开放搜索(一站式内容智能搜索服务)等经典应用产品。其中,海神平台支撑了阿里集团1000+个性化场景,业务覆盖淘宝、天猫、聚划算、双11大促等业务线,支持了超过10亿次的选品投放。开放搜索作为高搜索质量的一站式内容智能搜索服务,以产品方式规模化支持搜索业务,覆盖了集团绝大部分搜索业务,业务应用数量超过1万个。并在双11大促时,担负了重要角色,支撑了高达100万的QPS峰值。
AI·OS主要部件包括:
深度学习极大加速了模型工程的发展,模型迭代越来越频繁,网络结构越来越复杂多样,因此给算法迭代效率、数据计算效能以及模型交付可靠性等都带来了巨大挑战。为此我们提出并构建了面向大规模商业化场景的一站式深度学习建模平台——星云。借助星云,用户可以快速完成从特征引入、样本特征变换,到模型训练及评估,再到模型交付整个算法建模闭环。在此基础上,星云提供了完善的数据模型校验体系,确保用户的离线建模和模型交付具备生产级别的可靠性。星云支持全量学习、增量学习和在线学习,并通过高层抽象实现了各种学习模式之间的低成本切换。
TPP(ThePersonalizationPlatform,阿里个性化平台)为集团众多的个性化业务提供开放、一致的解决方案,让搜索、推荐技术轻松服务于业务发展,业务也能快速得在平台找到需要的技术,是AI·OS(OnlineServing)大数据深度学习在线服务体系中的入口之一。用户在TPP平台上编写方案代码,通过场景的形式对外提供服务。用户不用关心机器资源申请,应用部署结构,不需要编写服务框架,只需要实现自己的推荐逻辑函数,在TPP产品页面管理方案的生命周期,从编译,调试到发布上线。
我们将集团内沉淀出的技术能力,从2014年开始逐渐向外部推出。目前,依托于AI·OS体系构建的产品矩阵如下所示。
在阿里巴巴集团内部,我们依靠开放搜索统一了各个搜索中长尾业务,自助接入的业务数量达上千个,基本覆盖了集团各个BU的业务。经过数年的耕耘,我们在阿里云也拥有数千家用户,包含内容、电商、视频等行业的典型应用。
智能推荐(AIRec)延申自阿里集团内部的海神系统,提供一站式的个性化推荐服务,服务使用者在提交内容和用户行为,在确保数据保密的前提下,按照不同行业的模板,应用个性化推荐算法,实时调整效果,为用户提供服务。除了阿里巴巴深耕的电商领域外,我们在内容、视频等其他行业算法的投入是相当充沛的。我们要把内部的技术用好之后,很自然地更加抽象、通用地拓展新的场景。
在这一过程中,数据源的埋点规范、使用是有些门槛的,但我们也致力于让产品更易用,同时效果提升的监控、调试、运营干预的策略,都已经在产品里提供了。在中小企业的创业期间,这可能将成为一种刚需配置。
还有围绕开源生态的Elasticsearch,这款服务由我们和Elastic公司合作推出。我们秉承开放的生态理念,将Elasticsearch的灵活易用和我们调度管控系统的稳定高效相结合,并根据用户需求,不断迭代自研的创新性功能。用户需要什么,我们就会提供什么,Elasticsearch在我们体系上做适配,是一个相互扶持、相互助推的局面。
在这三个垂直产品之下,是我们基础的云上技术积累,比如ElasticFlow,在数据进入引擎之前,需要对数据做打平处理,再灌到搜索引擎里,例如Elasticsearch就需要ElasticFlow。同时,它还实现了开放搜索开箱即用的离线能力。在这一层,我们需要的是具化的计算引擎能力,这个计算引擎是在集团的计算平台之上,为搜索、推荐定制了一个数据采集、开发、共享以及模型训练的能力,这个能力提供出来之后,可以让其上的产品横向地拉通共享,这也是AI·OS体系沉淀的重要标志。
再下层是管控平台,搜索的基础平台以及阿里云的基础产品,在这上面我们会有一些生态化的产品。
以下将介绍几个典型用户案例。
在春节期间,我们和好未来达成了合作。它旗下的直播云教育平台,在合作过程中有非常大的业务量增长,使用的是Elasticsearch+Logstash+Kibana+Beats的产品组合。在疫情期间,业务量的峰值和平时相比,有翻倍的Elasticsearch集群扩容的需求,我们在分钟级完成了集群扩容,让客户的用户体验得到最佳表达。翻倍的扩容不止需要把资源要过来,还需要把数据扩上去,并在不需要的时候,把资源还回去。这个是我们所拥有的非常重要的弹性扩缩能力,能很好地满足用户需求,让他在成本上达到最优。
众安保险在阿里云Elasticsearch上是比较大规模的用户,我们帮助他提升了性能,优化成本,在数据库检索加速场景满足了多表关联的查询需求和高可用性的要求,并保证金融类企业异地容灾部署的需求。