第七章人工智能,7.5探索基于强化学习的智能推荐之路(作者:朱仙)jiapeng

随着千人千面个性化推荐技术在手机淘宝的全面应用,推荐场景日均引导成交在整个手淘平台占据着非常重要的比例。用户越来越习惯于逛淘宝来满足日常的休闲或者购物的需求。然而很多时候,用户购买的目的性并不是很明确。一个宝贝的成交,可能会跨越多天,经历较长的决策周期。与此同时,在整个用户的购买决策过程中,他们经常在多个异构的推荐场景间进行跳转,进而影响自身后续的行为序列。

因此,推荐的优化需要从单一场景的直接优化,逐步进阶到多场景的联动优化,这就需要我们将用户的长期行为序列纳入建模,从而实现整个手淘推荐链路的累积收益最大化。在这样的背景目标下,我们先后探索落地了两项阶段性的优化工作:

1)基于监督学习的购买决策建模;

2)基于强化学习的全链路场景优化;

通过这两个阶段的工作,我们初步实现了手淘推荐引擎的合理化与智能化,它能根据用户-系统的联动交互,结合用户当前的状态,给出最优的推荐决策,从而获得长期累积受益的最大化。

我们首先对已有的单一场景推荐过程进行深入地思考和分析:常见的成交模型仅仅通过用户短期行为对用户当天的成交进行预估,实际上是局部贪心的算法。导致的结果是无法引导高质量的成交,在优化cvr时往往会引起笔单价的下降(笔单价低的商品存在cvr高的天然属性),即使最终gmv提升,也是建立在降低成交质量的代价之上。

购买决策过程是一个解释消费者行为的成熟理论,除去购买价格低决策风险小或品牌忠实用户导致快速决策的情况,大部分购买决策过程包括以下几个阶段:

我们借鉴这样的思路,将用户的购买行为看作多个阶段组成的过程,并结合场景日志对购买决策过程进行建模。我们暂不讨论用户成交后的行为(即购后反馈),只将购买决策阶段作为整个购买决策过程的终点。

如上图所示,以CF(协同过滤)方式召回的商品会通过小时级曝光日志进行曝光过滤。这一策略在整体上对ctr指标有提升,向用户曝光更为丰富多样性的商品,提升用户购买初期信息搜集的体验,但也会过滤用户行为收敛后真正中意的商品,打断用户的购买过程。

因此,我们在CF之外增加购买决策阶段商品的召回,不对决策商品进行强制曝光过滤,只是将曝光作为特征加入模型。我们为购买决策阶段进行建模,用户反馈点击通过购买决策模型判别为决策商品或非决策商品:决策商品被重新召回,而非决策商品将会在排序中被降权。

我们收集用户在详情页的行为作为判断用户是否处在购买决策阶段的主要特征,结合全网以及场景的用户偏好,以场景GMV为目标进行建模。

page_(u,i)为用户u在商品i详情页的行为,描述了用户对商品的决策行为。prefer_(u,i)表示用户u对商品i的偏好向量。g(.)与h(.)是我们结合场景样本与模型拟合得到的ctr与cvr预估函数。

与常规gmv优化任务所不同的是,我们的是全部来自于场景点击召回再次曝光的样本。我们使用gbdt作为ctr与cvr的拟合函数g(.)、h(.)。

我们的策略在日常进行小流量实验,对比效果在客单价与总成交上都有非常显著的提升;双11当天大促全量上线,更是以极少的pv占比引导了很大比例的成交。

在第一阶段的工作中,我们基于传统监督学习建模的方式,在一定程度上提升了单一场景的引导成交和客单价。但总体上来讲,模型上仍然不够优雅智能,用户在成交链路上的行为序列特性并没有在模型上体现。

事实上,在电商的个性化推荐中,存在一条典型的交易链路,它能基本刻画一个用户完成一次购买行为所经历的路径环节。比如用户在首页闲逛时可能会对某个商品发生兴趣,然后点击进去查看商品的详情,或加购、或收藏;当用户下定决心购买后,会到达付款完成页,之后又可能会查看订单详情、物流信息等,直到最后确认收货。

这些页面都有相应的推荐场景,在购买前通过推荐辅助促进用户的决策过程;用户完成某个宝贝购买后,全力捕捉用户的购物热情,继续通过合理的推荐让用户继续购买更多的宝贝。整个交易链路的核心就是最大力度的引导用户成交,实现全链路成交的累积最大化。

所以我们就继续考虑能否采用类MDP的方式,进行更为合理智能的全链路优化建模,即在用户每一个当前的链路状态,推荐引擎可以依据一定的策略,输出相应的推荐行为,然后根据用户的反馈交互,对策略进行迭代更新,从而最终逐步学习到最优的推荐策略。换句话讲,也就是强化学习的建模优化思想。

然而与搜索等场景不同的是,商品的个性化推荐对用户来讲是一个“SoftNeed”,很多时候购物的目的性并不是非常的明确。一个宝贝的成交,可能会跨多天,决策周期较长。并且在购买决策的过程中,用户会经常性的在多个异构的推荐页面场景中进行跳转,情况也较搜索更为复杂。

结合推荐场景的语义环境,首先明确强化学习几个核心元素的基本含义。我们将推荐引擎视为Agent,

S:引擎能感知的当前用户状态空间;

A:商品推荐空间;

R:奖赏函数;一次状态跳转Agent能获得的奖赏;

强化学习学到的是一个从环境状态到动作的映射,即行为策略π:S→A,而学习的目标,就是通过与环境的交互过程中,寻找到一个最优策略π^*,在任意状态s下,获得的长期累积奖赏最大化,即:

V^π(s)为策略对应的状态值函数,表示状态s下的折算累积回报:

对应的状态-动作值函数为:

即在状态s下,采用动作a,Agent能获得累积奖赏期望。显然,对于最优的策略π^*对应的状态值函数和动作值函数,有:

对于经典的强化学习,可以通过寻找最优的状态值函数或动作值函数,学习最优策略π^*。

基于值函数估计的核心思想就是,将状态-动作值函数进行参数化,将大规模的状态动作空间转化为参数空间,在降维的同时增加函数本身的泛化能力。即:

我们通过更新参数w来使得Q函数逼近最优的Q值。

其中,(s)为状态s的特征向量,包含:用户自身维度的一系列特征、当前所处链路场景的特征信息、以及上一跳的trigger特征信息等;ψ(a)为商品维度的一系列特征。

而f本身是一个回归模型,典型的包括:线性回归,树回归(e.g.,rf或gbrt等),以及神经网络的方式。

我们通过Q-Learning的方式进行估值的迭代,即:

其中,α能够减减少估计误差造成的影响,类似随机梯度下降,从而最终收敛到最优的Q值。

在电商的个性化推荐中,用户的购物目的性并不是很明确。一个宝贝的成交,可能会跨多天,决策周期较长。并且在购买决策的过程中,用户经常会在多个异构的推荐页面场景中进行跳转。为了应对这一状况,我们对交易链路多个关键场景中,一定周期内的用户真实曝光、点击、成交等行为,在类目限制的基础上按照时序进行关联,从而可以构建出一个行为决策序列,如下图所示:

我们结合实际的业务需求,对行为序列中单步的奖赏收益可以进行具体的定义。

当我们找到最优的估值函数,就可以依据当前的Q值计算出最优的动作输出给用户。这种方式称之为GreedyPolicy,即:

这里可以进一步使用e-greedypolicy的方式,增加一定的exploration,会有利于更新Q值从而获得更好的Policy。

强化学习的全链路优化策略最终在多个场景取得了非常大的业务指标提升。策略本身具有很好的智能迭代成长能力,同时可以优雅地建模用户长周期的购买决策行为,有效促进了高客单价格商品的决策成交。

每年的双11都是对我们日常算法优化的一次大考,也是我们实验前沿技术的最佳阵地。我们在去年千人千面全面触达终端用户的基础上,进一步探索了更为复杂的多场景全链路联动优化,使推荐本身更加的合理化和智能化。从基于监督学习的购买决策,到基于强化学习的全链路优化,我们稳扎稳打,初步开启了智能推荐的新篇章。

THE END
1.常见的人工智能产品有哪些十种最热门的人工智能技术人工智能(Artificial Intelligence,简称AI)是一门研究如何使计算机模拟和实现人类智能的学科。它通过构建智能系统和算法,使计算机能够感知、理解、学习和决策,从而在各个领域提供智能化的解决方案。随着人工智能技术的飞速发展,越来越多的人工智能产品和技术在我们的生活中出现。 https://www.eefocus.com/e/1578596.html
2.学而思智能学习机哪个型号好?学而思智能学习机热卖产品推荐学而思智能学习机哪个型号好,学而思智能学习机卖得好的品牌产品有哪些?{brandctime_brandid:4171564}学而思智能作为学习机行业知名品牌(CNPP品牌榜单:2024年学习机十大品牌第7位),经过多年的用心经营,在学而思智能网店销售的多款产品受消费者喜爱,并且部分学而思智能学习机商品还在市场上享有较高的声誉。学而思智能学习机https://www.cnpp.cn/focus/236337.html
3.十大热门学习机器人排行榜精选10款智能学习机器人品牌产品→买购网推荐理由:十大热门学习机器人品牌产品排行榜出炉了,其中上榜的产品品牌有:优学派、牛听听、火火兔、优必选、物灵、EVOLVER、乐源等,本榜单由买购网大数据平台提供产品数据支持,通过系统整理各大电商平台的产品,综合依据了产品的价格档次、人气销量、品牌知名度、用户口碑评价等各项实力数据情况作为参考。maigoo产品排行榜https://m.maigoo.com/product/specs_11473.html
4.什么是智能推荐?智能推荐的原理是什么?一、智能推荐的魔力 2020年的愚人节晚间,罗永浩在抖音带货,相信你也被刷屏了吧。3小时的直播过程中,22款产品轮番出场,最终首播支付交易总额突破1.1亿、整场直播观看总人数超过4800万、总销售件数逾91万,粉丝打赏音浪收入3600万,由此看来,罗老师看起来离“带货一哥”的目标又进了一步。不得不说,这场魔幻版的流量https://www.niaogebiji.com/article-106383-1.html
5.探索人工智能智能推荐系统未来没有人比计算机更懂你智能推荐系统(Recommendation Systems)利用机器学习和数据挖掘技术,根据用户的兴趣和行为,提供个性化推荐的产品、内容或服务。 核心 智能推荐系统是一种利用机器学习和数据分析技术的应用程序,旨在根据用户的兴趣、偏好和行为模式,向其推荐个性化的产品、服务或内容。这种系统广泛应用于电子商务、社交媒体、音乐、视频、新闻等https://blog.csdn.net/Qingai521/article/details/132219217
6.智能学习产品的产品机制2:游戏化而真的学习和了解了这些理论,会发现游戏的每个设计都能找到相应的理据。比如最近的养蛙游戏,“旅行”这一个主线能够激起用户期待的美好感觉,这就是Fogg 教授认为的人的基础行为动机之一。 具体应用到学习产品中,游戏化应用的最主要形式应该是用户激励机制。下面我们就从学习产品中用户激励机制的设计开始。 https://www.jianshu.com/p/b1eea1416905
7.如何成为一名人工智能产品经理?如何成为一名人工智能产品经理? 人工智能和机器学习正在改变互联网和我们的产品,可能会比你想象得更快。 本文原创首发于「百度大脑」微信公众号(ID:baidubrain),关注百度大脑,读懂人工智能。 他们认为搜索引擎是人们思考的事物,其实那是人们思考的方式。 百度大脑解读:https://36kr.com/p/1721300926465
8.1.5分钟DataWorks产品入门学习笔记领先的算法及模型能力,阿里巴巴智能推荐技术输出,自研分布式搜索引”,QPS峰值近百万,阿里巴巴搜索服务技术输出。 8、开源搜索引擎 降低成本并大幅提升原生性能,100%兼容开源Elasticsearch。 三、DataWorks 产品架构 在数据集成支持批量,增量,实时的数据同步,通过统一任务调度服务和统一元数据服务进行核心支撑数据开发和治理,在https://developer.aliyun.com/article/1077369
9.智慧学习App排行榜华为手机智慧学习app推荐智慧生活App是华为IoT智能设备统一管理平台,可以发现、连接和管理华为8+N智能产品,实现智能设备之间的互联互通,打造您专属的智慧场景,畅享美好生活。【主要功能】 >>快速发现,简单易用您都能快速掌握的智能设备连接和操作,智能设备使用更便捷; >>场景推荐,随你所想按照您的使用习惯,随心定制个性化生活场景; >>丰富内https://www.diandian.com/phb/2018/
10.智能产品开发与应用专业学什么智能产品开发与应用专业学习课程有:家电产品设计、面向对象程序设计、单片机技术应用、C 语言程序设计、电子技术基础等课程。具体内容小编已经整理好了,一起来看看吧。 1智能产品开发与应用专业具体课程 智能产品开发与应用专业主干课程: 电子技术基础、单片机技术应用、C 语言程序设计、面向对象程序设计(Java)、Android项目http://m.gaokao.com/e/20230630/649eaa34e6364.shtml
11.2022年中国知识图谱行业研究报告澎湃号·湃客澎湃新闻知识图谱的产品类型以通用知识图谱与行业知识图谱为典型代表。通用知识图谱经过开拓性构建阶段后,逐渐演变为通用互联网知识图谱,形成搜索引擎、智能推荐、智能问答三大产品类型,产品发展较为成熟。行业知识图谱处于起步期,但其价值及效果逐渐被客户所认可,是知识图谱当前乃至未来一段时期内的发展热点。 https://www.thepaper.cn/newsDetail_forward_19458208
12.腾讯顶尖设计团队总结的2019–2020设计趋势:用户体验篇互联网的产品从大众化转向个性化,越来越多的产品通过定位细分找到了新的机会。设计从同质化的体验转向追求个性化和创新。设计师必须了解与自己完全不同的目标人群,进行用户细分研究,通过良好的用户体验留住用户,提升产品价值。 1. 个性化内容推荐 在大数据背景下,个体兴趣多样,随着机器学习和人工智能的技术的发展,产品越https://www.uisdc.com/design-trend-ux/
13.科大讯飞AI学习机T20Pro小度智能学习平板Z20同时,讯飞还关注推荐题目的质量,通过多维度的对比,确保推荐题目的质量和准确性,优先推荐孩子不会的知识薄弱点和本地常考的知识点。 通过完整的“诊-学-练”的逻辑帮助孩子精准高效提升。 ▲ 科大讯飞 T20 Pro 作为对比,小度智能学习平板 Z20 在回答结束后仅有一个简单的解析,没有详细的解读报告,也没有举一反https://www.ithome.com/0/726/940.htm
14.下一篇讯飞智能学习机荣获第三届深圳教育装备博览会金奖“2020第2020年9月18-20日,由深圳市教育装备行业协会主办的“2020第三届深圳教育装备博览会”在深圳会展中心举办。此次博览会举行了金奖产品评选,讯飞智能学习机X2Pro、《人工智能》小初高系列教材在此次评选中荣获了金奖产品奖项。 据了解,深圳教育装备博览会是教育现代化与科技相融合的新平台,最具有创新的理念技术和产品在https://www.iflytek.com/news/2266
15.阿尔法小蛋儿童学习早教好帮手智能礼物价格厂家型号TYS1产品重量0.82kg 适用人群儿童上市时间2-17 售后服务寄修操作系统安卓 展开 上海科大讯飞学习益智陪护机器人 阿尔法小蛋儿童学习早教好帮手 智能礼物 阿尔法小蛋机器人是科大讯飞旗下合肥淘云科技有限公司***推出的一款智能云陪护机器人。 通过wifi互联,阿尔法小蛋可以和手机端进行微聊对讲;通过深度优化的点播和https://www.china.cn/3czhinengjiqr/4190931348.html
16.讯飞智能学习机X2Pro值得买吗讯飞智能学习机X2Pro全面评测大家应该都知道科大讯飞,他们早前就做过学习机类的产品,反响还不错,如今又更新了一款拥有更科学、智慧学习方法的讯飞智能学习机X2 Pro,或许可以成为更多人的选择。 一、外观:配件丰富、实用,科技感十足 对于学习机而言,外观不重要,但是也是很体现一款产品做工、品质以及体验的关键部分。拿到讯飞智能学习机X2 Pro的https://www.jb51.net/hardware/zonghe/737104_all.html