此次比赛分为了两个赛道,分别是通用赛道和AIGB赛道。两个赛道侧重点各有不同,对参赛队伍提出了不同的技术要求,其中:
AIGB赛道使用生成模型来学习自动出价Agent,需要采用生成模型来端到端输出决策。
算起来,自今年6月底注册阶段开始,经过了近半年的激烈角逐,比赛终于决出了胜负!
快手商业化算法团队从千余支队伍中脱颖而出,包揽了两个赛道的第一名,成为本次赛事最大赢家。
夺冠方案
具体来说,所有展现机会按顺序到达,出价Agent依次对每个机会进行竞价。对于每个机会i:
最终实现的CPA定义为:
其中,对应优化目标最大化转化,在超成本即实际CPA>C时,P<1,会对转化进行降权。
总体来说,这项比赛不仅可以促进决策技术的突破,而且还将给行业应用场景带来启发。我们来看下快手是如何在通用和AIGB两个赛道拔得头筹的。
通用赛道
这就需要在离线规划最优解的基础上,自适应在线竞价过程,以获得更优出价序列。快手团队创新地提出了一种基于强化学习的在线探索技术方案,巧妙地解决了该问题。
首先,考虑多坑特点,快手团队基于竞胜率以及多坑的曝光率将问题建模成约束优化问题,并基于该问题的对偶问题求解出离线最优出价系数,得到最优出价形式。
然后,快手团队建模出价系数和未来预期消耗以及预期转化的关系,并且为了解决不确定性问题,在建模时综合考虑了稠密的先验转化以及稀疏的后验转化。
最后,为了适应在线环境的不确定性,快手团队提出基于强化学习的在线搜索方案:首先搭建一个竞价模拟器环境,能够学习不同出价对应的序列长期价值;然后基于离线最优出价系数划定一个区间进行采样,最后挑选出价值最优的动作作为最终的出价系数。
结合最优化理论和强化学习在线搜索。
AIGB赛道
相比于通用赛道,AIGB赛道面向一种全新的迭代范式。由于生成模型,包括扩散模型、决策Transformer、大型语言模型,在语言、视觉等领域体现出算力和数据的scalinglaw,并且在决策任务中表现出了巨大的潜力,因此AIGB赛道要求采用生成模型,将自动出价建模为生成式序列决策问题,探索生成模型用于出价问题的机会。
在AIGB赛道,一个首先要解决的问题是选择模型架构。序列决策领域有扩散模型和决策Transformer两大类。参赛者面临在竞争性游戏中做出长期战略决策的关键挑战,众多竞争对手的策略会快速发生变化,以DiffBid为代表的扩散模型方案存在两个不足:
优化目标对齐能力弱:一次性生成一条序列,序列之间约束较弱,甚至学不出剩余预算单调递减这一性质;
训练效率低:是两阶段范式,首先预测状态序列{s_{t+1},s_{t+2},...,s_{T}},然后根据{s_t,s_{t+1}}预测最终出价,训练较为复杂。
而决策Transformer建模长期价值returntogo,直接预测出价,相比于DiffBid具有和目标对齐能力更强、训练更简单的优势。
然而,快手团队发现:决策Transformer模型的学习机制是模仿学习,难以学习到超出数据集的出价策略。因此,他们考虑在策略学习时探索更优的出价系数,增强模型学习,但简单的探索很容易导致离线强化学习的分布外问题。
为了解决这个问题,快手团队从决策Transformer的本质出发,即决策Transformer根据RTG生成对应的出价系数,下一时刻的高RTG出价系数需要有更大的生成概率。
有了这个关键认知,快手团队提出一种RTG引导的出价系数探索方案——DecisionTransformerwithRTG-drivenExplorations,保证探索性的同时兼顾安全性,从而增强模型学习。
DecisionTransformerwithRTG-drivenExplorations
简单来说,DecisionTransformerwithRTG-drivenExplorations方案主要包括如下步骤:
首先训练模型预估下一时刻的RTG,具备评估探索的出价系数好坏的能力。
每个timestep额外预测一个基于原始出价系数探索新的出价系数,鼓励模型探索下一时刻RTG更高的出价系数。
模型朝着原始出价系数和探索到的出价系数中更优的出价系数更新,避免OOD问题。
基于RL的自动出价在业务侧开始发力
第二代出价算法MPC,它的全称为ModelPredictiveControl,引入了对未来的预测,在对出价与未来消耗、成本的关系进行建模的基础上可以做出更精准的出价规划。不过,该算法建模能力较弱,也无法做出多步长期决策。
此外,面对OOD问题,快手在算法选型上采用了离线强化学习算法,缓解了训练数据集不足带来的问题,可以更稳健地进行决策,降低策略失效的风险;快手又搭建离线模拟环境,优化出价策略并验证效果,确保在线策略的安全性、有效性和稳健性,降低高风险决策可能造成的损失。
夺冠背后
是AI技术的厚积薄发
此次NeurIPS2024大赛,真正诠释了快手商业化算法团队的AI技术积累以及在实际业务中经受考验的信心。
作为一家以人工智能为核心驱动和技术依托的科技公司,快手已经看到了以技术为引擎、辅以算法在推动业绩增长方面的巨大价值。