与1500多支国内外队伍同台竞技,快手在NeurIPS2024顶级大赛中上演双杀AutoByte在线播放免费听

此次比赛分为了两个赛道,分别是通用赛道和AIGB赛道。两个赛道侧重点各有不同,对参赛队伍提出了不同的技术要求,其中:

AIGB赛道使用生成模型来学习自动出价Agent,需要采用生成模型来端到端输出决策。

算起来,自今年6月底注册阶段开始,经过了近半年的激烈角逐,比赛终于决出了胜负!

快手商业化算法团队从千余支队伍中脱颖而出,包揽了两个赛道的第一名,成为本次赛事最大赢家。

夺冠方案

具体来说,所有展现机会按顺序到达,出价Agent依次对每个机会进行竞价。对于每个机会i:

最终实现的CPA定义为:

其中,对应优化目标最大化转化,在超成本即实际CPA>C时,P<1,会对转化进行降权。

总体来说,这项比赛不仅可以促进决策技术的突破,而且还将给行业应用场景带来启发。我们来看下快手是如何在通用和AIGB两个赛道拔得头筹的。

通用赛道

这就需要在离线规划最优解的基础上,自适应在线竞价过程,以获得更优出价序列。快手团队创新地提出了一种基于强化学习的在线探索技术方案,巧妙地解决了该问题。

首先,考虑多坑特点,快手团队基于竞胜率以及多坑的曝光率将问题建模成约束优化问题,并基于该问题的对偶问题求解出离线最优出价系数,得到最优出价形式。

然后,快手团队建模出价系数和未来预期消耗以及预期转化的关系,并且为了解决不确定性问题,在建模时综合考虑了稠密的先验转化以及稀疏的后验转化。

最后,为了适应在线环境的不确定性,快手团队提出基于强化学习的在线搜索方案:首先搭建一个竞价模拟器环境,能够学习不同出价对应的序列长期价值;然后基于离线最优出价系数划定一个区间进行采样,最后挑选出价值最优的动作作为最终的出价系数。

结合最优化理论和强化学习在线搜索。

AIGB赛道

相比于通用赛道,AIGB赛道面向一种全新的迭代范式。由于生成模型,包括扩散模型、决策Transformer、大型语言模型,在语言、视觉等领域体现出算力和数据的scalinglaw,并且在决策任务中表现出了巨大的潜力,因此AIGB赛道要求采用生成模型,将自动出价建模为生成式序列决策问题,探索生成模型用于出价问题的机会。

在AIGB赛道,一个首先要解决的问题是选择模型架构。序列决策领域有扩散模型和决策Transformer两大类。参赛者面临在竞争性游戏中做出长期战略决策的关键挑战,众多竞争对手的策略会快速发生变化,以DiffBid为代表的扩散模型方案存在两个不足:

优化目标对齐能力弱:一次性生成一条序列,序列之间约束较弱,甚至学不出剩余预算单调递减这一性质;

训练效率低:是两阶段范式,首先预测状态序列{s_{t+1},s_{t+2},...,s_{T}},然后根据{s_t,s_{t+1}}预测最终出价,训练较为复杂。

而决策Transformer建模长期价值returntogo,直接预测出价,相比于DiffBid具有和目标对齐能力更强、训练更简单的优势。

然而,快手团队发现:决策Transformer模型的学习机制是模仿学习,难以学习到超出数据集的出价策略。因此,他们考虑在策略学习时探索更优的出价系数,增强模型学习,但简单的探索很容易导致离线强化学习的分布外问题。

为了解决这个问题,快手团队从决策Transformer的本质出发,即决策Transformer根据RTG生成对应的出价系数,下一时刻的高RTG出价系数需要有更大的生成概率。

有了这个关键认知,快手团队提出一种RTG引导的出价系数探索方案——DecisionTransformerwithRTG-drivenExplorations,保证探索性的同时兼顾安全性,从而增强模型学习。

DecisionTransformerwithRTG-drivenExplorations

简单来说,DecisionTransformerwithRTG-drivenExplorations方案主要包括如下步骤:

首先训练模型预估下一时刻的RTG,具备评估探索的出价系数好坏的能力。

每个timestep额外预测一个基于原始出价系数探索新的出价系数,鼓励模型探索下一时刻RTG更高的出价系数。

模型朝着原始出价系数和探索到的出价系数中更优的出价系数更新,避免OOD问题。

基于RL的自动出价在业务侧开始发力

第二代出价算法MPC,它的全称为ModelPredictiveControl,引入了对未来的预测,在对出价与未来消耗、成本的关系进行建模的基础上可以做出更精准的出价规划。不过,该算法建模能力较弱,也无法做出多步长期决策。

此外,面对OOD问题,快手在算法选型上采用了离线强化学习算法,缓解了训练数据集不足带来的问题,可以更稳健地进行决策,降低策略失效的风险;快手又搭建离线模拟环境,优化出价策略并验证效果,确保在线策略的安全性、有效性和稳健性,降低高风险决策可能造成的损失。

夺冠背后

是AI技术的厚积薄发

此次NeurIPS2024大赛,真正诠释了快手商业化算法团队的AI技术积累以及在实际业务中经受考验的信心。

作为一家以人工智能为核心驱动和技术依托的科技公司,快手已经看到了以技术为引擎、辅以算法在推动业绩增长方面的巨大价值。

THE END
1.chatgpt在线和本地部署区别本地部署需要对模型进行配置和优化,以适应不同的硬件和软件环境,对于非专业人员来说可能需要一定的技术能力和经验。本地部署的模型无法享受到线上部署的实时更新和维护,当有新的数据或改进的模型可用时,需要手动更新和部署。 ChatGPT的本地部署在隐私保护、响应速度和离线使用等方面具有优势,但也需要考虑硬件资源和http://chatgpt.cmpy.cn/article/1757675.html
2.在线学习心得体会经管文库(原现金交易版)经在线学习心得体会 https://bbs.pinggu.org/thread-13234262-1-1.html
3.网游在线统计揭秘,数字背后的游戏世界探索日用工艺陶摘要:根据最新的网游在线统计,数字背后的游戏世界正在持续扩大。随着网络技术的不断进步,越来越多的玩家投入到各种网游中,形成了一个庞大的虚拟社区。这些统计数据揭示了玩家的偏好、游戏趋势以及市场潜力等重要信息,为我们揭示了游戏产业的现状和发展方向。 http://yxszg.cn/post/9719.html
4.轨道交通系统范文12篇(全文)由于离线调试和在线调试具有不同的程序循环路线, 如果采用不同的程序来实现之, 则有一个保证两边处理算法一致性的问题。即:为了实现混和调试方式, 一般来说需要建立两个调试系统, 一个用于离线调试, 即对视频文件加载算法;另一个用于在线调试, 即响应帧调用函数。从调试系统调试完毕后, 再将系统的改进写入在线系统https://www.99xueshu.com/w/ikeymwtxdj1q.html
5.135种不同语言实时翻译设备,带在线离线翻译,端口:亚马逊中国Ultimate Translator 支持 14 种主要语言的离线翻译,在无法接入互联网的区域,可以从在线模式切换到离线模式,离线支持西班牙语、英语、中文、日语、法语、德语、阿拉伯语、俄语、韩语、泰语、葡萄牙语和越南语等,在线支持 134 种不同的语言和口音。 超长电池寿命,翻译持久:1500mAh 大容量电池,电池寿命长,可连续工作8小https://www.amazon.cn/dp/B0CMTW1BWS
6.《梦幻西游》掉线钱会到特殊银行吗《梦幻西游》特殊银行取钱刷新离线摆摊所获得的金钱是不会扣的! 当你上线的时候系统会提示你及时处理! 如果没有处理 再次下线 一定时间就会变成储备金 #18 。 3、《梦幻西游》我在钱庄的特殊账户里放1500W下线后会被扣钱吗 网友分享:不会,特殊账户无限放钱.只不过,特殊账户每天每个服务器的总提钱量不能超过15亿.意思是,我和你在同一个https://www.773hf.com/wiki/38486.html
7.2022年网络攻击事件盘点网络电视中心2022年,全球重大网络安全事件频发,供应链攻击、勒索软件攻击、业务欺诈、关键基础设施攻击、大规模数据泄露、地缘政治相关黑客攻击等网络犯罪威胁持续上升。同时,随着网络攻击的敏捷化和产业化,网络攻击成本在不断降低,攻击方式也更加先进,关键信息基础设施面临的网络安全形势日趋严峻,对国家安全造成严重威胁。 https://wztv.66wz.com/system/2022/12/03/105525559.shtml
8.500va650va800va1000va1500va2000va3000va离线交互式在线暂无评价第 #20爆款商品的 线路交互式不间断电源 Foshan Ktac Technology Co., Ltd.实力工厂7 yrsCN 重要属性 其他属性 原产地 China 品牌 KTAC 型号 UPS-650S 相数 单相 防护 短路 重量 5.8kgs 类型 离线 适用范围 安防/监视/警报器 产品名称 http://chinese.alibaba.com/product-detail/500va-650va-800va-1000va-1500va-2000va_60777902270.html
9.4[标准答案]奥鹏作业答案优学网可做奥鹏全部院校作业、国开形考作业答案、在线作业、离线作业、答案联系 微信:wxxygzs 国开((新平台)《财务会计》形考任务1-4[标准答案] 形考任务1 1.下列两个指标之和为1的有()。 回答错误 多选题 (5 分) 5分 A.安全边际率与贡献毛益率 B.安全边际率与保本作业率 C.保本作业率与变动成本率 D.变动成本http://www.youxue100f.com/qita/2022-07-03-8519.html
10.安卓+IOS+在线消息+离线消息我只能说,不懂的东西就是难…… 现在对代码进行解析: 添加监听事件:click点击事件与receive接收事件 在onLaunch函数中,给这个应用添加两个监听事件,一个是click监听点击事件,一个是receive监听接收事件。 对于安卓的在线和离线消息以及IOS的离线消息都是走的click监听事件。也就是说可以直接将消息推送到手机通知栏中,https://blog.csdn.net/yehaocheng520/article/details/110232343
11.杨国斌:中国互联网的深度研究胡泳的财新博客在张宁的分析中,网络社区的独特之处不在于它与表面上更真实的“线下世界”之间的区别,而是这些社区的人们如何斡旋于在线和离线空间之间。其结果是出现了一种新型的社区生活和公民行动主义,旨在通过同行分享、志愿者工作以及在线和离线慈善来实现社会变革。 澳洲学者许建(Jian Xu)的文章研究的是网络围观。这种新形式的https://huyong.blog.caixin.com/archives/195471
12.SIEMENSSIMATICSTEP7破解版SIEMENSSIMATICSTEP记录多达16个不同的信号 最多可同时进行4个独立的跟踪作业 多种触发选项两个窗口:模拟和二进制信号(逻辑分析仪) 多功能缩放、光标测量功能 导出测量值(例如用于用户特定的处理) 3、在线的 在线功能 STEP 7(TIA Portal)支持多种在线功能 一键在线:显示运行状态、项目树中的诊断概览以及块级的在线/离线比较 通过一http://www.sd173.com/soft/9950.html
13.考试15002000证书申请和下载可以采用在线或离线两种方式用户签名密钥对和加密密钥对均由用户自己产生用户的数字证书由 CA签发,根CA的数字证书由根CA自己签发,下级CA的数字证书由上级CA签发证书状态查询系统所提供的服务可以采用CRL查询或在线证书状态查询两种方式 以下哪项不是CA的服务功能( )。 提供加密私钥管理用户证书签发用户证书https://www.wjx.cn/xz/228260884.aspx
14.西门子S7在线阅读 序言 本书系统地介绍了西门子S7-1200/1500系列PLC在博途环境下的SCL语言编程,具有如下特点。 1.视频配合文字:文字的优点在于方便查阅,便于记忆。视频的优点在于直观易懂,有些内容用文字描述可能要花费很多笔墨,并且无法看到实际演示的效果。本书将文字与视频相结合,随书带有80多个视频教程,有的视频介绍硬件实https://read678.com/JdBook/index/30720
15.离线厚度尺寸测量一体机LXC1500设备用途:实现锂电池涂布工序或者辊压工序极片厚度宽度的离线检测前一个: 辊压激光在线测量仪 LCH700 后一个: 五架面密度测量仪同步系统 测量原理:测厚模块由两个激光位移传感器上下对射的方式组成的,上下的两个传感器分别利用三角形测量法,发射一束激光至极片表面,通过检测反光位置即可测量出极片上表面的位置和https://www.kfckgs.com/productinfo/2824426.html
16.监管总队辽宁蚀守所武警“智慧磐石”工程竞争性磋商公告7、★能对门的开启方式,指纹、人脸使用权限进行组合设置,实现不同场景的权限管理,***张人脸管理; 8、支持数据上传功能,可将前端比对结果及抓拍的照片实时上传给后台平台保存; 9、 ★门禁终端支持与AB门客户端进行实时对讲功能,无需另外安装对讲分机; 10、支持https://www.dlzb.com/d-zb-17992420.html
17.Siemens西门子工业SIMATICS7免费在线预览全文 Siemens西门子工业SIMATICS7-1500STEP7V18及以上版本的S7-1500T运动系统功能V7.0SIMATICS7-1500STEP7V18及以上版本的S7-1500T运动系统功能V7.0使用手册用户手册产品说明书使用说明文档安装使用手册 11/2022 SIMATIC S7-1500 1 简介 (S7-1500T) 2 安全须知 (S7-1500T) SIMATIC 3 V7.0 新功能 (https://m.book118.com/html/2023/0522/7060043042005111.shtm