基于离线强化学习的实时流媒体带宽精确预测MMsys’24

为解决之前的问题,本文提出了一种基于离线(数据驱动)强化学习(RL)技术的RTC流带宽预测方法。离线RL利用预先收集的静态离线数据集来训练一种可以优化QoE的策略。通过这种方式,该模型可以利用任意其他专家策略的历史优秀经验,并且无需与真实的环境进行在线交互。

训练和评估数据集是从世界各地的音频/视频点对点MicrosoftTeams通信中收集的。训练数据集中有18859个会话,评估数据集中有9405个会话,每个会话对应一个音频/视频呼叫,包含以下字段的数千个序列:(i)150维状态向量,(ii)来自6种不同专家策略的估计带宽(iii)客观音频质量(iv)客观视频质量。质量表示平均意见得分(MOS)∈[0,5],得分5为最高。评估数据集还提供了每个序列的实际链路容量。本文使用大约10%的训练数据集来训练模型,所提供的训练集总共包括六种不同的行为策略。因此,为每种策略类型随机选择300个会话,总共有1800个会话组成用于训练的数据集。使用所有的评估数据集来评估模型。

状态向量(states)

反馈奖励(reward)

对于每个状态-动作对,数据集提供每个MI期间的音频质量和视频质量。将奖励函数设置为这两个质量的加权和:

qa是音频质量,qv是视频质量,a∈[0,2]控制这两个质量的权重(考虑到它们可能对整体质量的贡献不相等),在后续消融实验中发现a取1.5时,训练效果最佳.而在每个会话的开始和结束处,存在视频质量值缺失的过渡部分(即,NaN)。这是因为在这些阶段期间,链路中没有视频数据包,导致视频质量不确定。因此,本文尝试了如下三种不同的方法来处理缺失值:

通过这种方法,在整个轨迹中避免了显著的奖励波动,并且它有助于减轻模型在会话开始时严重高估带宽的趋势。这种方法还有助于在会话开始时做出正确的决策。虽然可以考虑其他方法,例如使用音频质量来填充缺失的视频质量,但这些方法并不总是可行的。在某些情况下,视频和音频质量都可能丢失。此外,这两种性质的分布通常是不同的。因此,简单地将值从一个复制到另一个是不合适的。最终选择了平均值填充方法,用所有转换的平均值替换缺失值。

算法

目前三种代表性的离线RL算法:

TD3_BC是一种策略约束方法。它只是将行为克隆项添加到在线RL算法TD3的策略更新中。对于CQL,与TD3_BC中的策略约束不同,它将惩罚放在Q函数上(即,state-actionvalue函数),其旨在学习保守的Q函数,使得策略在该Q函数下的期望值低于其真实值。IQL是SARSA类型学习的代表,通过将状态值函数视为随机变量来隐式地近似策略价值函数。尽管TD3_BC和CQL都减轻了分布外(OOD)动作采样,但由于潜在的分布偏移,它们的性能仍然受到损害。相比之下,IQL利用预期回归来实现样本内训练,避免了分布偏移引起的错误。相应地,IQL有望更准确地学习Q函数,并获得更好的最终策略。因此,本文选择IQL算法来训练模型。在后续中的评估结果也证明了IQL优于其他两种算法的性能。IQL的目标是在策略评估阶段近似值函数V(s):S→R和状态-动作值函数

评估本文所提出的方法的性能的最佳指标是音频和视频质量。但是,由于没有质量评估模型,无法获得每个动作后的实际质量。因此,转而评估预测精度。一般来说,准确的带宽预测有望确保更高的音频和视频质量。选择三个指标来评估所有方法的预测准确性,包括(i)预测误差率,(ii)高估率(iii)均方误差(MSE)。通常,这三个度量的较低值对应于较高的预测精度。其中baseline为MMsys提供的一种基于IQL的带宽预测模型,实验结果如图2所示:

在错误率方面,模型没有超过行为策略和基线的性能。三个模型的高估率也相似,本文模型略低。然而,当考虑MSE时,与其他模型相比,本文的模型表现出更小的均方误差,比基线和行为策略低18%和22%,

在reward处理缺失值的三种方法中零填充和平均值填充都是值替换方法。在相同的训练算法和演员网络结构下,这三种方法在评估集上的比较结果如图4所示。

在平均填充方法下,奖励函数中音频质量和视频质量的比例相等。从结果来看,平均填充法仅在高估率上有优势,但本文还是选择了这种方法。这是因为,与其他两种方法相比,它保留了更完整的会话信息。一方面,零填充在整个会话的奖励轨迹中引入了突然的变化,其中未定义的奖励被简单地视为最坏情况(0)。因此,模型可能会错误地将“好”行为视为“坏”行为。另一方面,跟踪裁剪会删除所有丢失的数据,使模型无法从会话开始时的操作中学习

在reward计算公式中α负责调整音频和视频质量的权重。图5评估了不同α下模型的性能。

图6显示了三种不同算法模型的评估结果。:TD3_BC,CQL和IQL。这些评估是在一致的条件下进行的(即相同的训练集和输入特征)。实验表明使用IQL训练的模型在所有指标方面都优于其他模型,这表明IQL更适合于训练带宽预测模型。

THE END
1.佳文推荐跨设备联邦学习中的客户端选择算法海量异构客户端中选择合适的集合参与训练, 以优化联邦学习协议的资源消耗和模型性能被广泛研究, 但仍没有文献对这一关键问题进行综合调研. 需要对跨设备联邦学习的客户端选择算法研究进行全面调研. 具体地, 形式化描述客户端选择问题, 然后给出对选择算法的https://mp.weixin.qq.com/s?__biz=MzU0NjM2NzI5NQ==&mid=2247488223&idx=2&sn=c2cb5c2b4bca30487ce9402a54a5c241&chksm=fa5b3abce10a3ba41d104889fd7778194cf093b88d46496f9babaf5f51f06cdf8ac89ed6d5ee&scene=27
2.离线算法vs在线算法离线和在线不是具体的某种算法公式,而是一种思维模式,取决于在所给的问题背景下,数据资源是否能够通盘考虑,或是现实场景中不断地有新数据介入 离线算法(OfflineAlgorithm) 离线算法是指在开始处理数据之前,所有需要的输入数据都是已知的。算法可以一次性读取所有数据,然后进行处理。离线算法通常用于批处理场景,例如数据https://blog.csdn.net/m0_61678439/article/details/141088418
3.机器学习RLHF:在线方法与离线算法在大模型语言模型校准中的然而,随着离线对齐算法的迅速崛起,RLHF所面临的挑战也日益严峻。本文将从RLHF的基本概念入手,探讨在线方法与离线算法在大型语言模型校准中的优劣,并通过实验和代码实例加以佐证。 二、RLHF概述 RLHF是一种结合人类反馈与强化学习的技术,旨在通过人类反馈来优化语言模型的输出。其基本思想是通过预先训练好的语言模型生成https://developer.aliyun.com/article/1542161
4.TheZealous的集训日常之离线算法与在线算法区别TheZealous1.离线算法:就是在处理之前必须得到所有数据的算法,像是线段树之类的。这类算法一般不依赖于预处理,只是在多次请求后集中处理问题。 2.在线算法:和离线算法相反,在线算法处理问题时无须得知所有数据,每次得到请求后及时处理,等待下个请求,像是st之类的。这类算法比较依赖于预处理,预处理过后,处理每次请求能更快一点https://www.cnblogs.com/TheZealous/p/15130679.html
5.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客尽管这些假设听上去似乎是对的,但实验结果表明它们无法可信地解释在线和离线算法的性能差距。 他们通过消融研究发现,提升离线优化的一种有效方法是生成分布上接近起始 RLHF 策略(这里就刚好是 SFT 策略)的数据,这本质上就模仿了在线算法的起始阶段。 优化性质 https://www.thepaper.cn/newsDetail_forward_27434433
6.基于数据的ADP离线值迭代算法和在线Q学习算法研究针对上述存在的问题,结合自适应动态规划离在线实现的优缺点,本文提出一种先离线后在线的自适应优化控制方法,即:在被控对象未知的情况下,采用基于数据自适应动态规划离线值迭代算法首先对系统进行离线优化控制,再使用在线Q学习策略迭代算法对离线优化控制进行在线改善。这种先离线后在线的基于数据的自适应优化控制方法,可以https://cdmd.cnki.com.cn/Article/CDMD-10593-1012496385.htm
7.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法近期,吉林大学人工智能学院、未来科学国际合作联合实验室人工智能团队在IEEE Transactions on Knowledge and Data Engineering上发表题为“Sample Efficient Offline-to-Online Reinforcement Learning”的研究工作。该研究提出了一种样本高效的离线转在线强化学习算法,通http://icfs.jlu.edu.cn/info/1007/3101.htm
8.推荐系统完整的架构设计和算法(协同过滤隐语义)流式训练:、流式训练模块的主要作用是使用实时训练样本来更新模型。推荐算法中增量更新部分的计算,通过流式计算的方式来进行更新。在线训练的优势之一,是可以支持模型的稀疏存储。训练方面,在线模型不一定都是从零开始训练,而是可以将离线训练得到的模型参数作为基础,在这个基础上进行增量训练。 https://cloud.tencent.com/developer/article/1508050
9.离线强化学习第三个实验,在线 DDPG 算法在训练完毕后作为专家,在环境中采集大量数据,供离线 DDPG 智能体学习。这 3 个实验,即完全回放、同步训练、模仿训练的结果依次如图 18-2 所示。图18-2 在线算法(橙色)和对应的离线算法(蓝色)的实验结果,从左到右依次为完全回放、同步训练、模仿训练https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
10.《高级算法设计与分析》试卷及答案卷2.docx最小生成树的总代价小于等于旅行商回路的总代价对T进行按先序往返遍历,其总代价小于等于2倍的旅行商回路的总代价算法的总代价大于等于对T进行按先序往返遍历的总代价下面对在线算法和离线算法比较,以下描述错误的是:即使数据在计算时都已知,也可以采用在线算法来达到更好的结果在线算法通常是近似算法通常通过和离线最https://www.renrendoc.com/paper/365498544.html
11.一文读懂深度学习算法的技术原理及5个领域实践(1图像2语音3文本深度学习在视频领域的应用主要集中在交通监管和目标跟踪上.杨红红等[48]构建了基于稀疏约束的 DAE 模型,以非监督训练监督式微调的方法来训练模型,将其运用到交通目标跟踪上.实验选取了一组视频,将IVT,MIL,OAB3种算法进行比较,最终发现,基于系数约束的 DAE 模型在不同的场景下都有较高的准确率.司朋举等[49]在https://zhuanlan.zhihu.com/p/370465231
12.美团点评容器平台HULK的调度系统调度计算模块(资源调度算法) HULK调度系统的调度计算方式与诸多业界调度系统类似,通过过滤+打分的方式筛选出“最优部署位置”: HULK调度任务 宿主机(Host):调度资源池中共享的宿主机集群,支持pool级别硬隔离,如在线服务与数据库/缓存的实例部署在不同的物理机集群中;支持资源软隔离,如在线服务离线任务混布部署,通过cgrhttps://tech.meituan.com/hulk_scheduler_introduction.html
13.在线匹配问题研究进展:如何应对一般图以及顶点全在线的挑战?在STOC90会议中,Karp, Vazirani和Vazirani三位学者首次提出了在线二分图匹配模型:假设存在一个潜在的二分图 其中一侧顶点为离线顶点(直接给定),而另一侧顶点为在线顶点(逐步到达)。我们要求算法在任何一个在线顶点输入的时间点(此时与中顶点的边同时给出),即时地决定是否将与中某一相邻顶点匹配,并且决策不能反悔。https://www.orsc.org.cn/wechat/article/detail?id=760
14.用于时间序列中的变点检测算法,你学会了吗?在离线分析中,我们能够利用时间序列的历史数据。对于 CPD,我们可以应用线性回归的概念。然而,如果存在变点,直线就无法很好地拟合数据,这时候分段线能够更好地适应数据。建立分段线的一种直观算法是确定变点作为断点。这种方法被称为 精确线性时间(PELT)。https://www.51cto.com/article/789591.html
15.基于改进人工势场法的无人机在线航路规划算法AET基于APF算法的在线航路规划在按照参考航路运行中,压线能力出众,并有平滑航迹的功能。对改进后的无人机在线航路算法进行仿真,首先对无人机的航路进行离线规划,设置禁飞区后规划无人机参考航路和新的雷达威胁源,在线规划结果如图8所示。 由图8可以看出,自适应APF和传统APF方法在应对雷达威胁源的处理基本相似,均能尽可能http://www.chinaaet.com/tech/designapplication/3000079906
16.赵伟平台营销的算法欺骗风险及其法律规制虽然营销人员长期以来一直使用测试来预测哪些广告最有效,但离线的人工指导和在线的实时机器控制的实验之间的差异是深远的。算法的速度和规模使人们能够进入一个普通人类迭代无法探索的巨大设计空间。2020年的一项实验显示,平台营销文本的转化率是基于人类营销人员目标文本的13倍。在追求准确性和速度的过程中,机器正在生成https://www.jfdaily.com/sgh/detail?id=827990
17.GitHubanttinyjs/binpacking算法的复杂度 底层max-rect-bin-pack算法 在线算法虽然效率更高,但是在线算法结果没有离线算法结果好。 上层 遗传算法 遗传算法的时间空间复杂参考paper。 大致上可以认为和种群中孩子个数和生态个数成正相关。 API & demo FindPosition 寻找矩形位置的五种策略。 https://github.com/ant-tinyjs/bin-packing-core
18.archlinux离线安装算法购买和安装(离线)离线安装DIS Logstash Plugin安装DIS Logstash Plugin有在线和离线安装两种方式:离线安装需要获取插件包并执行安装脚本。 前提条件 已安装PuTTY工具。 操作步骤 使用PuTTY工具(或其他终端工具)远程登录Logstash服务器。 进入到Logstash的安装目录。 来自:帮助中心 https://support.huaweicloud.com/topic/1177917-1-A
19.应用最小二乘一次完成法和递推最小二乘法算法的系统辨识最小二乘一次性完成算法是离线算法,需要采集大量数据,一次性完成计算,因此,数据计算量大,当数据量很大时,数据输入不方便,但在本课程设计过程当中,考虑到了此问题,运用相应的方法,解决了矩阵输入的问题。递推算法适合于在线算法,利用原有参数估计进行下一步估计,可以做到运算量小,实时进行估计,根据仿真结果图示,可以https://max.book118.com/html/2024/0207/6240152125010044.shtm
20.莫队算法(普通离线)离线”和“在线”的概念。在线是交互式的,一问一答;如果前面的答案用于后面的提问,称为“强制在线”。离线是非交互的,一次性读取所有问题,然后一起回答,"记录所有步,回头再做”。 基础的莫队算法是一种离线算法,它通常用于不修改只查询的一类区间问题,复杂度为 ,没有在线算法线段树或树状数组好,但是编码很简单 https://www.jianshu.com/p/168a97cc7aa6