基于离线强化学习的实时流媒体带宽精确预测MMsys’24|在线算法和离线算法_在线学习

为解决之前的问题，本文提出了一种基于离线（数据驱动）强化学习（RL）技术的RTC流带宽预测方法。离线RL利用预先收集的静态离线数据集来训练一种可以优化QoE的策略。通过这种方式，该模型可以利用任意其他专家策略的历史优秀经验，并且无需与真实的环境进行在线交互。

训练和评估数据集是从世界各地的音频/视频点对点MicrosoftTeams通信中收集的。训练数据集中有18859个会话，评估数据集中有9405个会话，每个会话对应一个音频/视频呼叫，包含以下字段的数千个序列：（i）150维状态向量，（ii）来自6种不同专家策略的估计带宽（iii）客观音频质量（iv）客观视频质量。质量表示平均意见得分（MOS）∈[0，5]，得分5为最高。评估数据集还提供了每个序列的实际链路容量。本文使用大约10%的训练数据集来训练模型，所提供的训练集总共包括六种不同的行为策略。因此，为每种策略类型随机选择300个会话，总共有1800个会话组成用于训练的数据集。使用所有的评估数据集来评估模型。

状态向量（states）

反馈奖励（reward）

对于每个状态-动作对，数据集提供每个MI期间的音频质量和视频质量。将奖励函数设置为这两个质量的加权和：

qa是音频质量，qv是视频质量，a∈[0，2]控制这两个质量的权重（考虑到它们可能对整体质量的贡献不相等），在后续消融实验中发现a取1.5时，训练效果最佳.而在每个会话的开始和结束处，存在视频质量值缺失的过渡部分（即，NaN）。这是因为在这些阶段期间，链路中没有视频数据包，导致视频质量不确定。因此，本文尝试了如下三种不同的方法来处理缺失值：

通过这种方法，在整个轨迹中避免了显著的奖励波动，并且它有助于减轻模型在会话开始时严重高估带宽的趋势。这种方法还有助于在会话开始时做出正确的决策。虽然可以考虑其他方法，例如使用音频质量来填充缺失的视频质量，但这些方法并不总是可行的。在某些情况下，视频和音频质量都可能丢失。此外，这两种性质的分布通常是不同的。因此，简单地将值从一个复制到另一个是不合适的。最终选择了平均值填充方法，用所有转换的平均值替换缺失值。

算法

目前三种代表性的离线RL算法：

TD3_BC是一种策略约束方法。它只是将行为克隆项添加到在线RL算法TD3的策略更新中。对于CQL，与TD3_BC中的策略约束不同，它将惩罚放在Q函数上（即，state-actionvalue函数），其旨在学习保守的Q函数，使得策略在该Q函数下的期望值低于其真实值。IQL是SARSA类型学习的代表，通过将状态值函数视为随机变量来隐式地近似策略价值函数。尽管TD3_BC和CQL都减轻了分布外（OOD）动作采样，但由于潜在的分布偏移，它们的性能仍然受到损害。相比之下，IQL利用预期回归来实现样本内训练，避免了分布偏移引起的错误。相应地，IQL有望更准确地学习Q函数，并获得更好的最终策略。因此，本文选择IQL算法来训练模型。在后续中的评估结果也证明了IQL优于其他两种算法的性能。IQL的目标是在策略评估阶段近似值函数V（s）：S→R和状态-动作值函数

评估本文所提出的方法的性能的最佳指标是音频和视频质量。但是，由于没有质量评估模型，无法获得每个动作后的实际质量。因此，转而评估预测精度。一般来说，准确的带宽预测有望确保更高的音频和视频质量。选择三个指标来评估所有方法的预测准确性，包括（i）预测误差率，（ii）高估率（iii）均方误差（MSE）。通常，这三个度量的较低值对应于较高的预测精度。其中baseline为MMsys提供的一种基于IQL的带宽预测模型，实验结果如图2所示：

在错误率方面，模型没有超过行为策略和基线的性能。三个模型的高估率也相似，本文模型略低。然而，当考虑MSE时，与其他模型相比，本文的模型表现出更小的均方误差，比基线和行为策略低18%和22%，

在reward处理缺失值的三种方法中零填充和平均值填充都是值替换方法。在相同的训练算法和演员网络结构下，这三种方法在评估集上的比较结果如图4所示。

在平均填充方法下，奖励函数中音频质量和视频质量的比例相等。从结果来看，平均填充法仅在高估率上有优势，但本文还是选择了这种方法。这是因为，与其他两种方法相比，它保留了更完整的会话信息。一方面，零填充在整个会话的奖励轨迹中引入了突然的变化，其中未定义的奖励被简单地视为最坏情况（0）。因此，模型可能会错误地将“好”行为视为“坏”行为。另一方面，跟踪裁剪会删除所有丢失的数据，使模型无法从会话开始时的操作中学习

在reward计算公式中α负责调整音频和视频质量的权重。图5评估了不同α下模型的性能。

图6显示了三种不同算法模型的评估结果。：TD3_BC，CQL和IQL。这些评估是在一致的条件下进行的（即相同的训练集和输入特征）。实验表明使用IQL训练的模型在所有指标方面都优于其他模型，这表明IQL更适合于训练带宽预测模型。

THE END

基于离线强化学习的实时流媒体带宽精确预测MMsys’24

在线算法和离线算法的区别

在线算法和离线算法的区别–PingCode

风储联合电站实时自调度的高效深度确定性策略梯度算法

基于离线强化学习的实时流媒体带宽精确预测MMsys’24

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

史上最清晰的Tarjan算法详解华为云开发者之家