基于单/多智能体简化强化学习的电力系统无功电压控制

(武汉大学电气与自动化学院武汉430072)

摘要为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE118节点算例的仿真结果验证了所提方法的正确性与快速性。

关键词:无功电压控制集中式控制单智能体简化强化学习分布式控制多智能体简化强化学习

近年来,以光伏、风电为代表的分布式可再生能源在电力系统中的占比逐年增大,这对未来全球能源加速转型具有重要的意义。但分布式能源出力的随机性与波动性也给电力系统正常运行带来了众多难题,其中电力系统无功电压快速波动便是典型的问题之一[1-4]。根据真实的历史运行数据,国内某220kV风电场在未进行无功电压控制(Volt-VarControl,VVC)时,曾观测到其并网点电压在10s内的平均波动达到6kV,在2s内的最大波动达到5kV[5];另据对400户家庭收集的光伏运行数据显示,家用光伏在1min内的功率变化能够达到额定容量的15%[6],这些剧烈的波动现象无疑迫使VVC需要进行更快、更好的决策以应对分布式能源带来的巨大挑战。

1)基于单智能体简化强化学习(Single-AgentSimplifiedDRL,SASDRL)的VVC方法,适用对象为量测及通信设施相对较完备的输电网。控制架构为集中式控制,该方法继承DRL中经典的“Actor-Critic”架构。其中Actor网络实现系统实时状态与无功设备控制策略的端到端映射,Critic网络用于评判不同控制策略的好坏,但评判指标与传统DRL不同,直接简化为智能体采取当前控制策略后得到的奖励值,Critic网络训练转化为拟合系统实时状态与节点电压之间非线性关系的监督学习训练。同时,设定在Critic网络训练完毕后再进行Actor网络训练,使得Actor网络在训练初始就能够获得Critic网络反馈回的正确训练梯度,从而减少初始阶段大量的计算浪费。

2)基于多智能体简化强化学习(Multi-AgentSimplifiedDRL,MASDRL)+IL的VVC方法,适用对象为量测及通信设施相对不完备的配电网,控制架构为零通信分布式控制,该方法首先将简化强化学习思想推广形成多智能体版本,提升了多智能体强化学习应用于VVC训练的快速性与稳定性。其次引入IL用于各智能体Actor网络的初始化,IL使用的训练样本来自SASDRL模型生成的控制策略样本,大幅提升了专家样本的生成速度,同时使各智能体Actor网络在训练初始就能够拥有集中控制的全局优化思想,实现无功设备之间更优的就地协同控制。

式中,F为目标函数;n为节点数目;i、j为节点;Vi和Vitar分别为节点实际电压与目标电压;PGi和QGi分别为节点连接机组的有功、无功出力;QCi为无功补偿量;PLi和QLi分别为节点有功、无功负荷;Gij和Bij分别为线路电导、电纳;δij为线路首末节点的相位差;CQimax和CQimin分别为无功设备的调节上、下限。

IL首先需要基于传统VVC算法,针对不同的系统运行场景进行无功优化计算生成大量专家样本(S,A),其中S代表系统状态参数,主要包括节点有功、无功负荷PL、QL及机组有功出力PG,A代表采用传统VVC算法计算得到的无功设备控制策略。然后直接使用深度学习、支持向量机等监督学习方法,将专家样本中的S作为输入,A作为标签进行训练,学习的目标是使模型预测值与标签值的偏差达到最小,具体可表示为

式中,θI和θI*分别为IL训练得到的映射及其最优版本;B为专家样本集;为使用IL映射对应控制策略的前向计算过程;TVVC为传统VVC算法。

由于IL本质是监督学习,训练过程简单,但需要大量不同运行场景下的控制策略专家样本作为基础,当采用传统无功优化算法生成专家样本时往往存在耗时较长的问题。此外,由于模型训练只限定于固定的专家样本集,当实际应用时碰到的运行场景与训练时所用的专家样本相差较大时,可能会导致控制结果不甚理想。

本文以VVC研究中应用最为广泛的“Actor-Critic”类型DRL算法进行说明。“Actor-Critic”类型DRL算法由Actor网络及Critic网络构成,其中Actor网络同样用于建立系统状态参数S与无功设备控制策略A之间的映射,Critic网络用于建立(S,A)与一个标量之间的映射,该标量被称为动作价值Q,用于评判无功设备控制策略的好坏。由于DRL没有标签数据,Actor网络能够生成良好A的前提是Critic网络能够对不同A的好坏做出精准的判断,即Critic网络利用动作价值Q指导Actor网络参数更新。因此“Actor-Critic”类型DRL本质上是基于智能体与环境(电力系统)不断交互生成的数据样本,对Actor网络及Critic网络参数不断进行训练升级,最终达到的目标为Critic网络能够针对不同A生成最为准确的Q值,Actor网络能够针对不同S均生成Q值最大的A。当“Actor-Critic”类型DRL算法应用于VVC时,在单次迭代过程中主要包括三个步骤。

1)训练样本的生成。生成样本如式(3)所示。

式中,T为智能体与环境交互生成的样本;为使用DRL映射对应控制策略的前向计算过程;ξ为附加噪声;F为传统数学优化模型中的目标函数;V为系统节点电压集合;PFC为潮流计算过程。将随机生成的电力系统运行状态S输入Actor网络生成掺杂噪声的A,电力系统在“虚拟”执行A后生成新的运行状态S'并返回给智能体奖励值R和迭代是否终止标志Done,再将以上五者合并生成训练样本存入训练样本集合D。现有研究普遍将R设定为传统数学优化模型中的目标函数,计算R所需的节点电压需通过传统潮流计算方法求解。

2)Critic网络的训练。在DRL中,Critic网络的训练目标是使得任意A的Q值满足如式(4)所示的动作价值贝尔曼方程,即当前A的Q值等于R与新状态S'生成动作A'的Q值之和的期望值。

式中,ω为Critic网络参数;为数学期望;γ为折扣因子。

因此,在训练过程中将二者的差值作为损失函数对Critic网络参数进行训练,具体参数更新梯度公式为

式中,为Critic网络训练损失函数;代表求导。

3)Actor网络的训练。为使Actor网络生成具有最大Q值的A,Actor网络将Critic生成的Q值作为重要参数指导自身网络参数训练,根据数学推导,其更新梯度公式可表示为

式中,为Actor网络训练损失函数。

DRL无需专家样本进行指导,而是通过智能体不断试错得到的奖励值来指导拟合系统状态参数与无功设备控制策略之间的非线性关系,训练完成的模型对于全新运行场景具有极强的适应性。但是Actor网络能够生成良好控制策略的前提是Critic网络能够对不同控制策略的好坏做出精准的判断,而Actor网络及Critic网络均为随机初始化生成,因此在训练初始阶段,由于Critic网络的不完备、无法精准评判Actor网络生成的控制策略,智能体的随机探索存在大量的计算浪费。此外,现有研究应用DRL时通常将VVC作为序列决策问题,在Critic网络单步更新时,所需计算的参数包括当前控制策略的Q值、R值及下一步控制策略的Q值,且求解R值在现有文献中均需要通过传统潮流计算方法,求解速度缓慢。同时Critic网络训练目标为动作价值贝尔曼方程,与IL只需追求预测值与标签值差距最小的训练方式相比,训练难度也大幅增加。

因此,提高DRL离线训练速度的核心应集中于如何在保证CRITIC网络能够准确评判不同控制策略质量的基础上,采用更为简便的操作提升CRITIC网络的训练速度。

1)将传统DRL中设定的序列决策问题简化为单点决策问题,即评判当前控制策略好坏的指标由式(4)直接简化为Q(S,A,ω)=R。Critic网络的功能由实现(S,A)至原动作价值Q的映射,转化为以监督学习方式直接拟合(S,A)与节点电压V之间的非线性关系,并结合奖励函数生成当前控制策略对应的奖励值R。此处设定的奖励函数仍采用传统数学优化模型中的目标函数F,但与传统DRL不同之处在于目标函数F的自变量(节点电压V)无需通过复杂的潮流计算过程得到,而是转化为直接由极为简单的Critic网络前向计算过程映射得到。

2)由于Actor网络能否生成良好控制策略取决于Critic网络能否精准评判不同控制策略的价值,再加上Critic网络训练方式的大大简化,本文将DRL中Actor、Critic网络并行更新方式转变为顺序更新方式,即在完成Critic网络训练的基础上再开展Actor网络的训练,使得Actor网络在训练初始就能获得完备Critic网络的良好指导(即通过完备Critic网络能立即获取能够正确评判当前控制策略的奖励值R),获得正确的更新梯度,与原始DRL相比能大幅减少训练初始阶段的无效探索及计算浪费。

基于SASDRL核心思想的训练过程如下。

1)Critic网络的训练。在PL、QL处于[0,1.2]倍正常水平区间、PG处于[0,1]倍机组额定功率区间、CQ处于无功设备出力上下限区间内随机取值,形成(S,A)作为监督训练的输入,并作潮流计算得到节点电压V作为标签数据,生成Critic网络训练所需的数据样本。本文采用深度学习作为监督训练方法,为使训练出的模型与系统实际物理信息相符,具有更强的普适性,本文采用文献[38]中提出的方案,在损失函数中加入基于预测电压值与线路电阻、电抗等系统物理信息计算得到的节点有功、无功偏差损失函数。

式中,J(V)、J(P)、J(Q)分别为节点电压偏差、有功功率偏差、无功功率偏差损失函数;VF、PF、QF分别为节点电压、有功功率、无功功率的预测值;、、分别为相应标签值。

2)Actor网络的训练。当Critic网络训练完成后,由于Critic网络可以准确预测各运行场景下的节点电压值,便可结合奖励函数生成评价指标奖励值R,用于精准判断当前控制策略的好坏。在Actor网络训练过程中,Critic网络参数保持不变,只需通过简单的链式求导法便可求得Actor网络参数的最优更新梯度,同时结合adam算法[39]加快参数的寻优速度。此外,为了保证Actor网络模型的普适性,在Actor网络单次迭代中采用的所有运行场景均为重新随机生成。

式中,dθ为Actor网络参数梯度动量;gdθ、hdθ分别为利用加权平均法累积的梯度动量及梯度二次方动量;β1、β2为梯度动量超参数;t为参数更新次数;ε为防止分母为零而设置的极小参数。

综上所述,基于SASDRL的VVC训练流程如图1所示。

图1基于SASDRL的VVC训练流程

Fig.1TrainingdiagramofSASDRLbasedVVC

在现有将MADRL应用于VVC的研究中,采用的算法如MADDPG(multi-agentdeepdetermine-sticpolicygradient)、MASAC(multi-agentsoftactor-critic)等继续沿用DRL中的“Actor-Critic”经典架构,即利用Actor网络生成无功设备控制策略,Critic网络用于评价控制策略的好坏。不同的是,需要为每个智能体单独训练一个Actor网络,每个Actor网络的输入仅为该无功设备所连接节点的局部信息,包括节点有功功率Pi=PLi-PGi、节点无功功率Qi=QLi-QGi、节点电压Vi(在线应用时,节点有功功率、无功功率及电压局部信息由实时监测获得),输出仅为该无功设备的控制指令QGi。由于VVC是所有无功设备共同合作型任务,因此Critic网络仅有一个,输入、输出数据与单智能体Critic网络相同。由于Critic网络输入数据中包含了每个智能体的决策信息,即每个无功设备的控制指令,所以Critic网络还起到辅助Actor网络建模其他智能体行为的作用,部分弥补了单个Actor网络只能观测到局部信息的缺陷,构建智能体之间的协同性。在单次迭代过程中Actor与Critic网络的更新公式分别为

(10)

式中,θk为第k个Actor网络的参数;、分别为第k个Actor网络的输入状态参数及输出动作参数;S为系统状态参数集合,,so代表除所有Actor网络输入状态参数之外的系统状态参数,如无配备连续型无功设备节点的状态参数等;A为无功设备控制指令集合,。

与传统单智能体DRL一样,由于MADRL各Actor网络与Critic网络仍为随机初始化生成,Critic网络在训练初期无法给予各Actor网络良好的指导,因此MADRL仍然存在因训练初期大量无效随机探索而导致的训练速度慢且训练效果极不稳定的缺点。此外,虽然Critic网络完成了对所有智能体控制指令的建模、实现智能体之间的协同控制,但由于每个智能体的观测只有连接节点的少量局部信息,因此MADRL应用于VVC时无法完全等效于集中控制时的全局优化效果。

1)Actor-D网络初始化。首先完成适用于当前系统的SASDRL训练,得到Actor-C网络;其次随机生成大量不同的系统运行场景S输入Actor-C网络后,得到对应的控制策略A,生成Actor-D网络初始化的训练样本集合X;最后针对不同的Actor-D网络,从X中抽取各Actor-D网络训练需要的si与ai数据进行监督学习训练。

式中,为第k个Actor网络的初始化参数;X为IL的专家样本集合;SASDRL代表单智能体简化强化学习。

2)Critic-D网络与Critic-C网络完全一致,无需再另外进行训练。

3)Actor-D网络训练。与SASDRL类似,在各Actor-D网络训练过程中,Critic-D网络参数保持不变,各Actor-D网络参数的更新梯度在R/A中对应提取得到,具体表示为

综上所述,基于MASDRL+IL的分布式VVC训练流程如图2所示。

图2基于MASDRL+IL的VVC训练流程

Fig.2TrainingdiagramofMASDRL+ILbasedVVC

本文基于改进的IEEE118节点系统对所提出方法的正确性与快速性进行验证。为模拟分布式能源对系统造成的电压波动,本文设定在网架末端109、114、115、117、118节点分别配置额定容量为5MV·A的光伏,控制的无功设备包括系统内所有发电机组及光伏的无功出力,共计58个控制变量(实际应用时,当实时控制频次设定为s级或min级时,控制设备可以是电网内配置的所有连续型无功设备)。控制目标是系统内所有节点的电压都趋近于1(pu)。所有仿真验证均在配备IntelCorei5-12500HCPU@2.5GHz和16GB内存的计算机上完成,所有的控制程序均由Python3.7.5版本进行编写。

表1对比方法描述

Tab.1Descriptionofdifferentmethods

序号类别描述1集中式控制SASDRL(本文方法)2内点法(InteriorPointMethod-IPM,数学算法)3Softactor-critic(SAC,当前最优强化学习算法)4IL(专家样本来自IPM)5分布式控制MASDRL+IL(本文方法)6MASRDL7MADDPG(当前应用于VVC最多的多智能体强化学习算法)

表2算法参数设置

Tab.2Parameterssettingofdifferentmethods

控制方法参数数值集中式SASDRLCritic网络架构[219,512,512,118]Actor网络架构[219,256,256,58]Critic/Actor网络学习率0.004IPM中心系数0.1收敛精度10-6SACCritic网络架构[219,512,512,118]Actor网络架构[219,256,256,58]Critic/Actor网络学习率0.004温度系数学习率0.001奖励折扣率0.99IL拟合网络架构[219,256,256,58]专家样本数量5000

(续)

控制方法参数数值分布式MASDRL+ILCritic网络架构[219,512,512,118]Actor网络架构[3,20,20,1]Critic/Actor网络学习率0.004IL专家样本数量500MADDPGCritic网络架构[219,512,512,118]Actor网络架构[3,20,20,1]Critic/Actor网络学习率0.004奖励折扣率0.99

Tab.3Vavandconsumedtimeofcentralizedmethods

从表3中针对Vav的统计数据可以看出,采用本文提出的SASDRL与IPM的控制效果极其相近,针对500个测试样本的平均、最大、最小Vav均基本一致,证明SASDRL能够达到与具有严格理论基础的传统数学方法一样的寻优精度(SASDRL在平均、最大、最小Vav三项指标均稍优于IPM的原因是无功优化问题实质是非凸优化问题,尤其当控制变量维数过高时,即使采用传统数学算法也无法保证能够收敛至全局最优,进一步证明了SASDRL在高维控制寻优的优越性)。采用IL能够获得稍差于SASDRL与IPM的整体控制效果,平均Vav略小于以上两种方法,但由于专家样本集有限,无法做到涵盖所有的控制变量可行域空间,导致IL得到的最大Vav高于其他三种方法。采用SAC获得了最差的控制效果,表明传统DRL方法因算法设定的复杂性,应用于高维控制问题时难以收敛至全局最优。以上结论在图3中均可得到进一步的展现,SASDRL与IPM形成的曲线针对500个测试场景均粘合在一起。IL形成的曲线大部分与前两种方法相近,但在某些测试场景,如81号、470号、497号测试样本出现尖刺状凸起。SAC形成的曲线基本脱离以上三种方法而存在于上方电压偏差较大的空间。

图3采用不同集中式控制方法在500个测试场景下的Vav对比

Fig.3ComparisonofVavin500testscenariosusingdifferentcentralizedcontrolmethods

图4采用不同分布式控制方法的训练寻优性能对比

Fig.4Comparisonoftrainingperformancewithdifferentdecentralizedcontrolmethods

Tab.4Vavandconsumedtimeofdecentralizedmethods

从表4中针对Vav的统计数据容易看出,采用本文方法,即基于MASDRL+IL的VVC方法,能够获得最优的分布式控制效果,最接近于集中式控制获得的各项Vav数据。从图4中的训练曲线可以看出,采用MASDRL+IL获得的寻优性能最优且最为稳定,由于IL提前将集中式控制思想注入各智能体,因此在训练初始智能体群就已经获得较好的协同控制效果。MASDRL虽然基于简化强化学习思想同样能够快速收敛,但由于各智能体之间缺乏全局优化思想的指引,最终获得的控制效果要比MASDRL+IL差。MADDPG与传统SASDRL方法类似,由于各智能体Actor网络与Critic网络为随机初始化,Critic网络在训练初期无法对各Actor网络的集合控制策略进行精准的评价,导致训练指标在初期一直保持较高的数值,同时由于传统MADRL训练的复杂性,最终获得了三种分布式控制方法中最差的控制效果。

1)本文提出了一种基于单智能体简化强化学习的集中式VVC方法,通过对Critic网络训练目标的简化,在保证精准评判无功设备动作策略的基础上,将Critic网络训练方式转化为操作简单的监督学习方式。同时通过设定在Critic网络训练完毕的基础上再进行Actor网络训练,避免了传统强化学习在训练初始阶段的无效探索与计算浪费。基于改进IEEE118节点系统的仿真计算结果证明,相较于传统数学方法和传统强化学习、模仿学习等机器学习方法,本文方法能够在大幅加速强化学习离线训练速度并保证算法普适性的基础上,获得与传统数学方法极为相近的优异控制效果。

参考文献

[1]MahmudN,ZahediA.Reviewofcontrolstrategiesforvoltageregulationofthesmartdistributionnetworkwithhighpenetrationofrenewabledistributedgeneration[J].RenewableandSustainableEnergyReviews,2016,64:582-595.

[2]高聪哲,黄文焘,余墨多,等.基于智能软开关的主动配电网电压模型预测控制优化方法[J].电工技术学报,2022,37(13):3263-3274.GaoCongzhe,HuangWentao,YuModuo,etal.Amodelpredictivecontrolmethodtooptimizevoltagesforactivedistributionnetworkswithsoftopenpoint[J].TransactionsofChinaElectrotechnicalSociety,2022,37(13):3263-3274.

[3]康重庆,姚良忠.高比例可再生能源电力系统的关键科学问题与理论研究框架[J].电力系统自动化,2017,41(9):2-11.KangChongqing,YaoLiangzhong.Keyscientificissuesandtheoreticalresearchframeworkforpowersystemswithhighproportionofrenewableenergy[J].AutomationofElectricPowerSystems,2017,41(9):2-11.

[4]姚良忠,朱凌志,周明,等.高比例可再生能源电力系统的协同优化运行技术展望[J].电力系统自动化,2017,41(9):36-43.YaoLiangzhong,ZhuLingzhi,ZhouMing,etal.Prospectsofcoordinationandoptimizationforpowersystemswithhighproportionofrenewableenergy[J].AutomationofElectricPowerSystems,2017,41(9):36-43.

[5]郭庆来,王彬,孙宏斌,等.支撑大规模风电集中接入的自律协同电压控制技术[J].电力系统自动化,2015,39(1):88-93,130.GuoQinglai,WangBin,SunHongbin,etal.Autonomous-synergicvoltagecontroltechnologysupportinglarge-scalewindpowerintegration[J].AutomationofElectricPowerSystems,2015,39(1):88-93,130.

[6]WangGang,KekatosV,ConejoAJ,etal.Ergodicenergymanagementleveragingresourcevariabilityindistributiongrids[J].IEEETransactionsonPowerSystems,2016,31(6):4765-4775.

[7]陈江澜,汤卫东,肖小刚,等.华中电网协调电压控制模式研究[J].电力自动化设备,2011,31(8):47-51.ChenJianglan,TangWeidong,XiaoXiaogang,etal.CoordinatedvoltagecontrolforCentralChinaPowerGrid[J].ElectricPowerAutomationEquipment,2011,31(8):47-51.

[8]徐峰达,郭庆来,孙宏斌,等.基于模型预测控制理论的风电场自动电压控制[J].电力系统自动化,2015,39(7):59-67.XuFengda,GuoQinglai,SunHongbin,etal.Automaticvoltagecontrolofwindfarmsbasedonmodelpredictivecontroltheory[J].AutomationofElectricPowerSystems,2015,39(7):59-67.

[9]国家市场监督管理总局,国家标准化管理委员会.GB/T37408—2019光伏发电并网逆变器技术要求[S].北京:中国标准出版社,2019.

[10]LiuHaotian,WuWenchuan.Two-stagedeepreinforcementlearningforinverter-basedvolt-VARcontrolinactivedistributionnetworks[J].IEEETransactionsonSmartGrid,2021,12(3):2037-2047.

[13]CaoDi,ZhaoJunbo,HuWeihao,etal.Deepreinforcementlearningenabledphysical-model-freetwo-timescalevoltagecontrolmethodforactivedistributionsystems[J].IEEETransactionsonSmartGrid,2022,13(1):149-165.

[14]WangLicheng,BaiFeifei,YanRuifeng,etal.Real-timecoordinatedvoltagecontrolofPVinvertersandenergystorageforweaknetworkswithhighPVpenetration[J].IEEETransactionsonPowerSystems,2018,33(3):3383-3395.

[16]李静,戴文战,韦巍.基于混合整数凸规划的含风力发电机组配电网无功补偿优化配置[J].电工技术学报,2016,31(3):121-129.LiJing,DaiWenzhan,WeiWei.Amixedintegerconvexprogrammingforoptimalreactivepowercompensationindistributionsystemwithwindturbines[J].TransactionsofChinaElectrotechnicalSociety,2016,31(3):121-129.

[17]赵晋泉,居俐洁,戴则梅,等.基于分支定界—原对偶内点法的日前无功优化[J].电力系统自动化,2015,39(15):55-60.ZhaoJinquan,JuLijie,DaiZemei,etal.Day-aheadreactivepoweroptimizationbasedonbranchandbound-interiorpointmethod[J].AutomationofElectricPowerSystems,2015,39(15):55-60.

[18]崔挺,孙元章,徐箭,等.基于改进小生境遗传算法的电力系统无功优化[J].中国电机工程学报,2011,31(19):43-50.CuiTing,SunYuanzhang,XuJian,etal.Reactivepoweroptimizationofpowersystembasedonimprovednichegeneticalgorithm[J].ProceedingsoftheCSEE,2011,31(19):43-50.

[19]MalachiY,SingerS.Ageneticalgorithmforthecorrectivecontrolofvoltageandreactivepower[J].IEEETransactionsonPowerSystems,2006,21(1):295-300.

[20]JalaliM,KekatosV,GatsisN,etal.Designingreactivepowercontrolrulesforsmartinvertersusingsupportvectormachines[J].IEEETransactionsonSmartGrid,2020,11(2):1759-1770.

[21]邵美阳,吴俊勇,石琛,等.基于数据驱动和深度置信网络的配电网无功优化[J].电网技术,2019,43(6):1874-1883.ShaoMeiyang,WuJunyong,ShiChen,etal.Reactivepoweroptimizationofdistributionnetworkbasedondatadrivenanddeepbeliefnetwork[J].PowerSystemTechnology,2019,43(6):1874-1883.

[24]DuanJiajun,ShiDi,DiaoRuisheng,etal.Deep-reinforcement-learning-basedautonomousvoltagecontrolforpowergridoperations[J].IEEETransactionsonPowerSystems,2020,35(1):814-817.

[25]WangWei,YuNanpeng,GaoYuanqi,etal.Safeoff-policydeepreinforcementlearningalgorithmforvolt-VARcontrolinpowerdistributionsystems[J].IEEETransactionsonSmartGrid,2020,11(4):3008-3018.

[26]YangQiuling,WangGang,SadeghiA,etal.Two-timescalevoltagecontrolindistributiongridsusingdeepreinforcementlearning[J].IEEETransactionsonSmartGrid,2020,11(3):2313-2323.

[27]KulmalaA,RepoSami,JrventaustaP.Coordinatedvoltagecontrolindistributionnetworksincludingseveraldistributedenergyresources[J].IEEETransactionsonSmartGrid,2014,5(4):2010-2020.

[28]CavraroG,CarliR.Localanddistributedvoltagecontrolalgorithmsindistributionnetworks[J].IEEETransactionsonPowerSystems,2018,33(2):1420-1430.

[29]KaragiannopoulosS,AristidouP,HugG.Data-drivenlocalcontroldesignforactivedistributiongridsusingoff-lineoptimalpowerflowandmachinelearningtechniques[J].IEEETransactionsonSmartGrid,2019,10(6):6461-6471.

[30]乐健,王曹,李星锐,等.中压配电网多目标分布式优化控制策略[J].电工技术学报,2019,34(23):4972-4981.LeJian,WangCao,LiXingrui,etal.Themulti-objectdistributedoptimizationcontrolstrategyofmediumvoltagedistributionnetworks[J].TransactionsofChinaElectrotechnicalSociety,2019,34(23):4972-4981.

[31]赵晋泉,张振伟,姚建国,等.基于广义主从分裂的输配电网一体化分布式无功优化方法[J].电力系统自动化,2019,43(3):108-115.ZhaoJinquan,ZhangZhenwei,YaoJianguo,etal.Heterogeneousdecompositionbaseddistributedreactivepoweroptimizationmethodforglobaltransmissionanddistributionnetwork[J].AutomationofElectricPowerSystems,2019,43(3):108-115.

[32]ZeraatiM,HamedaniGolshanME,GuerreroJM.DistributedcontrolofbatteryenergystoragesystemsforvoltageregulationindistributionnetworkswithhighPVpenetration[J].IEEETransactionsonSmartGrid,2018,9(4):3582-3593.

[33]SunXianzhuo,QiuJing.Two-stagevolt/varcontrolinactivedistributionnetworkswithmulti-agentdeepreinforcementlearningmethod[J].IEEETransactionsonSmartGrid,2021,12(4):2903-2912.

[34]赵冬梅,陶然,马泰屹,等.基于多智能体深度确定策略梯度算法的有功-无功协调调度模型[J].电工技术学报,2021,36(9):1914-1925.ZhaoDongmei,TaoRan,MaTaiyi,etal.Activeandreactivepowercoordinateddispatchingbasedonmulti-agentdeepdeterministicpolicygradientalgorithm[J].TransactionsofChinaElectrotechnicalSociety,2021,36(9):1914-1925.

[35]LiuHaotian,WuWenchuan.Onlinemulti-agentreinforcementlearningfordecentralizedinverter-basedvolt-VARcontrol[J].IEEETransactionsonSmartGrid,2021,12(4):2980-2990.

[36]CaoDi,HuWeihao,ZhaoJunbo,etal.Reinforcementlearninganditsapplicationsinmodernpowerandenergysystems:areview[J].JournalofModernPowerSystemsandCleanEnergy,2020,8(6):1029-1042.

[37]XuYan,DongZhaoyang,ZhangRui,etal.Multi-timescalecoordinatedvoltage/varcontrolofhighrenewable-penetrateddistributionsystems[J].IEEETransactionsonPowerSystems,2017,32(6):4398-4408.

[38]YangYan,YangZhifang,YuJuan,etal.Fastcalculationofprobabilisticpowerflow:amodel-baseddeeplearningapproach[J].IEEETransactionsonSmartGrid,2020,11(3):2235-2244.

[39]DiederikPKi,JimmyLB.Adam:amethodforstochasticoptimization[C]//Proceedingsofthe3rdInternationalConferenceonLearningRepresentations(ICLR),SanDiego,USA,2015:1-13.

[40]ZhangCong,ChenHaoyong,ShiKe,etal.Anintervalpowerflowanalysisthroughoptimizing-scenariosmethod[J].IEEETransactionsonSmartGrid,2018,9(5):5217-5226.

MaQingDengChanghong

(SchoolofElectricalEngineeringandAutomationWuhanUniversityWuhan430072China)

AbstractInordertoquicklysuppresstherapidfluctuationsofreactivepowerandvoltagecausedbytherandomoutputchangeofdistributedenergies,machinelearning(ML)methodsrepresentedbydeepreinforcementlearning(DRL)andimitationlearning(IL)havebeenappliedtovolt-varcontrol(VVC)researchrecently,toreplacethetraditionalmethodswhichrequirealargenumberofiterations.AlthoughtheMLmethodsintheexistingliteraturecanrealizetheonlinerapidVVCoptimization,therearestillsomeshortcomingssuchasslowofflinetrainingspeedandinsufficientuniversalitythathindertheirapplicationsinpractice.

Secondly,amulti-agentsimplifiedDRLmethod(MASDRL)suitablefordecentralizedandzero-communicationcontrolofactivedistributionnetworkisproposed.ThismethodgeneralizesthecoreideaofSASDRLtoformamulti-agentversionandcontinuestoacceleratetheconvergenceperformanceofActornetworkofeachagentonthebasisoftrainingtheunifiedCriticnetworkinadvance.EachagentcorrespondstoadifferentVVCdeviceinthesystem.Duringonlineapplication,eachagentonlyusesthelocalinformationofthenodeconnectedtotheVVCdevicetogeneratethecontrolstrategythroughitsownActornetworkindependently.Besides,itadoptsILforinitializationtoinjecttheglobaloptimizationideaintoeachagentinadvance,andimprovesthelocalcollaborativecontroleffectbetweenvariousVVCdevices.

SimulationresultsontheimprovedIEEE118-bussystemshowthatSASDRLandMASDRLbothachievethebestcontrolresultsofVVCamongallthecomparedmethods.Intermsofofflinetrainingspeed,SASDRLconsumestheleastamountoftrainingtime,whosespeedis4.47timesfasterthanthetraditionalDRLand50.76timesfasterthanIL.87.1%ofSASDRL'strainingtimeisspentongeneratingtheexpertsamplesrequiredforthesupervisedtrainingofCriticnetworkwhileonly12.9%isconsumedbythetrainingofActorandCriticnetwork.RegardingMASDRL,itcanrealizethe82.77%reductioninofflinetrainingtimecomparedtotraditionalMADRL.

Thefollowingconclusionscanbedrawnfromthesimulationanalysis:(1)ComparedwithtraditionalmathematicalmethodsandexistingMLmethods,SASDRLisabletoobtainexcellentcontrolresultssimilartomathematicalmethodswhilegreatlyacceleratingtheofflinetrainingspeedofDRLbasedVVC.(2)ComparedwithtraditionalMADRL,bytheinheritanceofSASDRL’coreideasandtheintroductionofILintotheinitializationofActornetwork,themethodofMASDRL+ILproposedcanimprovethelocalcollaborativecontroleffectbetweenvariousVVCdevicesandofflinetrainingspeedsignificantly.

keywords:Volt-varcontrol,centralizedcontrol,single-agentsimplifieddeepreinforcementlearning,decentralizedcontrol,multi-agentsimplifieddeepreinforcementlearning

DOI:10.19595/j.cnki.1000-6753.tces.222195

中图分类号:TM76

国家重点研发计划资助项目(2017YFB0903705)。

收稿日期2022-11-22

改稿日期2023-03-03

作者简介

马庆男,1990年生,博士研究生,研究方向电力系统无功电压控制。E-mail:747942466@qq.com

邓长虹女,1963年生,教授,博士生导师,研究方向为电力系统安全稳定分析、可再生能源接入电网的优化控制。E-mail:dengch@whu.edu.cn(通信作者)

THE END
1.离线强化学习算法集锦BCQ是一种离线行为克隆算法,从离线数据中学习策略,并通过Q值校正来改进性能。 2、BEAR (Bootstrapping Error Accumulation Reduction) BEAR是一种离线强化学习算法,通过利用离线数据进行训练,并使用自举方法来减少误差积累。 3、TD3-BC (Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning) https://blog.csdn.net/weixin_45616285/article/details/136629915
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.离线强化学习(OfflineRL)总结(原理数据集算法复杂性分析离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。 https://cloud.tencent.com/developer/article/2119884
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法实验室人工智能团队在D4RL基准测试上进行了大量实验来说明本研究中提出的算法的优越性。实验结果表明,本研究提出的算法在样本效率方面显著优于最先进的离线转在线强化学习算法。 相关的研究成果近期发表在TKDE上,文章第一作者为吉林大学未来科学国际合作联合实验室博士生郭思源,通讯作者为吉林大学陈贺昌教授和常毅教授。http://icfs.jlu.edu.cn/info/1007/3101.htm
5.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客AI 对齐是否必需在线强化学习? 对于这个问题,人们希望既知道其理论上的答案,也希望明晰实验给出的解答。 从实证角度看,相比于大家常用的在线 RLHF(由偏好建模和从模型采样组成),离线算法实现起来要简单得多,成本也低得多。因此,收集有关离线算法的充分性的证据可让 AI 对齐变得更加简单。另一方面,如果能明晰常用在https://www.thepaper.cn/newsDetail_forward_27434433
7.科学网—[转载]强化学习在资源优化领域的应用基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开调研,帮助读者了解该领域最新的进展,学习如何利用数据驱动的方式解决资源优化问题。鉴于资源优化问题场景众多、设定繁杂,划分出3类应用广泛的资源优化问题,即资源平衡问题、资源分配问题、装箱问题,集中进行调研。在每个领域阐述问题的特性,并根据具体的问题特性https://blog.sciencenet.cn/blog-3472670-1312677.html
8.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
9.一种用于医学数据的强化学习算法模型构建方法和设备专利在线阅读 下载 引用 收藏 分享 打印 摘要:本发明涉及医学数据技术领域,具体涉及一种用于医学数据的强化学习算法模型构建方法和设备,在本申请中,结合了BCQ和CQL两种算法的优势,减少了离线强化学习中的外推误差,使得强化学习模型生成更合理的动作;并且为强化学习算法模型建立了损失函数,提升了原始动作的评分,降低了生成动https://d.wanfangdata.com.cn/patent/CN202311576836.1
10.NeurIPS2022赋能产业界的人工智能研究新趋势图1:自动强化学习算法框架(上);搜索过程可视化图(下) 自提升离线强化学习 论文链接:https://www.microsoft.com/en-us/research/publication/bootstrapped-transformer-for-offline-reinforcement-learning/ 项目主页:https://seqml.github.io/bootorl/ 随着强化学习在真实世界场景中的需求逐渐增大,作为一种新的强化学习https://www.msra.cn/zh-cn/news/features/neurips-2022-industry-ai
11.基于深度强化学习的水面无人艇路径跟踪方法4.为此,公开号为cn113625725a的中国专利就公开了《一种水面无人艇路径跟踪控制方法》,包括:设定期望跟踪路径,将期望跟踪路径离散化形成期望路径点阵;判断无人艇距离期望路径点阵的起始点的距离;根据设计参数和无人艇位置确定参考点的位置,根据路径曲率信息求得参考点处的曲率,然后根据制导算法公式求得加速度:计算由加https://www.xjishu.com/zhuanli/54/202210772926.html/
12.万字长文总结如何解决"稀疏奖励(SparseReward)"下的强化学习本文是对强化学习中行为克隆(Behavioral Cloning,BC)方法的改进,最新接收于 ICLR2020。本文使用了一个简单、稳定的奖励:将与示范状态下的示范动作相匹配的动作奖励 + 1,而其它动作奖励为 0,引入 Soft-Q-Learning 算法,提出了适用于高维、连续、动态环境的模仿学习算法。 https://www.zhuanzhi.ai/document/7f6d15f412639a573254a0f80300779a
13.一种基于深度强化学习的三维装箱方法.pdf想预览更多内容,点击免费在线预览全文 免费在线预览全文 本发明涉及一种基于深度强化学习的三维装箱方法,属于物流及物品装箱技术领域。该方法包括训练和使用两个阶段,在训练阶段通过DoubleDQN算法使用训练数据训练模型,从历史经验中学习;在使用阶段利用训练好的模型作为动作评判标准进行决策,产生具体的装箱方案。该方法将大https://max.book118.com/html/2023/0830/6152000235005221.shtm
14.仙启POLIXIR REVIVE SDK是一款数据驱动的强化学习(RL)工具包,它集成了南栖仙策的通用智能决策算法,专注于解决离线强化学习问题。该工具包利用历史数据来学习最优策略, 而无需与真实环境进行额外交互,从而实现决策过程的自动化并率先实现真实业务的落地。 商业版 https://revive.cn/sdk
15.基于可变保守程度离线强化学习的机器人运动控制方法为了解决以保守Q学习(Conservative Q-Learning, CQL)为代表的离线强化学习算法保守程度固定不变,导致学习到的策略过于保守的问题,文中提出了一种名为可变保守程度Q学习(Variable Conservativeness Q-Learning, VCQL)的离线强化学习算法。VCQL算法在CQL算法的基础上引入了对于状态动作对偏离数据集的程度衡量,并能够根据偏https://wap.cnki.net/touch/web/Journal/Article/JZDF20240510007.html