风储联合电站实时自调度的高效深度确定性策略梯度算法|离线模型和在线模型_在线学习

（1.清华大学电机工程与应用电子系北京1000842.中国三峡新能源（集团）股份有限公司北京101100）

摘要发展风电等可再生能源对于实现双碳目标具有重要意义，风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题，目标是使自身的期望收益最大化。由于场站级风电预测误差较大，独立发电商信息有限，难以准确预测电网电价，风储联合电站实时自调度面临多重不确定性，极具挑战。该文提出高效深度确定性策略梯度（DDPG）算法求取风储联合电站实时自调度策略，实现不依赖预测的场站级在线决策。首先通过Lyapunov优化构建基础策略，得到一个较好的但未必是局部最优的策略；然后，采用基础策略预生成样本，用于初始化经验库，提升搜索效率；接着，应用引入专家机制的DDPG算法，可以训练得到局部最优的自调度策略；最后，算例分析表明，相比于基础调度策略和经典DDPG，该文所提方法能有效提升风储联合电站的平均收益。

关键词：风储联合电站实时自调度Lyapunov优化深度确定性策略梯度（DDPG）

近年来，新能源发电发展迅速。以风电为例，截至2021年底，我国风电累计装机容量已经超过3亿kW，同比增长16.6%[1]，仅2022年一季度便新增风电790万kW[2]。风能作为一种绿色能源有望在未来的低碳电网中发挥主要作用。然而风能本身的波动性和随机性却给电力系统的运行带来了巨大的挑战，需要足够的备用资源。储能可以平滑风电出力，风储联合电站是未来风电接入电网的主要形式[3-5]。

本文考虑由独立发电商管理的风储联合电站参与实时市场，发电商的目标是最大化期望收益。由于场站级风电预测误差较大[6]，且独立发电商信息有限，难以准确预测电网电价[7]，风储联合电站实时自调度面临多重不确定性，极具挑战。目前关于风储联合电站调度优化的方法可大致分为以下几类。

2）基于两阶段鲁棒优化或者随机规划。随机规划假设不确定量的分布已知，对目标函数的期望值进行优化[11]。鲁棒优化考虑不确定集合中的最坏情况[12]。如采用随机规划方法研究风储联合电站参与电力市场问题[13]，采用鲁棒优化的方法研究风储联合电站在微网中的能量管理问题[14]。这一类方法的主要问题在于，第二阶段需要假设所有时段的不确定量都已获知后才能做出决策，无法用于在线调度。

3）以Lyapunov优化[15]为代表的在线优化方法，这一类方法既不需要预测也不需要历史数据。通过构造储能荷电状态的虚拟队列，将队列长度作为惩罚项加入目标函数，从而将时段耦合的优化问题分解为单时段决策。文献[16]将Lyapunov优化用于风储联合电站的实时调度，提升长期收益。此类方法的共性问题在于惩罚项引入目标函数可能会影响算法性能，导致得到的策略具有保守性。此外，完全忽略历史数据与预测信息也会影响策略的最优性。

4）基于以强化学习为代表的近似动态规划算法。相比于前两类方法，强化学习为数据驱动，其本身不依赖预测信息且便于实现在线决策。而相比于Lyapunov优化，强化学习可以充分利用历史数据的价值。强化学习在电力系统调度问题中已有较多应用[17-19]。特别地，对于风储联合电站的调度，目标包括最小化弃风[20]和最大化收益[21]等。

在强化学习算法中，深度确定性策略梯度（DeepDeterministicPolicyGradient,DDPG）算法[22]适用于状态和动作都为连续量的场景，和风储联合电站的调度问题兼容性较好。然而，在不依赖预测的前提下，鲜有研究将DDPG算法应用于风储联合电站的实时自调度中。如文献[23]将DDPG算法用于风储联合电站日前调度，文献[24]研究风光储联合系统在线调度，都使用了预测信息，性能依赖预测精度。此外，当调度时段较多时，各时段策略函数不同，离线训练效率降低；由于给储能充电没有即时收益，在训练时智能体容易短视而影响性能。这些也大大增加了DDPG算法应用于本文问题的难度。

Lyapunov优化利用了系统运行模型，可以有效规避不可行的调度动作和低收益动作，作为先验知识提升DDPG的探索效率；DDPG则可以充分利用历史数据的价值，通过训练，降低Lyapunov优化的保守性。鉴于二者具有互补性，本文提出高效DDPG算法。以Lyapunov优化作为基础策略，用于初始化DDPG的训练，求取风储联合电站实时自调度策略，实现不依赖风电出力和电价预测的场站级在线决策。最后对实际数据进行算例分析，通过和经典DDPG算法的对比，验证了所提策略的有效性。

风储电站及其内部潮流如图1所示。电站通过一条输电线和主网相连，其传输容量是有限的。风能既可以直接通过传输线送到电网，也可以储存在配套储能中。储能从风机充电，向电网放电。为了提高收益，风储电站需要在电价低时储存风能，在电价高时卖出电能。然而在实时自调度的场景下，未来风电出力和电网电价是不确定的，传统优化模型只能作为离线策略提供最优值的基准，并不能提供在线策略。以下分别描述离线模型和在线模型。

图1风储电站及其内部潮流

Fig.1Wind-storageplantanditsinternalpowerflow

风储电站的结构和功率流如图1所示。风机实时出力为，由风速决定，其中直接送到电网的功率为，储能的充电功率为，剩余的风能则被舍弃。储能亦可向电网侧放电，功率为。、和为可控决策变量，满足

给定所有时段的风机出力和实时电价，自调度离线模型可写成如下优化问题：

式中，为调度周期，本文取1天，即；为历史平均电价；和分别为初始和最终时刻的SOC；为时期的收益；为t时期的电价。为了考虑储能SOC初值和终值的差异，将其差值对应的能量价格考虑在目标函数中，对应的电价为历史平均值。优化问题（8）的目标找到策略，最大化调度周期内的总收益期望。策略定义为

式中，为时段的系统状态；为时段的调度动作；序列代表整个调度周期的所有状态都被掌握。策略函数确定一个从所有状态到当前时段调度动作的映射。

由于各阶段状态不存在不确定量，式（8）退化为式（10），形式上属于线性规划。

在实时自调度的场景下，所有调度动作需要在线给出。离线调度模型需要未来（即及以后）时期的风机出力和电价，然而这些信息是不确定的，模型无法求解。由此，不依赖未来不确定量的在线自调度模型被提出。

在线模型需要给出一个策略。该策略只根据当前和过去时期的状态，确定当前时期调度动作的取值。动作应满足约束式（1）～式（7），同时使得式（8）中总收益的期望尽可能大。此时，策略为

式中，序列为当前和历史的状态。在线自调度模型可以写为

本文对式（12）作进一步简化，令策略函数仅与当前状态有关，即

为了得到性能较优的策略，实现在线自调度模型（14）的求解，本文先基于Lyapunov优化理论得到一个基础调度策略，用该策略生成初始样本。随后提出高效DDPG算法，训练智能体改进基础调度策略。

储能容量SOC的动态方程式（5）是离线模型（8）中的时段耦合约束。若储能容量无限大，则离线模型（8）时段解耦，每个时段的问题可以单独求解。Lyapunov优化[15]通过将储能SOC视为虚拟队列，将队列长度作为惩罚项引入目标函数，从而将时段耦合的离线模型（8）分解为单时段决策，通过罚参数的选取可以保证SOC约束（6）得到满足[16]。Lyapunov优化可以有效规避不可行的调度动作和低收益动作，不依赖预测并且能够在线求解。因此，本节提出自调度的Lyapunov优化模型作为基础策略。

当调度周期足够长（）时，由SOC和电价的有界性，SOC增量所带来的收益可忽略不计，此时式（14）转换为

定义队列为

其中常数为

选择二次函数（19）为Lyapunov函数[15]。

相邻两个时期的Lyapunov函数增量定义为漂移，即

文献[16]证明了最小化Lyapunov漂移保证了队列的稳定性。由于是未知的，导致无法计算，为了克服这一困难，结合式（18）对其进行放缩得到

因此最小化可以控制SOC的增量，进一步通过调节权重保证SOC在整个调度周期内满足约束（6）。

将Lyapunov漂移引入式（14）的目标函数控制储能SOC，则变量和约束（6）不再出现。由于在每个时段开始时是已知量，式（14）变为每个时段独立求解如下优化问题：

调整权重可使储能的实际SOC满足约束（6）。由于充放电存在能量损失，同时充放电不是一种经济调度策略[25]，充放电互补约束（7）可以松弛。时期的状态是已知量，自调度的Lyapunov优化模型（22）是线性规划，其完整形式为

式中，为由表示的状态，有

A、F和c为常矩阵，b为常向量，即

表示状态可行域，是一个固定的多面体。

式中，为风机的装机容量。

当权重增加时，基础策略更重视提高收益，过大的有可能会导致储能SOC越限；反之，当权重降低时，基础策略更注重抑制Lyapunov漂移，从而使得策略性能下降。当且SOC逼近容量极限时，利用灵敏度可以证明[16]，最优动作不会使SOC越界，即式（6）在整个调度周期内都满足，其中

为了提高收益的同时保证SOC不越界，令是最好的选择。

基于Lyapunov优化的基础调度策略求解速度快，然而，由于完全忽略了历史数据和预测信息，可导致应用效果偏保守或贪婪，在一定程度上损失了最优性。本节在基础策略的基础上，利用历史数据通过DDPG算法改善策略的表现。基础策略利用了系统模型，提升了智能体的探索效率，相比于经典DDPG性能更好。

式（14）可以看作一个马尔可夫决策过程（MarkovDecisionProcess,MDP）[27]。

为了形式统一，状态在式（13）的基础上增加时段t，即。时期只能取的整数值，为离散量。其余变量的取值是连续有界量。增加维数后，策略和式（13）中的是等价的。

动作即为式（11）中的调度动作。动作是连续的，时期t的动作需要满足该时期的约束式（1）～式（7）。

即时奖励定义为，当未到达终态时，即时奖励为时期的收益；当达到终态时，还要加上SOC增量带来的收益。

动作值函数反映了当状态为时，采取策略所能得到的所有即时奖励加权求和的期望（累计奖励），权重因子为不超过1的。

当取，不难证明初态的Q函数值和式（14）中的目标函数值相等。

MDP的目标是为了找到一个最优策略，使得累计奖励最大。

由动态规划理论，MDP问题式（31）中的和在线模型（14）的最优策略是等价的，即风储联合电站实时自调度策略的求取转换为MDP问题式（31）的求解。

在强化学习中，智能体通过和环境的交互得到训练，其行为逐渐逼近最优策略，从而实现MDP问题的求解。

DDPG算法包含Actor和Critic两套神经网络，分别用于拟合策略和Q函数，见表1，其中为神经网络权重。

表1DDPG神经网络

Tab.1NeuralnetworksofDDPG

网络名称形式动作降维前动作降维后Actor目标网络Actor评估网络Critic目标网络Critic评估网络

在一个训练轮次内，从初态到终态，智能体给出动作和环境交互。环境返回奖励和下一时刻的状态，以及终止标志。由此得到一个样本。一旦终止，则开启下一训练轮次，如此循环，直到达到轮次上限。

训练时，Actor评估网络的目标为最大化其输出动作的Q函数值，其损失函数为

式中，为每次训练抽取的样本批量；为其中第个样本在时期的状态。

式中，和分别为第个样本在时期的动作和奖励。两个评估网络通过损失函数的梯度下降法来更新权重，而两个目标网络则通过软更新的方式更新权重。

式中，为软更新系数，。

MDP问题式（31）的动作空间有三维，自由度较大，智能体容易给出不可行的动作，DDPG训练难度较高。为了降低训练难度，使得动作尽可能满足约束，对前文中三维的做降维处理为一维的，对于不可行的动作，通过一个映射将其修正到可行域边界上，对应动作，同时在奖励中增加关于修正量的惩罚。

定义净充电动作标幺值，基值为。对应的可行动作为，表示某可行的充电或放电动作。

式中，relu(x)定义为当x＞0时，relu(x)=x；否则，relu(x)=0。

和二者之间满足映射，即

不难验证，映射式（35）保证了约束式（7）以及和非负，映射式（36）保证了约束式（4）和式（6）以及存在可行解。

当净充电动作固定后，由于约束式（2）、约束式（3）及的非负约束，有

不能取更小的值，因为这样会增加弃风量，不经济。

以上推导说明和可行域中的是一一对应的，降维没有缩小智能体的可探索范围。因此，可以选择作为Actor网络的输出，并替代Critic网络输入中的，损失表达式（32）和式（33）的修改仅是符号上的区别，此处不再赘述。

当Actor输出的可行时，，可直接计算奖励，否则增加关于修正量的惩罚项。综上所述，实际训练时，采用代替，其中权重为。

可以验证，采用式（38）替换3.1节中原有奖励式（28）得到新的MDP问题，其最优策略及最优值都是不变的，因此该问题和式（14）仍是等价的，但是训练难度降低了。

在训练和保存样本时，使用动作。在和环境交互获取时，智能体使用动作，保证合法，其中和来自于实际观测。

在3.3节的基础上，可以利用经典DDPG算法训练智能体，从而给出一个调度策略。然而若得到一个性能较好的智能体很困难，主要原因在于调度周期长导致状态空间太大，探索效率低。对于调度周期为1天，时隙5min的模型，仅就有288种取值，如果其余三个状态量按百分比离散化，则有上亿种组合。此外，经典DDPG算法的探索方式是在Actor的输出附近引入高斯噪声来增加探索率。然而当存储容量较大时，这种方式导致智能体只在某个小范围的SOC中探索，由于储能充电没有即时收益，智能体容易陷入短视。为此，本节基于第2节中提出的基础策略，引入样本初始化和专家机制，提升探索效率，从而提升智能体性能。

基于风机出力和电价的历史数据，由基础调度策略，对历史上每个调度周期的各个时期t，可以得到各下的调度动作。基础策略的调度动作都是可行的，因此可由式（35）和式（38）直接得到和。由于历史数据是确定的，和可以由式（39）得到。由此得到一系列样本。用这些样本初始化经验库。由于基础策略性能较好，在此基础上训练智能体能够有效规避不可行动作和低效益动作，大大提高了探索效率。

为了在训练初期帮助智能体进一步规避低效益动作，提升收敛速度和探索效率，引入专家机制，即一个“低充高放”策略，有

为低电价满充且高电价满放的分段线性策略，其中包含两个超参数和。在训练时，对Actor的损失函数式（32）增加额外惩罚项。

式中，为权重因子，初值为，衰减率为，每训练一次Actor网络指数衰减一次，速率由控制。

超参数和可以通过基础策略预生成的样本估计大致的范围。将样本中所有满放动作时的电价取平均值记作，所有满充动作时的电价取平均值记作。由于最小化Lyapunov漂移引入了额外的保守性，导致和更加接近平均电价，因此≤≤，≤≤。

引入基于基础策略的样本初始化和专家机制后，求解自调度MDP模型的高效DDPG算法结构如图2所示。

图2高效DDPG算法结构

Fig.2EfficientDDPGalgorithmstructure

高效DDPG算法训练流程见表2。其中训练轮数最大为；表示高斯噪声的方差，初值为，衰减率为，每训练一次网络指数衰减一次，速率由控制。越大，智能体的动作的随机性越高，反之，动作的贪婪性越高。基于基础策略的样本初始化体现在步骤3，专家机制体现在步骤10。

表2高效DDPG算法训练流程

Tab.2EfficienDDPGalgorithmtrainingprocess

算法1高效DDPG算法训练流程1.随机初始化Actor评估网络和Critic评估网络的权重和；2.初始化Actor目标网络和Critic目标网络权重，；3.由基础调度策略、式（35）、式（38）、式（39）和历史数据生成一系列样本，从中随机选择D个初始化经验库；4.令训练轮数=0；5.在历史数据中随机抽取一个调度周期用于训练；6.令，重置，读取和，得到初态；7.由状态，Actor评估网络的输出增加高斯噪声后得到动作，；8.由式（36）计算,由（38）计算，由式（39）得到和；9.将样本存入经验库；10.从经验库中随机抽取个样本，由式（41）和式（33）计算损失和，分别更新和；11.由式（34）更新和；12.更新和；13.如果，，回到步骤7，否则当前训练轮次结束继续步骤14；14.，如果则终止训练，否则回到步骤515.保存模型，测试性能。

表3改进调度策略

Tab.3Real-timeself-dispatchimprovedstrategy

算法2改进调度策略初始化：由算法1得到训练好的Actor评估网络，获取，令；1.在时期，获取，和，由此得到；2.由和式（36）得到；3.由式（35）和式（37），得到调度动作；4.由调度动作和式（5）,得到；5.当，算法终止；否则，令，回到步骤1。

图3风机实时出力（测试集）

Fig.3Real-timepowerofwindturbine(testset)

图4实时电价（测试集）

Fig.4Real-timeelectricityprice(testset)

表4风储电站参数

Tab.4Wind-storagepowerplantparameters

参数数值参数数值(%)/MW/[$/(MW·h)]/[$/(MW·h)]2020956039.719.0/(MW·h)/(MW·h)(%)/MW/min10020951001.935

由基础策略，遍历训练集的各调度周期，可以用基础策略得到各个时期的调度动作，由此生成样本288×710共204480个。其中不存在同时充放电的行为，由此说明式（22）中直接忽略约束（7）的做法是合理的；样本中也不存在SOC越界的现象，这和式（27）中的结论相对应。

高效DDPG算法的超参数见表5。由于MDP的目标为最大化累计收益，不存在折扣，故。为了尽可能地充分利用所有预生成的样本，取经验库容量。实测发现，当训练轮次达到260时，Critic网络基本都能达到收敛，于是取。将预生成样本中所有满放动作时的电价取平均值，得到$/(MW·h)，将所有满充动作时的电价取平均值，得到$/(MW·h)。由3.2节中的分析，取$/(MW·h)，$/(MW·h)。其余超参数都为经验值或者经过调试后获得。

表5高效DDPG算法的超参数

Tab.5HyperparametersoftheimprovedDDPGalgorithm

参数数值参数数值/[$/(MW·h)]11.2×10-39×10-30.01200000120/[$/(MW·h)]150300502600.0130

Actor和Critic网络为全连接网络，结构和优化器见表6。初始学习率分别为和，取值见表5。Actor网络输入，输出；Critic网络输入和，输出Q函数值。由于有四维而为一维，故Actor网络输入维数为4，Critic网络输入维数为5，输出维数则都是1维。隐藏层激活函数选择了Leakyrelu(0.1)而没有选择Relu，是为了保证当输出为负时仍有梯度信息，抑制梯度消失现象。类似地，Actor网络的输出绝对值取1时就意味着储能充放已经达到了的上限，之所以取激活函数为1.1Softsign是为了避免动作趋于上限时所带来的梯度消失问题。

表6神经网络的结构和优化器

Tab.6Structureandoptimizerofneuralnetworks

参数Actor网络Critic网络隐藏层数神经元数隐藏层激活函数输出层激活函数优化器输入维数输出维数2[128;64]Leakyrelu(0.1)1.1SoftsignAdam412[128;64]Leakyrelu(0.1)NoneAdam51

为了判断智能体的训练是否收敛，常见做法是绘制总奖励-训练轮次曲线，由该曲线的收敛判定训练收敛。然而，在算法1中，每轮训练需要从历史数据（训练集）中随机抽取一天，从图3和图4中可以看出，各天之间的风电和电价差异较大，这导致训练过程中各个训练轮次的总奖励也波动剧烈。因此本文改用神经网络权重来判定是否收敛。在训练过程中，每经过5个训练轮次（trainepisode），测试Critic评估网络的权重，取各权重矩阵1-范数的均值作为收敛指标，其趋势如图5所示。可以看出，该收敛指标在第200个训练轮次以后基本稳定在2400左右，可以认为训练收敛。多次实验发现，收敛指标在训练轮次达到260之前都能趋于稳定，兼顾训练资源和收敛性，取。

在训练收敛后，即可利用算法2在测试集上测试智能体的性能。为了说明算法的有效性，本文选用经典DDPG算法训练智能体，用于对比。相比于高效DDPG算法，经典DDPG算法没有采取基础策略的样本初始化及专家机制，其初始化的方式为，用未训练的Actor评估网络+高斯噪声（方差为）的方式来随机动作，由此生成样本填满经验库。除此之外，二者其余的训练流程完全相同，且都采用相同的网络结构和超参数。

图5神经网络权重—训练轮次曲线

Fig.5Neuralnetworkweight-trainepisodescurve

在测试集上测试改进调度策略、经典DDPG算法训练的智能体及基础调度策略三种算法，结果见表7。在运行效果方面，三种策略不可行点数都为0，说明这些策略都运行在安全范围内，没有给出越界的调度动作；在SOC方面，改进策略的平均日最大SOC高于经典DDPG，但都小于12%，说明储能容量比较充足，而基础调度策略的平均日最大SOC高达43.68%，这是因为Lyapunov漂移惩罚项倾向于将SOC稳定在50%附近；在收益方面，改进调度策略的性能最好，经典DDPG算法的效果最差，前者比后者收益增加了2.60%，比基础调度策略增加了1.80%。由此可见，在基础调度策略基础上进行的DDPG训练提升了其性能，而基础策略的样本初始化及专家机制这一改进也明显提升了DDPG的训练效果。在运行过程中，改进调度策略给出的调度动作都是可行的且平均收益相对其他两种策略都有明显提升，证明了算法的有效性。

表7平均性能比较（测试集）

Tab.7Averageperformancecomparison(testset)

策略不可行点数平均日最大SOC(%)平均日收益/(103$)收益增长(%)改进调度策略基础调度策略经典DDPG00011.1343.686.406.9546.8316.778—1.802.60

图6放电功率对比（测试集第19天）

Fig.6Dischargingpowercomparison(testsetday19)

图7SOC对比（测试集第19天）

Fig.7SOCcomparison(testsetday19)

为了进一步说明算法的稳定性，将算法1中Tensorflow2.0的随机种子设为1,2,,7，由此得到七组不同的神经网络初始权重。按照表4～表6中的参数进行多次训练，并在测试集上测试所得改进调度策略的平均日收益，如图8所示。可见随机权重对于测试结果几乎无影响，算法稳定性较好。

图8随机权重对算法结果的影响

Fig.8Theinfluenceofrandomweightonalgorithmresult

为了进一步说明储能容量改变对本文所提算法效果的影响，在原算例参数附近，选取存储容量上限设为30MW·h,40MW·h,,130MW·h，分别测试经典DDPG得到的策略、本文提出的调度策略和改进调度策略。容量变化对算法结果的影响如图9所示。其中，改进调度策略收益最高且较为稳定，性能最好。当储能容量上限低于50MW·h时，储能容量相对紧张，收益随容量增长而略微增长；当高于60MW·h时，收益基本没有变化，因为此时储能容量比较充足，故存储上限的变化对结果影响不明显。经典DDPG的收益较低，性能最差；基础调度策略的收益随着容量的增加先略微增加后有所下降，这是因为随着不断增加，的大小也会随之变大，式（22）中的惩罚项也会增大，导致基础调度策略保守性增加，性能下降。图9说明了储能配置容量在一定范围变化时，本文所提策略仍是有效的。

图9容量变化对算法结果的影响

Fig.9Theinfluenceofcapacityvariationonresults

本文针对传输线并网的风储联合电站的实时自调度问题，从并网上电经济收益最大化目标出发，利用基于Lyapunov优化的基础调度策略，由高效DDPG算法得到改进调度策略。通过和经典DDPG算法的对比，论证了该策略的有效性。结果表明：

1）改进调度策略在提升经济收益方面效果较佳。第4节的仿真算例表明，在风电和电价等预测信息未知的条件下，本文所提方法相比于基础调度策略和经典DDPG算法得到的调度策略，平均收益都有明显提升。

2）基础调度策略引入了额外的保守性，经典DDPG算法容易陷入不给储能充电的解。高效DDPG算法用基础调度策略进行初始化并引入专家机制，训练效率高。由此得到的改进调度策略更充分地利用了储能的存储容量，对电价变化的响应灵敏。

3）高效DDPG算法收敛性较好。离线训练的智能体在线应用，满足了自调度的实时性需求。

参考文献

[3]姜书鹏,乔颖,徐飞,等.风储联合发电系统容量优化配置模型及敏感性分析[J].电力系统自动化,2013,37(20):16-21.

JiangShupeng,QiaoYing,XuFei,etal.Capacityoptimizationandsensitivityanalysisofcogenerationsystemofwindpowerandenergystorage[J].AutomationofElectricPowerSystems,2013,37(20):16-21.

[4]陆秋瑜,罗澍忻,胡伟,等.集群风储联合系统广域协调控制及利益分配策略[J].电力系统自动化,2019,43(20):183-191.

LuQiuyu,LuoShuxin,HuWei,etal.Wide-areacoordinatedcontrolandbenefitassignmentstrategyofclusteringwind-energystorageintegratedsystem[J].AutomationofElectricPowerSystems,2019,43(20):183-191.

[5]孙辉,刘鑫,贲驰,等.含风储一体化电站的电力系统多目标风险调度模型[J].电力系统自动化,2018,42(5):94-101.

SunHui,LiuXin,BenChi,etal.Multi-objectiveriskschedulingmodelofpowersystemcontainingpowerstationwithintegratedwindpowerandenergystorage[J].AutomationofElectricPowerSystems,2018,42(5):94-101.

[6]王佳丽.探路风电预报[J].能源,2014(3):74-76.

WangJiali.Pathfinderwindpowerforecast[J].Energy,2014(3):74-76.

[7]姚子麟,张亮,邹斌,等.含高比例风电的电力市场电价预测[J].电力系统自动化,2020,44(12):49-55.

YaoZilin,ZhangLiang,ZouBin,etal.Electricitypricepredictionforelectricitymarketwithhighproportionofwindpower[J].AutomationofElectricPowerSystems,2020,44(12):49-55.

[8]GarcíaCE,PrettDM,MorariM.Modelpredictivecontrol:theoryandpractice—asurvey[J].Automatica,1989,25(3):335-348.

[9]XieLe,GuYingzhong,EskandariA,etal.FastMPC-basedcoordinationofwindpowerandbatteryenergystoragesystems[J].JournalofEnergyEngineering,2012,138(2):43-53.

[10]LinMinghong,LiuZhenhua,WiermanA,etal.Onlinealgorithmsforgeographicalloadbalancing[C]//2012InternationalGreenComputingConference(IGCC),SanJose,2012:1-10.

[11]WuHongyu,ShahidehpourM,LiZuyi,etal.Chance-constrainedday-aheadschedulinginstochasticpowersystemoperation[J].IEEETransactionsonPowerSystems,2014,29(4):1583-1591.

[12]Ben-TalA,NemirovskiA.Robustsolutionsofuncertainlinearprograms[J].OperationsResearchLetters,1999,25(1):1-13.

[13]Garcia-GonzalezJ,delaMuelaRMR,SantosLM,etal.Stochasticjointoptimizationofwindgenerationandpumped-storageunitsinanelectricitymarket[J].IEEETransactionsonPowerSystems,2008,23(2):460-468.

[14]LaraJD,OlivaresDE,CaizaresCA.Robustenergymanagementofisolatedmicrogrids[J].IEEESystemsJournal,2019,13(1):680-691.

[15]NeelyMJ.Stochasticnetworkoptimizationwithapplicationtocommunicationandqueueingsystems[M].Berlin:Springer,2010.

[16]GuoZhongjie,WeiWei,ChenLaijun,etal.Real-timeself-dispatchofaremotewind-storageintegratedpowerplantwithoutpredictions:explicitpolicyandperformanceguarantee[J].IEEEOpenAccessJournalofPowerandEnergy,2021,8:484-496.

[17]赵冬梅,陶然,马泰屹,等.基于多智能体深度确定策略梯度算法的有功-无功协调调度模型[J].电工技术学报,2021,36(9):1914-1925.

ZhaoDongmei,TaoRan,MaTaiyi,etal.Activeandreactivepowercoordinateddispatchingbasedonmulti-agentdeepdeterministicpolicygradientalgorithm[J].TransactionsofChinaElectrotechnicalSociety,2021,36(9):1914-1925.

[18]李涛,胡维昊,李坚,等.基于深度强化学习算法的光伏-抽蓄互补系统智能调度[J].电工技术学报,2020,35(13):2757-2768.

LiTao,HuWeihao,LiJian,etal.IntelligenteconomicdispatchforPV-PHSintegratedsystem:adeepreinforcementlearning-basedapproach[J].TransactionsofChinaElectrotechnicalSociety,2020,35(13):2757-2768.

[19]刁浩然,杨明,陈芳,等.基于强化学习理论的地区电网无功电压优化控制方法[J].电工技术学报,2015,30(12):408-414.

DiaoHaoran,YangMing,ChenFang,etal.Reactivepowerandvoltageoptimizationcontrolapproachoftheregionalpowergridbasedonreinforcementlearningtheory[J].TransactionsofChinaElectrotechnicalSociety,2015,30(12):408-414.

[20]梁煜东,陈峦,张国洲,等.基于深度强化学习的多能互补发电系统负荷频率控制策略[J].电工技术学报,2022,37(7):1768-1779.

LiangYudong,ChenLuan,ZhangGuozhou,etal.Loadfrequencycontrolstrategyofhybridpowergenerationsystem:adeepreinforcementlearning—basedapproach[J].TransactionsofChinaElectrotechnicalSociety,2022,37(7):1768-1779.

[21]于一潇,杨佳峻,杨明,等.基于深度强化学习的风电场储能系统预测决策一体化调度[J].电力系统自动化,2021,45(1):132-140.

YuYixiao,YangJiajun,YangMing,etal.Predictionanddecisionintegratedschedulingofenergystoragesysteminwindfarmbasedondeepreinforcementlearning[J].AutomationofElectricPowerSystems,2021,45(1):132-140.

[23]蔡新雷,崔艳林,董锴,等.基于改进K-means和MADDPG算法的风储联合系统日前优化调度方法[J].储能科学与技术,2021,10(6):2200-2208.

CaiXinlei,CuiYanlin,DongKai,etal.Day-aheadoptimalschedulingapproachofwind-storagejointsystembasedonimprovedK-meansandMADDPGalgorithm[J].EnergyStorageScienceandTechnology,2021,10(6):2200-2208.

[25]ShenZiqi,WeiWei,WuDanman,etal.Modelingarbitrageofanenergystorageunitwithoutbinaryvariables[J].CSEEJournalofPowerandEnergySystems,2021,7(1):156-161.

[26]束金龙,闻人凯.线性规划理论与模型应用[M].北京:科学出版社,2003.

[27]SigaudO,BuffetO.Markovdecisionprocessesinartificialintelligence[M].NewYork:JohnWiley&Sons,2013.

EfficientDeepDeterministicPolicyGradientAlgorithmforReal-TimeSelf-DispatchofWind-StoragePowerPlant

SongYuhao1WeiWei1HuangShaowei1WuQiren2MeiShengwei1

（1.DepartmentofElectricalEngineeringTsinghuaUniversityBeijing100084China2.ChinaThreeGorgesRenewables(Group)Co.LtdBeijing101100China）

keywords：Wind-storagepowerplant,real-timeself-dispatch,Lyapunovoptimization,deepdeterministicpolicygradient(DDPG)

DOI:10.19595/j.cnki.1000-6753.tces.220979

中图分类号：TM614

中国长江三峡集团有限公司科研项目资助（202003128）。

收稿日期2022-05-30

改稿日期2022-07-18

作者简介

宋煜浩男，1998年生，博士研究生，研究方向为储能技术的应用。E-mail：3160871816@qq.com

黄少伟男，1985年生，博士，副研究员，硕士生导师，研究方向为人工智能在电力系统中的应用。E-mail：huangsw@mail.tsinghua.edu.cn（通信作者）

THE END

风储联合电站实时自调度的高效深度确定性策略梯度算法

必知！5大AI生成模型算法序列神经网络ai生成模型

基于对照经验公式的构件本构模型离线更新混合试验方法

风储联合电站实时自调度的高效深度确定性策略梯度算法

PyTorch框架的Yolov5移植–寒武纪开发者社区

在线学习和离线学习淼淼兮予怀

西北工业大学离线具身智能研究取得新突破