专利一种融合Q学习与势博弈的多微电网系统协调控制方法 -在线下载 -AI解读-standardshub.tech

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211175322.0 (22)申请日 2022.09.26 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫街道孝陵卫街200号 (72)发明人柳伟　张思聪　 (74)专利代理机构合肥市浩智运专利代理事务所(普通合伙) 34124 专利代理师郑浩 (51)Int.Cl. H02J 3/00(2006.01) H02J 3/48(2006.01) H02J 3/24(2006.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01)G06Q 50/06(2012.01) (54)发明名称一种融合Q学习与势博弈的多微电网系统协调控制方法 (57)摘要一种融合Q学习与势博弈的多微电网系统协调控制方法，属于微电网协调控制技术领域，解决如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制问题，基于多微电网分布式协调架构和势博弈优化策略，构建了融合强化学习与势博弈的多微电网系统协调控制方法。充分利用势博弈的分布式特性，将每个微电网视为一个智能体，采用分布式协调控制结构，以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型，然后以强化学习的Q学习算法为载体，以参数传递的方法将势博弈和强化学习算法进行融合，从而得到最优纳什均衡解，以提高寻优性能，提高多微电网系统经济性，实现系统整体和系统内个体的利益平衡。权利要求书2页说明书8页附图5页 CN 115411728 A 2022.11.29 CN 115411728 A 1.一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，包括以下步骤： S1、构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化决策模型，并设定功率平衡约束条件以及微电网出力约束条件； S2、对目标优化决策进行线性加权处理得到局部支付函数，进而设计满足势方程的全局势函数和局部效用函数，确立势博弈策略集，构建具有分布式特性的势博弈模型； S3、以参数传递的方式将势博弈控制与Q学习算法进行融合，对势博弈模型进行求解，得到博弈优化结果并进行分析。 2.根据权利要求1所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤S1中所述的优化决策模型的构建方法如下： 1)最大化微电网出力收益的净收益为： maxF1,i＝( ρ‑mi)Pi (1) 其中， F1,i为微电网出力收益的净收益， Pi为多微电网系统中的微电网i的出力， ρ 为单位电价， mi为微电网i出力成本系数； 2)最小化多微电网系统中的各微电网与邻居微电网之间的功率差额，以平衡各微电网出力，其目标函数为：其中， F2,i为微电网i与其邻居微电网j之间的功率差额， Ii为微电网i的邻居集， Pj为微电网i的邻居微电网j的出力。 3.根据权利要求2所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤S1中所述的功率平衡约束条件以及微电网出力约束条件具体如下：其中， Pload为多微电网系统的总负荷， N为势博弈参与者集合， Pi,max为微电网i的额定容量； nMG为多微电网系统中微电网的数量。 4.根据权利要求3所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤S2中所述的线性加权处理的方法为：其中， Fi(Pi,P‑i)为微电网i的局部支付函数， P‑i为多微电网系统中为除微电网i以外的其他微电网出力, λ1和 λ2分别为不同目标函数的加权系数。 5.根据权利要求4所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤S2中所述的全局势函数φ的公式如下：所述的局部效用函数的公式如下：权　利　要　求　书 1/2 页 2 CN 115411728 A 2其中， Ui(Pi,P‑i)为局部效用函数， Fj(Pi,P‑i)为微电网i的邻居微电网j的局部支付函数。 6.根据权利要求5所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤S2中所述的势博弈策略集的设计方法为： (1)根据微电网出力约束来设计势博弈策略集，势博弈策略集Yi具体为： Yi＝{Pi:0≤Pi≤Pi,max} (7) (2)求解所得的势博弈策略需在微电网容量限制内，同时还要满足多微电网系统功率平衡约束。 7.根据权利要求6所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤S 3中所述的以参数传递的方式将势博弈控制与Q学习算法进行融合，对势博弈模型进行求解，得到博弈优化结果并进行分析的方法具体如下： (a)首先初始化博弈参数和Q 值，离散化势博弈策略集，并将其传递给Q学习的状态集， (b)考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定，设计由功率变化值ΔP组成的Q学习动作集； (c)收集邻居微电网的信息，计算每个微电网的效用函数，并将效用函数值传递给Q学习算法中的即时奖励，并更新 Q学习算法中的Q 值； (d)采用贪婪策略选择最优动作，并根据所选动作更新状态值，将状态值传递给博弈优化策略； (e)判断是否达到纳什均衡，若达到，继续下一步，否则返回步骤(c)； (f)判断是否满足收敛条件，若满足，得到最终微电网出力计划，否则，返回步骤(c)。 8.根据权利要求7所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤(a)中所述的势博弈策略集的离散区间长度ΔPs为：其中， M为划分的区间数； Pmax和Pmin由势博弈策略集上下限确定。 9.根据权利要求8所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤(c)中所述的Q学习算法中的Q 值的更新的公式如下：其中， Pi∈A为Q学习中每一步的动作值， α ∈[0,1]是Q学习算法的学习率， γ∈[0,1]为折扣参数。为第k+1次的Q迭代值，为第k次的Q迭代值， ΔPi为第i个微电网的出力变化值，为第i个微电网第 k次时的效用函数值， ΔPi'为第i个微电网第 k次迭代时最大Q值对应的出力变化值， Pi'为第i个微电网经过ΔPi'变化后的出力值。 10.根据权利要求9所述的一种融合Q学习与势博弈的多微电网系统协调控制方法，其特征在于，步骤(d)中所述的采用贪婪策略选择最优动作的公式如下： ΔPi*＝argmaxQ(Pi,ΔPi) (10) 其中， ΔPi*为采用贪婪策略选择的最优动作。权　利　要　求　书 2/2 页 3 CN 115411728 A 3

专利 一种融合Q学习与势博弈的多微电网系统协调控制方法

专利一种融合Q学习与势博弈的多微电网系统协调控制方法