(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211175322.0
(22)申请日 2022.09.26
(71)申请人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
街道孝陵卫 街200号
(72)发明人 柳伟 张思聪
(74)专利代理 机构 合肥市浩智运专利代理事务
所(普通合伙) 34124
专利代理师 郑浩
(51)Int.Cl.
H02J 3/00(2006.01)
H02J 3/48(2006.01)
H02J 3/24(2006.01)
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)G06Q 50/06(2012.01)
(54)发明名称
一种融合Q学习与 势博弈的多微电网系统协
调控制方法
(57)摘要
一种融合Q学习与 势博弈的多微电网系统协
调控制方法, 属于微电网协调控制技术领域, 解
决如何以微电网收益最大化和微电网间出力平
衡为目标 实现多微电网协调控制问题, 基于多微
电网分布式协调架构和势博弈优化策略, 构建了
融合强化学习与势博弈的多微电网系统协调控
制方法。 充分利用势博弈的分布式特性, 将每个
微电网视为一个智能体, 采用分布式协调控制结
构, 以最大限度提高和平衡单微电网和整体多微
电网系统的经济性为目的建立势博弈模型, 然后
以强化学习的Q学习算法为载体, 以参数传递的
方法将势博弈和强化学习算法进行融合, 从而 得
到最优纳什均衡解, 以提高寻优性能, 提高多微
电网系统经济性, 实现系统整体和系统内个体的
利益平衡 。
权利要求书2页 说明书8页 附图5页
CN 115411728 A
2022.11.29
CN 115411728 A
1.一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特征在于, 包括以下步
骤:
S1、 构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化
决策模型, 并设定功率平衡约束条件以及微电网出力约束条件;
S2、 对目标优化决策进行线性加权处理得到局部支付函数, 进而设计满足势方程的全
局势函数和 局部效用函数, 确立势博 弈策略集, 构建具有分布式特性的势博 弈模型;
S3、 以参数传递的方式将势博弈控制与Q学习算法进行融合, 对势博弈模型进行求解,
得到博弈优化结果并进行分析。
2.根据权利要求1所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤S1中所述的优化决策模型的构建方法如下:
1)最大化 微电网出力收益的净收益 为:
maxF1,i=( ρ‑mi)Pi (1)
其中, F1,i为微电网出力收益的净收益, Pi为多微电网系统 中的微电网i的出力, ρ 为单位
电价, mi为微电网i出力成本系数;
2)最小化多微电网系统中的各微电网与邻居微电网之间的功率差额, 以平衡各微电网
出力, 其目标函数为:
其中, F2,i为微电网i与其邻居微电网j之间的功率差额, Ii为微电网i的邻居集, Pj为微
电网i的邻居微电网j的出力。
3.根据权利要求2所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤S1中所述的功率平衡约束条件以及微电网出力约束条件具体如下:
其中, Pload为多微电网系统的总负荷, N为势博弈参与者集合, Pi,max为微电网i的额定容
量; nMG为多微电网系统中微电网的数量。
4.根据权利要求3所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤S2中所述的线性加权处 理的方法为:
其中, Fi(Pi,P‑i)为微电网i的局部支付函数, P‑i为多微电网系统中为除微电网i以外的
其他微电网出力, λ1和 λ2分别为不同目标函数的加权系数。
5.根据权利要求4所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤S2中所述的全局势函数φ的公式如下:
所述的局部效用函数的公式如下:权 利 要 求 书 1/2 页
2
CN 115411728 A
2其中, Ui(Pi,P‑i)为局部效用函数, Fj(Pi,P‑i)为微电网i的邻居微电网j的局部支付函
数。
6.根据权利要求5所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤S2中所述的势博 弈策略集的设计方法为:
(1)根据微电网出力约束来设计势博 弈策略集, 势博 弈策略集Yi具体为:
Yi={Pi:0≤Pi≤Pi,max} (7)
(2)求解所得的势博弈策略需在微电网容量限制内, 同时还要满足多微电网系统功率
平衡约束。
7.根据权利要求6所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤S 3中所述的以参数传递的方式将势博弈控制与Q学习算法进 行融合, 对势博弈
模型进行求 解, 得到博 弈优化结果并进行分析的方法具体如下:
(a)首先初始化博 弈参数和Q 值, 离散化势博 弈策略集, 并将其传递给Q学习的状态集,
(b)考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定, 设计由
功率变化 值ΔP组成的Q学习动作集;
(c)收集邻居微电网的信息, 计算每个微电网的效用函数, 并将效用函数值传递给Q学
习算法中的即时奖励, 并更新 Q学习算法中的Q 值;
(d)采用贪婪策略选择最优动作, 并根据所选动作更新状态值, 将状态值传递给博弈优
化策略;
(e)判断是否 达到纳什均衡, 若达 到, 继续下一 步, 否则返回步骤(c);
(f)判断是否满足收敛 条件, 若满足, 得到最终微电网出力计划, 否则, 返回步骤(c)。
8.根据权利要求7所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤(a)中所述的势博 弈策略集的离 散区间长度ΔPs为:
其中, M为划分的区间数; Pmax和Pmin由势博弈策略集上 下限确定 。
9.根据权利要求8所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其特
征在于, 步骤(c)中所述的Q学习算法中的Q 值的更新的公式如下:
其中, Pi∈A为Q学习中每一步的动作值, α ∈[0,1]是Q学习算法的学习率, γ∈[0,1]为
折扣参数。
为第k+1次的Q迭代值,
为第k次的Q迭代值, ΔPi为第i个微电网的出力变
化值,
为第i个微电网第 k次时的效用函数值, ΔPi'为第i个微电网第 k次迭代时最大Q值
对应的出力变化 值, Pi'为第i个微电网经 过ΔPi'变化后的出力值。
10.根据权利要求9所述的一种融合Q学习与势博弈的多微电网系统协调控制方法, 其
特征在于, 步骤(d)中所述的采用贪婪策略选择最优动作的公式如下:
ΔPi*=argmaxQ(Pi,ΔPi) (10)
其中, ΔPi*为采用贪婪策略选择的最优动作。权 利 要 求 书 2/2 页
3
CN 115411728 A
3
专利 一种融合Q学习与势博弈的多微电网系统协调控制方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:54上传分享