(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211128856.8
(22)申请日 2022.09.16
(71)申请人 中国电力科 学研究院有限公司
地址 100192 北京市海淀区清河小营东路
15号
申请人 国网江苏省电力有限公司
国家电网有限公司
(72)发明人 蒲天骄 张津源 李烨 王新迎
荆江平
(74)专利代理 机构 北京中巡通大知识产权代理
有限公司 1 1703
专利代理师 张弘
(51)Int.Cl.
H02J 3/46(2006.01)
H02J 3/14(2006.01)G06Q 10/04(2012.01)
G06N 20/00(2019.01)
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
分布式能源系统博弈优化调度方法、 系统、
设备及介质
(57)摘要
本发明公开了一种分布式能源系统博弈优
化调度方法、 系统、 设备及介质, 包括: 获取分布
式能源系统中各智能体的状态 参数; 各智能体包
含系统运营商智能体、 分布式电源运营商智能体
和负荷聚合商智 能体; 基于所述状态参数, 进行
强化学习构建多主体博弈模型和Q值表; 采用
WoLF‑PHC算法进行智能体训练并更新各智能体
的Q值表, 各智能体基于所述Q值表获得各自博弈
优化调度的Nash均衡解; 输 出各自博弈优化调度
的Nash均衡解用于 各智能体日前优化调度。 本发
明可有效提升分布式能源系统博弈优化调度问
题求解精度, 促进相关人工智 能技术落地, 推动
电力优化调度决策智能化。
权利要求书5页 说明书13页 附图3页
CN 115313520 A
2022.11.08
CN 115313520 A
1.一种分布式能源系统博 弈优化调度方法, 其特 征在于, 包括:
获取分布式能源系统中各智能体的状态参数; 各智能体包含系统运营商智能体、 分布
式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数, 进行强化学习构建多 主体博弈模型和Q 值表;
采用WoLF ‑PHC算法进行智能体训练并更新各智能体的Q值表, 各智能体基于所述Q值表
获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
2.根据权利要求1所述的分布式能源系统博弈优化调度方法, 其特征在于, 所述进行强
化学习构建多 主体博弈模型, 包括: 状态空间、 动作空间的构建以及奖励函数;
t时段联合状态空间表示 为:
式中, Ptpv, Ptload和
分别为t时段系统内光伏发电功率, 负荷功率和电储能储电量;
为t‑1时段微燃气轮机功率;
系统运营商智能体动作空间为:
式中,
为t时段系统运营商向用户售电电价;
为t时段系统运营商向分布式电源运
营商购电 电价;
系统运营商智能体动作空间的约束条件为:
式中,
分别为t时段购电价格上下限;
分别为t时段售电价格
上下限;
分布式电源运营商智能体动作空间为:
式中, Rt为t时段微燃气轮机爬坡功率;
表示微燃气轮机无功出力; Ptes、
分别表示
电储能有功、 无功出力;
负荷聚合商智能体动作空间仅包 含其负荷削减功率Ptil, 方法为:
系统运营商奖励函数为:
rtSO=Csell(t)‑Cbuy(t)‑Cgrid(t) (7)
式中, Csell(t)、 Cbuy(t)、 Cgrid(t)分别为系统运营商向用户的售电收益、 向分布式电源运
营商的购电成本、 与上级电网交 互成本;
分布式电源运营商决策变量为微燃气轮机有功、 无功出力和电储能有功、 无功出力, 优
化目标为 最大化售电收益, 奖励函数为:
权 利 要 求 书 1/5 页
2
CN 115313520 A
2Ptd=Ptpv+Ptmt+Ptes (12)
式中, Ptpv、 Ptmt、 Ptes分别为光伏发电功 率、 微燃气 轮机功率和电储能放电功率; Cmt(t)和
Cb(t)分别为 微燃气轮机和电储能运行成本;
负荷聚合商的效益 函数为:
式中,
为用户用电效用函数, 表示用户购电满意度, 采用如式(14)所示二次函数模
拟:
式中, d、 e均为系数;
实际负荷需求Ptload满足:
Ptload=Ptl0‑Ptil (15)
式中, Ptl0为固定负荷; Ptil为削减负荷, 具有上限约束:
式中,
为最大可削减负荷。
3.根据权利要求2所述的分布式能源系统博弈优化调度方法, 其特征在于, 所述Csell
(t)、 Cbuy(t)、 Cgrid(t)的具体 计算方法为:
式中, Ptload为t时段用户实际用电功率;
式中, Ptd为t时段分布式电源运营商售出功率.
式中, λtg,s和 λtg,b分别为上级电网的售电 电价和上网电价。
4.根据权利要求1所述的分布式能源系统博弈优化调度方法, 其特征在于, 所述Q值表
为由状态和动作形成的函数表, 表示 为:
Q(sp,ak)
其中, p和k分别代 表智能体的状态数和动作数。
5.根据权利要求1所述的分布式能源系统博弈优化调度方法, 其特征在于, 所述采用
WoLF‑PHC算法进行智能体训练并更新各智能体的Q 值表, 包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0;
系统运营商智能体、 分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策
略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励, 以及下一 时段系统联合运行状
态st+1, 并更新各智能体Q 值表; 对动作空间进行遍历得到的最大Q 值。
6.根据权利要求5所述的分布式能源系统博弈优化调度方法, 其特征在于, 所述更新各权 利 要 求 书 2/5 页
3
CN 115313520 A
3
专利 分布式能源系统博弈优化调度方法、系统、设备及介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:39上传分享