(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211078364.2
(22)申请日 2022.09.05
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 吴明贺 洪芦诚 王逸飞
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 周蔚然
(51)Int.Cl.
H02J 3/16(2006.01)
H02J 3/48(2006.01)
H02J 3/18(2006.01)
G06F 30/27(2020.01)
G06N 7/00(2006.01)G06F 21/62(2013.01)
G06F 111/06(2020.01)
G06F 111/08(2020.01)
G06F 113/04(2020.01)
(54)发明名称
基于双层强化学习电网-用户相协同的电压
无功优化方法
(57)摘要
本发明公开了一种基于双层强化学习电网 ‑
用户相协同的电压无功优化方法。 为了有效协调
配电网的电网侧设备和用户侧设备这两类所属
权不同的资源, 本发明从非对称马尔科夫博弈的
角度提出了一种双层无功电压优化框架。 其中,
电网侧的配电运行商(DSO)被视为在上层做决策
的领导者, 目的是最小化系统的网损; 用户被视
为在下层做决策的跟随者, 目的是缓解节点的电
压偏差。 除此之外, 本发明还提出了一种无模型
的Bi‑level Actor‑Critic(Bi ‑AC)算法来解决
上述非对称马尔科夫博弈模型, 该算法为领导者
和跟随者智能体制定了独特的策略(actor)和价
值(critic)网络, 同时还定义了 领导者智能体的
决策优先级。 最后, 本发明通过一个标准的
IEEE33节点测试系统和实 际电网运行数据验证
了所提方案的有效性。
权利要求书3页 说明书8页 附图3页
CN 115313407 A
2022.11.08
CN 115313407 A
1.基于双层强化学习电网 ‑用户相协同的电压无功优化方法, 其特征在于, 包括以下步
骤:
步骤1: 构建配电网 的Bi‑VVO模型, 在电网侧以DS O为控制主体构 建上层的优化模型, 其
目标是降低整个系统的网损, 在用户侧以PV用户为控制主体构建下层的优化模型, 其目的
是降低配电网节点的电压偏差;
步骤2: 将步骤1中的双层优化模型中的上层DSO视作领导者, 下层PV用户视作跟 随者,
并定义它 们的决策优先级, 以此来构建ASMG模型;
步骤3: 为了求解步骤1、 2提出的方法, 使用一种双层强化学习算法Bi ‑AC为领导者和跟
随着智能体制定独特的Actor和Critic网络;
步骤4: 针对步骤3中的Bi ‑AC算法, 采用离线的方式训练各智能体, 在此过程中智能体
通过真实的配电网历史运行 数据不断和仿真环境互动学习最佳的优化策略;
步骤5: 在步骤4训练完成后, 将各智能体的Actor网络部署到控制器上, 给控制器输入
观测信息实时得到优化策略。
2.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法, 其
特征在于: 步骤1所述的构建配电网的Bi ‑VVO模型, 上层的控制主体是电网侧的DSO, 为了应
对PV的间歇性, 选择无功优化设备是静止无功补偿器; 上层的优化目标是最小化配电系统
的有功损耗, 下式为精确的有功损耗计算公式:
式中N是配电网的节点总数, Pi、 Qi和Pj、 Qj分别代表节点i和j的有功功率和无功功率的
净注入量; 系数αij和βij由下式计算:
式中, δi、 Vi和δj、 Vj分别代表节点i和节点j的电压相角和幅值rij为两个节点之间的线
路电阻;
下层的控制主体是安装PV的用户, 通过PV附带的逆变器对所在节点进行无功优化来缓
解PV间歇性带来的电压偏差, 其优化目标如下式:
式中, Vi为第i个PV安装节点的电压幅值,Vset为标准电压的设定值, 一般设置为1。
3.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法, 其
特征在于: 步骤2所述的构建ASMG模型, 上层DSO视作领导者, 下层PV用户视作跟随者, 并定
义它们的决策优先级, 同时描述了ASMG的状态空间、 动作空间、 奖励函数和状态转移概 率;
1)状态空间: 领导者的状态空间为Sl=(P,Q,V), 这里P和Q代表节点有功功率和无功功
率净注入量Pi和
的集合, V是节点的电压幅值
跟随者的状态空间为Sf=
(P,Q,V,A), 跟随者接收领导者的决策信息并将其作为自身的状态输入策略函数中, 因此A
是领导者的动作Al, 除此之外, P、 Q、 V 代表安装PV用户所在节点的信息;权 利 要 求 书 1/3 页
2
CN 115313407 A
22)动作空间: 领导者的动作空间Al是每一个SVC的无功功率输出集合, al,it∈Al是t时刻
第i台SVC的无功输出Qt
svc,i, 跟随者的动作空间Af是每一个PV逆变器的无功功率输出, af,it
∈Af是t时刻第i台PV的无功输出Qt
PV,i;
3)奖励函数: 领导者的奖励函数是rlt=‑Ploss(t)–η, 跟随者的奖励函数为rft=‑Vdev
(t)–η, η是奖励函数中的惩罚因子, 当所有节点的电压幅值都满足规定的范围时η=0;
4)状态转移: 在每个时刻t, 领导者获得观测自己的状态为slt=(Pt,Qt,Vt), 根据该状态
做出相应的动作alt, 并把它传递给跟随者; 跟随者在t时刻的状态为 sft=(Pit,Qit,Vit,alt),
其中包括自己的当前的状态和领导者的动作, 然后做出相应的动作
然后智能体获取各
自的奖励rit, 状态根据概率模型P(sit+1|sit,ait)转移到下一时刻sit+1; 每一个智能体的目标
是发现一个可以最大化 其累计折扣回报Ri=∑Τ
t=0γtrit的策略。
4.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法, 其
特征在于: 步骤3所述的一种Bi ‑AC算法, 并为每一智能体制定了一个Actor模型和一个
Critic模型, 采用确定性策略函数
来表示actor模型, 使用函数Qi(si,ai|θi)表示
critic模型, 其中
和θi是神经网络的权重参数; 下面是各模型在优化过程中的参数更新
原理;
假设ASMG模型中有一个领导者和M个跟随者, 构建了一个联合策略集合{μl, μf,1,…,
μf,M}; 领导者actor输出的动作
跟随者actor输出的动作
跟随者和领导者用来评判actor的critic模型为Qi(slt,alt,af,kt|θi); 智能体i
的累计期望回报的梯度为
下式为领导 者和跟随者的策略梯度更新式:
式中, Xt=(slt,sf,1t,…,sf,Mt),
表示经验池, 它包含(Xt,Xt+1,alt,af,1t,…,af,Mt,rlt,
rf,1t,…,rf,Mt); 同时通 过最小化预测值和目标值之间的loss来更新值函数Qi(slt,alt,af,kt|
θi); 更新式如下式所示:
式中, E代表期望, i代表l,f1…M, 在更新过程中设计了目标actor μ'i和目标critic Q'i以
防止值的过估计并增加模型的稳定性;
和 θ'i分别为目标actor和目标critic神经网络的
权重参数, 使用目标网络替换Q中的yit得到下式:
目标网络的权重更新式为:
这意味着目标值只能缓慢
变化, 提高了学习的稳定性。
5.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法, 其
特征在于: 步骤4所述的采用离线的方式训练各智能体, 在此过程中智能体通过真实的配电
网历史运行 数据不断和仿真环境互动学习最佳的优化策略。权 利 要 求 书 2/3 页
3
CN 115313407 A
3
专利 基于双层强化学习电网-用户相协同的电压无功优化方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:22上传分享