专利 基于双层强化学习电网-用户相协同的电压无功优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211078364.2 (22)申请日 2022.09.05 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人吴明贺　洪芦诚　王逸飞　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师周蔚然 (51)Int.Cl. H02J 3/16(2006.01) H02J 3/48(2006.01) H02J 3/18(2006.01) G06F 30/27(2020.01) G06N 7/00(2006.01)G06F 21/62(2013.01) G06F 111/06(2020.01) G06F 111/08(2020.01) G06F 113/04(2020.01) (54)发明名称基于双层强化学习电网-用户相协同的电压无功优化方法 (57)摘要本发明公开了一种基于双层强化学习电网 ‑ 用户相协同的电压无功优化方法。为了有效协调配电网的电网侧设备和用户侧设备这两类所属权不同的资源，本发明从非对称马尔科夫博弈的角度提出了一种双层无功电压优化框架。其中，电网侧的配电运行商(DSO)被视为在上层做决策的领导者，目的是最小化系统的网损；用户被视为在下层做决策的跟随者，目的是缓解节点的电压偏差。除此之外，本发明还提出了一种无模型的Bi‑level Actor‑Critic(Bi ‑AC)算法来解决上述非对称马尔科夫博弈模型，该算法为领导者和跟随者智能体制定了独特的策略(actor)和价值(critic)网络，同时还定义了领导者智能体的决策优先级。最后，本发明通过一个标准的 IEEE33节点测试系统和实际电网运行数据验证了所提方案的有效性。权利要求书3页说明书8页附图3页 CN 115313407 A 2022.11.08 CN 115313407 A 1.基于双层强化学习电网 ‑用户相协同的电压无功优化方法，其特征在于，包括以下步骤：步骤1：构建配电网的Bi‑VVO模型，在电网侧以DS O为控制主体构建上层的优化模型，其目标是降低整个系统的网损，在用户侧以PV用户为控制主体构建下层的优化模型，其目的是降低配电网节点的电压偏差；步骤2：将步骤1中的双层优化模型中的上层DSO视作领导者，下层PV用户视作跟随者，并定义它们的决策优先级，以此来构建ASMG模型；步骤3：为了求解步骤1、 2提出的方法，使用一种双层强化学习算法Bi ‑AC为领导者和跟随着智能体制定独特的Actor和Critic网络；步骤4：针对步骤3中的Bi ‑AC算法，采用离线的方式训练各智能体，在此过程中智能体通过真实的配电网历史运行数据不断和仿真环境互动学习最佳的优化策略；步骤5：在步骤4训练完成后，将各智能体的Actor网络部署到控制器上，给控制器输入观测信息实时得到优化策略。 2.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法，其特征在于：步骤1所述的构建配电网的Bi ‑VVO模型，上层的控制主体是电网侧的DSO，为了应对PV的间歇性，选择无功优化设备是静止无功补偿器；上层的优化目标是最小化配电系统的有功损耗，下式为精确的有功损耗计算公式：式中N是配电网的节点总数， Pi、 Qi和Pj、 Qj分别代表节点i和j的有功功率和无功功率的净注入量；系数αij和βij由下式计算：式中， δi、 Vi和δj、 Vj分别代表节点i和节点j的电压相角和幅值rij为两个节点之间的线路电阻；下层的控制主体是安装PV的用户，通过PV附带的逆变器对所在节点进行无功优化来缓解PV间歇性带来的电压偏差，其优化目标如下式：式中， Vi为第i个PV安装节点的电压幅值,Vset为标准电压的设定值，一般设置为1。 3.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法，其特征在于：步骤2所述的构建ASMG模型，上层DSO视作领导者，下层PV用户视作跟随者，并定义它们的决策优先级，同时描述了ASMG的状态空间、动作空间、奖励函数和状态转移概率； 1)状态空间：领导者的状态空间为Sl＝(P,Q,V)，这里P和Q代表节点有功功率和无功功率净注入量Pi和的集合， V是节点的电压幅值跟随者的状态空间为Sf＝ (P,Q,V,A)，跟随者接收领导者的决策信息并将其作为自身的状态输入策略函数中，因此A 是领导者的动作Al，除此之外， P、 Q、 V 代表安装PV用户所在节点的信息；权　利　要　求　书 1/3 页 2 CN 115313407 A 22)动作空间：领导者的动作空间Al是每一个SVC的无功功率输出集合， al,it∈Al是t时刻第i台SVC的无功输出Qt svc,i，跟随者的动作空间Af是每一个PV逆变器的无功功率输出， af,it ∈Af是t时刻第i台PV的无功输出Qt PV,i； 3)奖励函数：领导者的奖励函数是rlt＝‑Ploss(t)–η，跟随者的奖励函数为rft＝‑Vdev (t)–η， η是奖励函数中的惩罚因子，当所有节点的电压幅值都满足规定的范围时η＝0； 4)状态转移：在每个时刻t，领导者获得观测自己的状态为slt＝(Pt,Qt,Vt)，根据该状态做出相应的动作alt，并把它传递给跟随者；跟随者在t时刻的状态为 sft＝(Pit,Qit,Vit,alt)，其中包括自己的当前的状态和领导者的动作，然后做出相应的动作然后智能体获取各自的奖励rit，状态根据概率模型P(sit+1|sit,ait)转移到下一时刻sit+1；每一个智能体的目标是发现一个可以最大化其累计折扣回报Ri＝∑Τ t＝0γtrit的策略。 4.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法，其特征在于：步骤3所述的一种Bi ‑AC算法，并为每一智能体制定了一个Actor模型和一个 Critic模型，采用确定性策略函数来表示actor模型，使用函数Qi(si,ai|θi)表示 critic模型，其中和θi是神经网络的权重参数；下面是各模型在优化过程中的参数更新原理；假设ASMG模型中有一个领导者和M个跟随者，构建了一个联合策略集合{μl, μf,1,…, μf,M}；领导者actor输出的动作跟随者actor输出的动作跟随者和领导者用来评判actor的critic模型为Qi(slt,alt,af,kt|θi)；智能体i 的累计期望回报的梯度为下式为领导者和跟随者的策略梯度更新式：式中， Xt＝(slt,sf,1t,…,sf,Mt), 表示经验池，它包含(Xt,Xt+1,alt,af,1t,…,af,Mt,rlt, rf,1t,…,rf,Mt)；同时通过最小化预测值和目标值之间的loss来更新值函数Qi(slt,alt,af,kt| θi)；更新式如下式所示：式中， E代表期望， i代表l,f1…M，在更新过程中设计了目标actor μ'i和目标critic Q'i以防止值的过估计并增加模型的稳定性；和 θ'i分别为目标actor和目标critic神经网络的权重参数，使用目标网络替换Q中的yit得到下式：目标网络的权重更新式为：这意味着目标值只能缓慢变化，提高了学习的稳定性。 5.根据权利要求1所述的基于双层强化学习电网 ‑用户相协同的电压无功优化方法，其特征在于：步骤4所述的采用离线的方式训练各智能体，在此过程中智能体通过真实的配电网历史运行数据不断和仿真环境互动学习最佳的优化策略。权　利　要　求　书 2/3 页 3 CN 115313407 A 3

专利 基于双层强化学习电网-用户相协同的电压无功优化方法

专利基于双层强化学习电网-用户相协同的电压无功优化方法