... 电网拓扑优化控制问题可以建模为马尔可夫决策过程(Markov Decision Process, MDP)[14].马尔可夫决策过程由5个关键元素组成:状态空间S、动作空间A、转移矩阵P、奖励函数R和折扣因子γ.系统环境为电网交流潮流求解器[13].智能体的状态空间(s,s∈S)包含部分可观测到的环境状态(se,se∈S).电网模型以改进的IEEE 14节点系统为例,系统状态空间S包含538个特征,具体包括发电机的有功功率输出和电压设定值、母线等值负荷、线路状态、线路潮流、线路热稳限值、采样时间等.动作空间A由线路开合、母线分裂运行与恢复以及两者的排列组合组成,如图1所示. ...
... 马尔可夫决策过程的求解目标是得到控制策略π,建立起系统状态与控制动作之间的匹配关系,从而使得策略执行过程中得到的预期回报J(π)最大,亦为马儿可夫决策过程的目标函数,定义为[14] ...
... 强化学习是一类特殊的机器学习算法,与监督学习和无监督学习不同,其要解决的问题是智能体在动态变化的环境中如何执行动作以获得最大累计奖励,可用于解决复杂信息物理系统的控制和决策问题.近年来,深度强化学习在多个领域的应用取得突破性进展(如AlphaGo等),为智能电网调度控制提供了启示.目前,存在多种强化学习算法,各有特点和适用范围.一种典型的算法是Q学习算法,利用Q表格来存储系统状态和动作对应的值函数Q(s, a),即系统在某个状态s下采用动作a将得到的累计回报.根据贝尔曼方程[14],累积回报Rt可以表示为预期回报: ...
... 式中:α为学习率.为了使用Q表格,系统状态和动作都需要进行离散化处理,因此很难处理状态和动作空间为高维的复杂问题.为了克服这个困难,可以使用深度神经网络来取代Q表格,即深度Q网络(Deep Q Network, DQN)算法.该方法使用神经网络作为函数逼近器对Q(s, a)函数关系进行估计,因此它可以支持求解状态空间为连续量的问题,而无需对状态进行离散化或构建Q表格.深度神经网络的权重θ表示从系统状态到Q值的映射,因此,需要定义一个损耗函数Li(θ)来更新神经网络权重θ及其对应的Q值,可使用下式[14]: ...
... 式中:ρ为状态-动作对(s, a)的概率分布;yi为时间差异目标;s'和a'为状态转移后(下一个)系统状态和动作;ε为环境中的系统状态分布.通过对损耗函数求梯度并执行随机梯度下降,便可以迭代方式不断更新智能体的权重[14]: ...