哈密顿-雅可比-贝尔曼方程（Hamilton-Jacobi-Bellman equation）

由 BEEKC
2022年2月4日

考虑在时间 $[t_0,t_f]$ 区间内的控制问题
$V(x(t_0),t_0) =\int^{t_f}_{t_0} g[x(t),u(t)] \mathrm{d}t +g_f[x(t_f)]$
其中 $x$ 为系统状态， $u$ 为系统输入， $g$ 为成本函数， $g_f$ 为对于最终时刻的成本函数。目标是求出一个序列 $u$ 使得 $V(x(0),0)$ 得到最小值。

若在开始时间上进行一个微小的延迟 $\mathrm{d}t$ ，最终时刻保持不变，那么新的成本函数可以表示为
$V(x(t_0+\mathrm{d}t),t_0 +\mathrm{d}t) =V(x(t_0),t_0) +\int^{t+\mathrm{d}t}_t g(x(t),u(t))\mathrm{d}t$

等式左侧可以用泰勒级数展开为
$\begin{aligned} &V(x(t_0+\mathrm{d}t),t_0 +\mathrm{d}t) \\&=V(x(t_0),t_0) +\dot{V}(x(t_0),t_0)\mathrm{d}t +\nabla V(x(t_0))(x(t_0),t_0) \cdot \dot{x}(t_0) \mathrm{d}t +o(\mathrm{d}t) \end{aligned}$

当 $\mathrm{d}t$ 趋近于0时，等式右侧的积分项趋近于
$\lim _{\mathrm{d}t \rightarrow 0}\int^{t_0+\mathrm{d}t}_{t_0} g(x(t_0),u(t_0))\mathrm{d}t=g(x(t_0),u(t_0))$

将这他们都带回等式中，两侧同时减 $V(x(t_0),t_0)$ ，再除以 $\mathrm{d}t$ ，并使 $\mathrm{d}t$ 趋近于0，则可以得到 HJB 方程
$\dot{V}(x(t_0),t_0) +\nabla V(x(t_0),t_0) \cdot \dot{x}(t_0) +g(x(t_0),u(t_0))=0$
简略为
$\dot{V}(x,t) +\nabla V(x,t) \cdot \dot{x}+g(x,u)=0$

参考

哈密顿-雅可比-贝尔曼方程

发表回复取消回复