跳至正文
首页 » 哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation)

哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation)

考虑在时间 [t_0,t_f] 区间内的控制问题
V(x(t_0),t_0) =\int^{t_f}_{t_0} g[x(t),u(t)] \mathrm{d}t +g_f[x(t_f)]
其中 x 为系统状态, u 为系统输入, g 为成本函数, g_f 为对于最终时刻的成本函数。目标是求出一个序列 u 使得 V(x(0),0)得到最小值。

若在开始时间上进行一个微小的延迟 \mathrm{d}t ,最终时刻保持不变,那么新的成本函数可以表示为
V(x(t_0+\mathrm{d}t),t_0 +\mathrm{d}t) =V(x(t_0),t_0) +\int^{t+\mathrm{d}t}_t g(x(t),u(t))\mathrm{d}t

等式左侧可以用泰勒级数展开为
\begin{aligned} &V(x(t_0+\mathrm{d}t),t_0 +\mathrm{d}t) \\&=V(x(t_0),t_0) +\dot{V}(x(t_0),t_0)\mathrm{d}t +\nabla V(x(t_0))(x(t_0),t_0) \cdot \dot{x}(t_0) \mathrm{d}t +o(\mathrm{d}t) \end{aligned}

\mathrm{d}t 趋近于0时,等式右侧的积分项趋近于
\lim _{\mathrm{d}t \rightarrow 0}\int^{t_0+\mathrm{d}t}_{t_0} g(x(t_0),u(t_0))\mathrm{d}t=g(x(t_0),u(t_0))

将这他们都带回等式中,两侧同时减V(x(t_0),t_0),再除以\mathrm{d}t,并使\mathrm{d}t趋近于0,则可以得到 HJB 方程
\dot{V}(x(t_0),t_0) +\nabla V(x(t_0),t_0) \cdot \dot{x}(t_0) +g(x(t_0),u(t_0))=0
简略为
\dot{V}(x,t) +\nabla V(x,t) \cdot \dot{x}+g(x,u)=0

参考

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注