繰り返し法 (動的計画法における)

出典: ORWiki

【くりかえしほう (iterative method)】

基本的には多変数同時問題を1変数問題の繰り返しで解く方法. 例えば, 原始政策 \mu = \{\mu_{1}, \mu_{2} \} \in \Pi_{p} \, の2変数同時最適化問題


\mathbf{max}_{\mu}     \sum \sum_{(x_2,x_3)}    g(x_1,u_1,x_2,u_2,x_3) \cdot  p(x_2\vert x_1,u_1)p(x_3\vert x_2, u_2) \,


を解く代わりに, \mu_{2} \, による最適化の後に \mu_{1} \, による最適化を行なう問題


{\mathbf{max}}_{\mu_1}\mathbf{max}_{\mu_2}   \sum \sum_{(x_2,x_3)} g(x_1,u_1,x_2,u_2,x_3) \cdot p(x_2\vert x_1,u_1)p(x_3\vert x_2, u_2) \,


を解く方法. ただし, u_{1} = \mu_{1}(x_{1}), u_{2} = \mu_{2}(x_{1},u_{1},x_{2})\,.