原始政策

出典: ORWiki

【げんしせいさく (primitive policy)】

有限 N  \, 段逐次決定過程において, 過去の状態と決定の履歴に依存して定まる政策. すなわち, 時刻 n  \, の決定を, 状態空間 X  \, と決定空間 U  \, からなる(2n - 1) \, 個の直積 H_{n} := X \times U \times X \times U \times \cdots X \times U \times X  \, から決定空間 U  \, への関数 \mu_{n} : H_{n} \to U  \, で定めるとき, これらの決定関数の列 \mu = \{\mu_{1}, \mu_{2}, \ldots , \mu_{N} \}  \, を原始政策という. 情報量は一般政策より要するが, 非加法型期待値最適化問題では原始政策は一般政策と同じ期待値を与える.