本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 線形ダイナミクスを持ったシステムに対する制御問題は古典的な問題であり広い分野でみられる。

 この制御問題に対し、近年オンライン学習を適用することでノイズやコストに対する仮定を大幅に緩和し、かつコスト関数が動的に変わる場合も対応できる方法が提案されている。これについて紹介しよう。

著者の岡野原大輔氏

 本稿では離散時間の線形システムの最適制御問題を扱う。

 時刻$t$におけるシステムの状態を$x_t$、行動を$u_t$、遷移ノイズ(または外乱)を$w_t$とした時、次の時刻の状態が次のように決まるとする。


\[x_{t+1} = A x_{t} + B u_t + w_t\]

この先は日経Robotics購読者限定です。