この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 現在、深層学習を中心とした機械学習は人間に匹敵するような精度で様々なタスクを解く能力を学習で獲得できることが示されている。一方で、学習の際、人間と比べて膨大な量の学習データが必要なことが大きな問題となっている。

 例えば、プロのゲーマーが新しいゲームをプレーする場合、最初は戸惑うが数分も経つとミス無く操作できるようになり、すぐにクリアすることができる。これに対し、現在のDQN(Deep Q-Network)をはじめとした深層強化学習は、ある程度のレベルに達するためだけにも数万〜数十万回の経験を必要とする。

新しいタスクに機械学習をどう対応させるか

 人の驚異的な学習効率はいかにして達成されているのだろうか。一説には、人間は新しいタスクを学習する際に既存のタスクの学習結果(の一部分)をうまく再利用できているからではないかと考えられている。