現在は第3次人工知能(AI)ブームといわれています。インターネットのニュースや新聞でAIの話題を目にしない日はないと言っていいほどです。このブームの立役者の1つが「強化学習」と呼ばれる技術です。本連載は、強化学習の基礎から最新の話題まで、分かりやすく解説します。読者の方に技術のエッセンスを直感的に理解してもらい、より専門的な教科書や論文を読みこなせるようになってもらうことが目標です。今回は強化学習と深層学習、それぞれの役割について説明するところから始まります。(日経xTECH編集)

 強化学習の威力を世界に知らしめた大きな話題は、米Google(グーグル)傘下の英DeepMind(ディープマインド)が開発した囲碁AI「AlphaGo」でしょう。強化学習を応用して棋力を磨いたAlphaGoは、2016年3月に世界的なトッププロだったイ・セドル棋士に4勝1敗と圧勝して一躍名を上げました(関連記事)。

 2018年12月にDeepMindは、さらに技術を改良したAI「AlphaZero」の評価結果を発表しました1)。囲碁だけでなく将棋やチェスでも人間が戦った棋譜などを一切使わず、ゲームのルールに従って打てる手を試していくといった、まさにゼロから学習し続けることによって史上最高とされる強さを実現できたことを明らかにしています(DeepMindのブログ)。

AlphaGoはイ・セドル棋士に圧勝した
(写真:DeepMind)
[画像のクリックで拡大表示]

強化学習と深層学習:それぞれの役割

 ここで注意が必要なのは、AlphaGoやAlphaZeroが使った技術は強化学習だけではないことです。第3次AIブームのもう1つの立役者である「深層学習(ディープラーニング)」も大きな役割を果たしています。一般に、両者を組み合わせた技術は「深層強化学習」と呼ばれ、現在最もホットな研究テーマの1つです。

 強化学習と深層学習はいずれも機械学習と呼ばれる技術の一種ですが、実はそれぞれが得意とする問題は異なります。ざっくりいうと、前者は計画の立案(プランニング)や機械の制御といった「計画型問題」。人は、なんらかの目標を実現したい時には、「どんな行動」を「どういう順番」で実行するかを考えるとされています。しかも、より早く目標を達成するために、自分にとって最も都合のよい行動の組み合わせをあれこれ探るかと思います。この答えを見つける問題を計画型問題と呼びます。後者はパターン認識をはじめとする「診断型問題」。写真に写っている物体が自動車なのか建物なのかなど、対象とするものが何なのかを見きわめる問題をそう呼びます。

 例えば、囲碁、将棋、チェス、オセロなどのボードゲームでは、今の戦況(ボード上の駒の配置や、これまでに相手が打った手など)を見きわめるのが診断に相当し、「勝つ」という目標に向けて次の一手(行動)を決めるのが計画に相当します。ちなみに深層強化学習は、計画型の問題の一部である診断型の問題に、深層学習、すなわち深い層をもつニューラルネットワーク「DNN(ディープニューラルネットワーク)」を活用したと見なせます。詳しくは今後の連載で説明しますが、AIが特定の行動を取った時に獲得できる価値の近似などにDNNを用います。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら