この記事は2016年7月に公開した「日経Robotics」有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 4足歩行ロボット「AIBO」や2足歩行ロボット「QRIO」を開発してきたソニー。同社は2016年4月にロボット事業への再参入に向けた組織を発足させたが、そのテーマは「育てる喜び、愛情の対象になり得るようなロボット」の開発だ。

 ソニーのいう「育てる喜び」とは何か。それは、ユーザーとのやり取りの中でロボットが自ら学習し、一種の“好奇心”を持ちながら成長していくものだ。基盤となるのが人工知能(AI)技術である。

 「学習が収束するというのは、ある意味、システムがその状況に“飽きている”ということ。人間から目標を与えられるだけでなく、新しい知識を自ら探索する“好奇心”を持った人工知能が必要」─。ソニーコンピュータサイエンス研究所(CSL)代表取締役社長の北野宏明氏は、ソニーグループが目指す将来のAIの姿をこう語る。

 ソニーが考えるロボットやAIのヒントとなるのが、2016年5月に米国法人経由で出資した、米国のAI関連のベンチャー企業、Cogitai社である。ディープラーニング(深層学習)と強化学習を組み合わせる「深層強化学習」などを基盤として、AIBOやQRIO向けのAIを手掛けて来たソニーの技術者らと共に次世代のAIの構築を目指す。

強化学習の権威が集結

 出資したCogitai社は、2015年に設立されたばかりで、ほとんど知られていない企業だが、実は強化学習分野の著名人が集結している集団である(図1)。

図1 ソニーとCogitai社のAI領域の人脈 
ソニーが出資したCogitai社には、強化学習などの著名研究者が多く集まる。(エアロセンス佐部氏の写真:菊池くらげ)
[画像のクリックで拡大表示]

 共同創業者でPresidentのPeter Stone氏(米University of Texas at Austin教授)は強化学習のロボットへの適用で著名な人物。ソニーのAIBOなどを用いて、強化学習の研究を数多く手掛けてきた注1)。CEOのMark Ring氏(同大学教授)と、CTOのSatinder Singh Baveja(米University of Michigan教授)氏も強化学習分野で実績のある人物である。

注1)Stone氏はロボットの国際競技会「RoboCup」の運営組織のVice Presidentを務める。RoboCupは北野氏が創設会長であったこともあり、同氏との20年来のつながりが今回の出資に結びついた。

 Cogitai社はさらに、社外から同社を支援する研究者のネットワーク「Brain Trust」を構築しており、ここに強化学習分野の重鎮が並ぶ。同分野を創生期から作り上げてきたRichard Sutton氏(カナダUniversity of Alberta教授)、さらにはMichael Littman氏(米Brown University教授)などだ。

 「単なる顧問の場合、年に数回、助言する程度だが、Cogitai社のBrain Trustは個別のプロジェクトに実際にメンバーとして参画する。ここに魅力を感じた」(北野氏)。ディープラーニング分野でいえば、Geoffrey Hinton氏、Yann LeCun氏、Yoshua Bengio氏のような権威らが一堂に集まったような会社だと北野氏は表現する。

深層強化学習の次へ

 両社が共同で開発を目指すのは、強化学習などで学習するタスク自体をAIが自ら探し出す技術である。米グーグルDeepMindの囲碁ソフト「AlphaGo」でも使われるなど、今のAI分野で時流となっている深層強化学習技術をベースとしつつ、既存の強化学習では扱い切れていなかった、タスクそのものを探し出す仕組みの構築を目指す。

 ソニーとCogitai社は、過去にもこうした問題意識での研究を手掛けてきている。ソニーは、AIBOの開発に携わった藤田雅博氏(同社VP 新規事業プラットフォーム 中長期事業開発室 技術開発担当 チーフ・テクノロジーエンジニア)やQRIOのAIの開発に関わった佐部浩太郎氏(現在は、ソニー系ドローンベンチャーのエアロセンスCTO)らが、同テーマを「内発的動機(好奇心)に基づく自律発達知能」と呼び、研究してきた1-2)。一方、Cogitai社側でもRing氏らが、似たテーマを「継続学習(continual learning)」と呼び研究してきた。ただし、過去の研究は技術的課題もあり現実世界で実用になるほどではなかった。

 潮目が変わったのは、最近のディープラーニングの興隆である。従来の強化学習では、画像のような高次元のデータをそのまま状態の入力として扱うことは難しかったが、ディープラーニングの発展と、それを強化学習に組み合わせるグーグルDeepMindのようなアプローチの登場により、状況が変わった。「以前は、AIBOやQRIOの関節自由度くらいしか扱えなかったが、今は画像など高次元のセンサ情報も強化学習の枠組みで扱えるようになってきた」(藤田氏)。