この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 当社Preferred Networksの論文1)がICRA 2018のHuman Robot Interactionのベストペーパーに選ばれた。この論文ではロボットに対し自由な言葉でピッキングタスクの指示を出し、ロボットがそれに応じて作業するという研究を扱っている(図1)。今回は、この技術背景や使われた技術の詳細について紹介していく。

著者の岡野原大輔氏

 従来、ロボットに対してタスクの指示をする場合、プログラムを書くか、ダイレクトティーチングをするか、人間や別のシステムの動作を参考に模倣学習するか、といった方法が取られてきた。これに対し、人が他人に指示を出す時のように、ロボットに対しても話し掛けることでタスクを指示する方法は、従来の手法と比較しても有望である。言語は訓練なしに誰でも使うことができるコミニケーションツールである。無限ともいえる表現力があり、抽象的で時空間を超えた表現(例:明日までに1階の部屋の床にちらかっているものを全部片付けて)を扱うことができるからである。

図1 システムの外観
机の上にあるトレー上の4つの箱(区画)から物体を取り出し、別の箱に移す。当社がAmazon Picking Challenge 2016に参加した際の構成を踏襲している。
[画像のクリックで拡大表示]

 しかし、これまで言語を使ったタスクの指示はまだ実用化されていない。自由に話された言語を理解することや、それらを現実世界の作業にマッピングすることが技術的に困難であったからである。それがディープラーニングの登場以降、音声認識、言語理解、画像認識の急速な発展、そしてそれらの結果を自然に統合できるようになり、言語を使ってロボットに指示することが可能となる素地が整ってきていた。

物体を別の箱に移すタスクを想定

 それでは今回の研究の紹介に移ろう。今回の研究1)はロボットに対し自由な言葉で指示を出し、ロボットがその指示に従ってピッキングタスクをこなすものである。初めて現実的な難易度、スケールの問題を必要な機能を全て統合して解くことができた。

 具体的な課題として、4つの箱の中にばらまかれた日用品を、別の箱に移動するタスクを扱った。このタスクの指示を言葉で出す。扱う日用品の種類は100種類弱である。ここから20種類程度の日用品をランダムに選択し、ボックスにばらまく。これらの商品はお互い重なっている場合もあり、姿勢も自由である(図2)。また、作ったモデルが汎化するかを調べるため、テスト時には学習時にはなかった22種類の未知の日用品も加えて評価している。さらに、日用品のいくつかは名前が思いつかないようなものも用意しているほか(例えば日本のコニシの接着剤「ボンド」は海外出身者には馴染みがなく、黄色く赤い蓋がある容器と説明された)、同じ製品で種類が違うものなども用意している。こうした場合、指示者は形状や色、穴が開いているなどの容態、似ているものなどを表現して指示をする必要がある。

図2 物体の並べ方の例
4つの箱に実際に物体を並べた様子。物体同士が重なりあっているところもある。
[画像のクリックで拡大表示]

 例えば、指示者は次のように指示を出す。「茶色いふわふわしたものを、その下の箱に移動して」(論文では英語による指示の例として紹介されている)「右下にあるティッシュボックスを左上の箱に移動して」「たくさん穴のあいたものを右上の箱に移動して」などである。また、指示だけからは複数の候補までにしか対象の物体を絞れず、曖昧さが残る場合は、ロボットが次のように聞き直す。

作業者「ティッシュボックスを左上に移動して」

ロボット「どれですか」(複数のティッシュボックスの候補を示した上で)

作業者「ぬいぐるみの近くにある方」

といった具合である。これらの指示は話し言葉であることから、書き言葉に比べてかなりくだけた表現になっており、文法的にも正しくない場合も多い。

 このシステムは大きく5つのサブシステムから構成される。

  • 1)音声指示を書き起こす音声認識システム
  • 2)画像に対し物体認識を行い、候補物体のbounding boxを出力する画像認識システム
  • 3)書き起こされた指示と、画像認識結果を受け取り、どの物体に対し指示しているのかを推定する物体選択システム
  • 4)書き起こされた指示から、どの箱への移動を指示しているかを推定する箱選択システム
  • 5)指示が曖昧であると判断した場合は、詳細を聞き直す確認システム

これらの詳細を順番に説明する。

 1)音声認識システムには今回、クラウドの音声認識サービスを利用した。こうした音声認識システムは汎用的にデザインされており、特定のタスクでは性能が劣化する傾向がみられた。例えば、今回のタスクでは箱にはない物体を音声認識結果として出すことが多くみられたほか、「真下」を「明日」と聞き間違えることがみられた。音声認識システムをタスクや話者、他のセンサ情報を使って特化させ、他のモジュールと繋げてend-to-endで学習することで性能を大きく向上できるだろうと考えられる。これらは今後の課題である。

 2)画像認識システムには速度と性能のバランスからSSD(Single Shot Detector)を使った。SSDはCNN(畳み込みニューラルネットワーク)を使い、特徴マップの各位置から候補とその確信度を生成する。また、物体検出時には物体の種類は考慮せず、物体であるか背景であるかだけを判断し、「物体らしさ」に従って検出している。これにより、さまざまな物体検出の学習データセットを利用することができる上、未知の物体も検出するよう汎化することが期待できる。

 3)物体選択システムは、画像情報に由来する部分と音声情報に由来する部分から成る。画像情報に由来する部分は始めにSSDの検出結果のbounding boxに従って、各物体が写っている画像領域を切り出す。次に切り出された画像領域に対しCNNとMLP(多層パーセプトロン)を使って各物体の特徴ベクトルを計算する。音声情報に由来する部分は、音声認識システムによって書き起こされた指示からLSTMとMLPを使って、特徴ベクトルを計算する。指示はくだけた表現になっており、文法的にも間違っている場合が多いことから、人手で作ったルール、辞書や文法処理は一切使わず、ニューラルネットワークのみで処理をしている。そして各物体の特徴ベクトルと指示の特徴ベクトル間のコサイン類似度を計算し、類似度が高いサンプルを対象物体として決定する。

 4)箱選択システムは音声の指示を基にどの箱への移動を指示しているのかを推定する。この推定モジュールは、指示を特徴ベクトルに変換する3)のネットワークと同じ構造を利用している。

 5)確認システムは認識結果に自信が無い場合に聞き直す。自信が無いかは、一位の指示対象物体候補のスコアと二位以下の指示対象物体候補のスコアとの間の差が小さいかどうかで判断し、小さい場合、聞き直すようにする。また、学習時には正解の対象物体のスコアがそれ以外の物体のスコアに大きなマージンをもって差がつくように学習する。今後は認識結果の不確実性を考慮して聞き直すといったことも考えられるだろう。これらのシステムは全てつながっており、学習時はサブシステム毎に学習し、それらのパラメータを最適化した。

システム全体の精度は73.1%

 性能はシミュレーション(各サブシステムごとの性能評価)および、実際のロボットを使って評価した。ロボットにはファナックの「M-10iA」を使い、ハンドには吸引型を利用した。このロボット構成は当社が「Amazon Picking Challenge 2016」に参加した際のものを踏襲しているが2)、ピッキング性能は精度、スピードともに大幅に向上している。

 学習・検証データはクラウドソーシングサービスのAmazon Mechanical Turkを使って構築した。指示の学習データの構築は、実際のタスクとは逆に、「この物体をここに移すとしたらどういう指示を出すか」という質問をアノテーターに対してすることでデータを作った。この学習データはサイト3)で公開している。

 システムの性能は各サブシステムごとの評価と実際にタスクがこなせたかのend-to-endの評価、その両方を行った。実際のロボットを使った実験で、正しい目標の箱を推定する精度は89.7%、正しい目標物体を選択する精度は75.3%、物体をピックして別の箱に置くピッキングシステムの精度は97.3%であった。また、これらのサブシステムを全て繋げたend-to-endのシステムの精度は73.1%であった。1つの物体移動の指示を出す際、平均して0.45回の聞き直しをしていた。曖昧な場合に聞き直しをすることで正しい目標物体を選択する精度はシミュレーター上では88.0%から92.7%に向上しており、聞き直すことが重要であることが再確認できた。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 本研究は自由な話し言葉を使ってロボットに物理的なタスクを指示する最初の研究である。今後、精度向上、安定性向上を目指すとともに、よりチャレンジングなタスクに取り組んでいきたい。

1)J. Hatori et al., “Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,” ICRA2018, https://arxiv.org/abs/1710.06280
2)岡野原、「Amazon Picking Challenge 2016 戦歴」、『日経Robotics』、2016年9月号、pp.14-16.
3)https://pfnet.github.io/interactive-robot/
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:日経Robotics、2018年7月号 pp.32-34
記事は執筆時の情報に基づいており、現在では異なる場合があります。