ディープラーニング権威とも研究
認識と制御は2つのDNNで実行

 以降では、今回、シタラ興産が導入したロボットの開発元であるZenRobotics社の技術詳細について見ていこう。

 ZenRobotics社は日本ではほとんど知名度はないが、実はディープラーニングについて高い技術力を持った企業だ。フィンランドAalto Universityでのディープラーニングの研究成果を基にして2007年に創業した。

 共同創業者の1人であるHarri Valpola氏は同大学でニューラルネットワークを研究していた人物。画像認識などで使われる「CNN(convolutional neural network)」を考案したディープラーニングの権威、あのYann LeCun氏(米Facebook社 Director of AI Research)ともディープラーニングについて共同研究していたほどだ(図6)1)。ZenRobotics社にはこのValpola氏以外にも、Aalto Universityなど出身のディープラーニング研究者が複数いる。単なるロボットベンチャーではなく、AIについて世界レベルの技術力を持った企業だ。

図6 ディープラーニングの権威と共同研究
ZenRobotics社はディープラーニングの研究者を複数抱える。同社の創業者や研究者は、ディープラーニングの権威である米Facebook社のYann LeCun氏(米New York University教授)と共同研究もしていた。
[画像のクリックで拡大表示]

 ZenRobotics社は現在までに1300万ユーロ(約16億円)以上の資金を調達。2012年に最初の製品を投入し、その後、2014年に選別スループットを倍増させた現在のバージョンのZRRを発売した。今回、シタラ興産が導入したのは、このバージョンである。

物質推定や把持にDNN

 ZenRobotics社のZRRでは、ディープラーニングによるニューラルネットワーク(DNN)を廃棄物の材質の種類推定、およびロボットハンドでの把持姿勢計画、その2種類の処理に利用している(図7)。

図7 ディープラーニングを物質推定や把持計画に利用
主に距離画像センサにより廃棄物(オブジェクト)ごとのセグメンテーションを行った後、ハイパースペクトルカメラによる近赤外領域での分光スペクトルなどを基に各廃棄物の材質の種類を推定する。その廃棄物の把持計画では、距離画像や点群の法線情報などを入力として、ディープラーニングを利用する。(写真:ZenRobotics社)
[画像のクリックで拡大表示]

 ディープラーニング技術がブームのように席巻している現時点で見ると、ZenRobotics社のDNNの使い方は比較的オーソドックスだ。しかし、ZRRを最初に発売した2012年の時点でディープラーニング技術を使いこなし、ロボットなどのハードウエア製品に組み込んで商用化まで達成しているのは極めて先駆的といえる。

 ITの領域では、米グーグルや米Microsoft社などが音声認識や画像認識などに向けてディープラーニングを自社サービスで商用化しているが、ロボットのようなハードウエア製品にディープラーニング技術を組み込み、ロボットの性能を格段に高めるのは、日本企業が目指している方向性と近い。ZenRobotics社に見習うべき点は多いといえるだろう。

 ZRRでの廃棄物認識と選別のシステム構成は図7のようになっている。前述したように1台のロボットは、廃棄物の材質やベルコンベア上での場所を認識するためのセンサユニットと、実際に廃棄物を把持(ピッキング)して廃棄口に投げ入れて選別するロボットハンド2個、から成る。

 認識の流れは次のようなものである2)。まず、センサユニット内に設置したカメラで、ベルトコンベア上を高速に流れる廃棄物を撮影する。次に、このRGB画像と距離画像を基に、各廃棄物を背景領域から切り出す「セグメンテーション」処理を行う。

 セグメンテーション後は、各廃棄物に対しDNNで材質の識別(分類)を行う(図8)。DNNには、RGB画像や距離画像だけでなく、近赤外光ハイパースペクトルカメラや金属探知機のデータも入力する。合計4種類のセンサの情報を基にDNNが材質を推定する。

図8 システムによる認識結果
図7中の①~④の箇所と対応して示した。④の把持計画結果では、ディープラーニングによってハンドで把持しやすいと推定した把持位置が赤線で示されている。(写真:ZenRobotics社)
[画像のクリックで拡大表示]

 ZRRが識別する材質の種類は、木材や金属、プラスチック、がれきなど実行時にクラス数(種類)が決まっている。DNNが得意とする典型的な教師あり学習の識別問題である。ディープラーニングの訓練データのラベル(教師データ)は、人手でアノテーションして作成している。

 廃棄物の材質の正確な識別は通常のRGB画像だけでは難しいこともあるが、ZRRの場合、近赤外光ハイパースペクトルカメラという高価なセンサを用いているため、比較的、容易に識別できるといえる。ディープラーニングという機械学習の識別能力だけでなく、高性能なセンサというハードウエアの力も併用して、頑健な材質識別を実現している。

 一般にRGBカメラは各画素で赤、緑、青の3帯域(波長)のみで計測するが、ハイパースペクトルカメラはこの1画素当たりの帯域の数が10~100種類と非常に多い。広い帯域の光をほぼ連続的なスペクトルとして取得できるため、分光計測とも呼ばれる(「Sexy Technology」の記事を参照)。

 物質の反射光のスペクトルは、物質ごとに固有のスペクトル形状となる。ハイパースペクトルカメラでこのスペクトル形状を得られれば、材質の識別は正確に実施できる訳だ。ZRRの場合、この分光スペクトルに加えてRGB画像や距離画像、金属探知機の計測結果もあわせてDNNに入力し、総合的に識別するようにした。

 各廃棄物の材質が判明した後は、ロボットハンドで把持する順序を決める。廃棄物は材質の種類によってリサイクル向けの売却価格が異なる。このため、ZRRでは最も高く売却できる廃棄物から順にロボットハンドでピッキングし、選別するようにしている。