この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 深層学習は教師あり学習において大きな成功を収めている。一方、教師データを必要としない教師なし学習はまだ発展途上である。

 カナダUniversity of Toronto教授のGeoffrey Hinton氏は、「脳のシナプスは1014個あるが、人は109秒しか生きられない。サンプル数よりパラメータ数の方がずっと多いことになる。(これらのシナプスの重みを決定するためには)1秒当たり105個の制約が必要となり、多くの教師なし学習をしているとの考えに行き着く」1)と述べている。

 また、米New York University教授のYann LeCun氏は「知能をケーキに例えるならば、教師なし学習はケーキ本体であり、教師あり学習はケーキの飾り、強化学習はケーキ上のサクランボぐらいである。私達はケーキの飾りやサクランボの作り方は分かってきたがケーキ本体の作り方は分かっていない」2)と述べている。

教師あり学習は「ケーキの飾り」、強化学習は「サクランボ」

学習データがタダでいくらでも手に入る

 教師なし学習では今持っている情報から未来を予測する予測学習が重要になると考えられる。未来の予測タスクであれば常に時間遅れで実際の結果が得られるため、予測と実際の差を直接使って学習することができる。そういう意味では予測学習は学習データがタダでいくらでも手に入る教師あり学習ということもできる。

 予測学習の重要性は以前より指摘されており、例えば、Jeff Hawkins氏の「On Intelligence(和書名『考える脳 考えるコンピュータ』)」では学習の本質は予測にあると述べられている。

 この予測タスクでは、予測できる能力よりも予測タスクを解けるように獲得した特徴が重要となる。近年、特徴獲得において自己符号化器(Autoencoder)を使うのはうまくいかず、予測学習をした結果得られた特徴を利用した方が成功していると指摘されている3)

 自己符号化器では、入力を符号化器で次元数の低い潜在表現に変換し、それを復号器で元の入力に戻せるように学習することで、潜在表現上で本質的な情報を抽出することを試みる。しかし、自己符号化器の問題設定は、潜在表現においてどの情報を捨ててどの情報を残せば良いか一意に決まらない不良設定問題である。例えば、画像において前に写っている人と背景の山のどちらの情報を残すことが重要かは決められない。

予測をするには物体の位置や状態の認識が必要

 一方、未来の予測タスクを解けるようにするには物体の位置や状態などの高度な環境認識ができている必要がある。例えば、物体が加速しながら動いているのを見ている状況で未来を予測するためには、物体の位置、速度や加速度が求まっている必要があり、どの領域が1つの物体として一体なのかというセグメンテーションの問題も解く必要がある。また、物体が何であるのかという情報も推定する必要がある。その物体が車であれば直線運動するであろうし、シャボン玉であれば割れるだろうことが予測できる。このように予測タスクを解くことで有用な特徴抽出、つまり高度な認識ができるようになる。

 予測タスクを解くことで多くの問題で役に立つ表現を獲得できることは独立成分分析からもいえる。独立成分分析では、混合関数が非線形の場合、独立成分を一意に決定できない。一方で対象データが時系列データであり、各時刻のデータを生成する独立成分が前の時刻の独立成分に依存している場合、与えられたデータ対が時間的に連続する2つのデータか、ランダムなデータかを区別できるような関数は非線形の独立成分分析を達成できることが知られている4)。予測タスクが解けるようになる、またはその部分問題が解けるようになることで情報を構成する因子を同定することができるようになるのである。

 こうした予測学習は脳の中でも起こっていると考えられているが、どのように起こっているかはよく分かっていない。ここではその中で興味深い仮説5)について紹介する。

大脳新皮質の5-6層で予測処理との仮説

 視覚情報が処理されている大脳新皮質は6層構造から成る。この6層はそれぞれ異なった構造と役割を持ち、4層目が視床などから入力を受取り、その処理は表面側の1~3層目と奥側の5~6層目に2つに分かれる。この仮説では表面側の1~3層目が実際の視覚の処理を担い、5~6層目が予測処理を担っていると考えている。そして5~6層で作られた予測結果は視床枕と呼ばれる領域に伝搬され、そこで予測結果が映し出される。この視床枕ではすぐ後に実際の入力が伝搬され、予測との比較がなされる。この予測と実際の結果はα波に従って100msごとに切り替わるとされる。つまり1秒当たり10回予測していることになる。

 視床枕は大脳新皮質のほぼ全ての視覚に携われる部位と双方向で結合しているため、発生した予測誤差をこれらの領域に伝搬可能である。各シナプスについて実際の入力の時のシナプス前後のニューロンの共起頻度と予測の時の共起頻度の差が、予測誤差を小さくするような方向(勾配)となることが分かっている。これにより、予測誤差を小さくするようなシナプスの更新は全てローカルな情報で行われ、過去の記憶を必要としない。そのため、この学習は脳内で実現可能な更新則と考えられる。

 また、この予測学習は、始めは位置や移動の学習(Where経路)、次に物体の属性の学習(What経路)、最後にこれらの組み合わせ(Where×What経路)の学習と進む。目は止まっている目標を見続けている際にもマイクロサッカード(固視微動の一種)と呼ばれる微少な不随意運動を常に起こしている。眼球は自分で動かしているため、運動が分かっている中で見え方がどう変わるのかの予測問題を解くことになる。これによりどこに写っているのか、どう変わるのか(Where経路)が学習される。次に、この位置や移動が予測できるようになると追跡できるようになり、物体で何が写っているのか(What経路)が学習できるようになる。最後はこれら2つを組み合わせた予測(Where×What経路)が学習される。

 この仮説に従えば、1歳の幼児であれば生まれてから10時間/日×3600秒/時×365日×10Hz=1.3億回の予測学習をしていると考えられる。これは現在のディープラーニングで使われる100万枚から成る訓練画像データ、ImageNetの100倍の大きさになる。さらに、分類タスク(ImageNetでは1000クラスなので10bit)ではなく予測タスク(中心視野では数百万画素)であるので膨大な情報量のフィードバックを得て学習していることになる。

動画など高次元データの予測学習はまだこれから

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 このように予測学習は重要であるが、まだコンピュータ上では動画といった高次元データに対する予測学習は成功していない。予測学習では膨大な量のフィードバックが得られるとはいえ、入力も出力も高次元であり学習が難しい問題である。Where経路、What経路のような学習と同じように、少しずつ難しい問題を解くカリキュラム学習が必要になると考えられる。また、どれに注目して予測するかといった注目機構も重要になると考えられる。さらに利用している学習データ数が足りないという可能性がある。先ほどの試算のように、現在の教師あり学習の数百倍の規模でようやく成果が出て来るのかもしれない。




1)https://www.reddit.com/r/MachineLearning/comments/2lmo0l/ama_geoffrey_hinton/clyjogf/
2)https://drive.google.com/file/d/0BxKBnD5y2M8NREZod0tVdW5FLTQ/view, Yann LeCun, NIPS 2016, Keynote.
3)https://www.reddit.com/r/MachineLearning/comments/6z51xb/we_are_the_google_brain_team_wed_love_to_answer/dmycc65/
4)岡野原、「独立成分分析:情報のもつれを解く」、『日経Robotics』、2017年9月号、pp.36-37.
5)R. O'Reilly et al., “Deep Predictive Learning:A Comprehensive Model of Three Visual Streams,” https://arxiv.org/abs/1709.04654
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:2017年11月号 pp.36-37 日経Robotics
記事は執筆時の情報に基づいており、現在では異なる場合があります。