この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 日本と英国の人工知能と神経科学の研究者が集まったGatsby/科研費合同ワークショップ1)が2017年5月にロンドンで開かれ筆者も講演者として参加してきた。このワークショップは英University College LondonのGatsby計算神経科学研究所(Gatsby研)DirectorであるPeter Dayan氏と沖縄科学技術大学院大学(OIST)教授の銅谷賢治氏らの呼びかけで開催された。

 Dayan氏はベイズ法を神経科学に適用し、神経伝達物質が予測誤差や不確実性を表すのに使われていることを明らかにした。このほかにも強化学習でのQ学習やTD(λ)の収束性の証明、今の深層生成モデルにつながるヘルムホルツマシンなど多くの業績がある。グーグルDeepMindのメンバーの多くがGatsby研の出身であり、DeepMindが強化学習やベイズ法、エピソード記憶など神経科学に着想を得た手法を積極的に手掛けていることからもその影響の大きさが分かる。一方、銅谷氏は後述する脳内での学習システムを明らかにするため実際の動物やシミュレーションモデルを使い脳内での学習システムの解明を進めている。

 現時点でも脳がどのように情報を処理し、学習しているのかについては完全に解明されていないが、いくつか有力な考えが提唱されている。ここでは銅谷氏が1999年に提唱した学習モデル2)を基に説明する。これは脳内では、大脳基底核(Basal Ganglia)による強化学習、小脳(Cerebellum)による教師あり学習、そして大脳新皮質(Cerebral Cortex)による教師なし学習が連動して学習されているというものである。これらを順にみていこう。

[画像のクリックで拡大表示]
ワークショップが開催されたUCLのGatsby Computational Neuroscience Unit(写真:UCL)

 強化学習を担う大脳基底核は線条体(Striatum)、淡蒼球(Pallidum)などから構成される。線条体では、現在の状態sにもとづいて状態価値関数Vs)や、それと行動aを組合せた行動価値関数Qsa)が評価される。価値関数による評価結果はドーパミンニューロンに渡されTD誤差の計算に使われる。

  TD誤差は報酬の予測値と実際の報酬とのずれであり、この誤差を少なくすることで将来の報酬を予測できる。この予測誤差に応じてドーパミンニューロンからドーパミンが放出され、線条体における価値関数が更新される。一方、価値関数による評価は淡蒼球に渡され、そこで最適な行動を決定するのに使われる。決定された行動は視床を経由して大脳新皮質に伝搬され、実際の運動命令にマッピングされる。

 大脳新皮質は教師なし学習を担い、入力をそれを構成する因子、成分に分解し、それらと元の入力とのマッピングを実現する。入力を独立した成分に分解する操作としては独立成分分析(ICA)や主成分分析(PCA)が知られている。例えば、教師なし学習であるボルツマンマシンは入力変数がガウシアン、隠れ変数が2値変数の場合、その最尤推定によって入力の独立成分を見つけられ、入力変数がガウシアン、隠れ変数がガウシアンの場合はその最尤推定は入力の主成分を見つけられることがわかっている3)

 大脳新皮質がボルツマンマシンを実現しているかはわかっていないが、ボルツマンマシンはシナプスの代表的な更新則であるヘブ則に似た更新則を持つ。そのため、大脳新皮質が同じような計算を行い、入力を因子に分解する、また入力と因子間の関係を格納することはできると考えられる。大脳新皮質により、強化学習における状態や教師あり学習における入出力は抽象化され、学習の汎化が実現される。

 教師あり学習を担う小脳は入力から出力へのマッピングを学習し、運動制御や、習慣化された行動列の生成を担う。小脳は脳内でニューロン数が最も多く大半を占めているが、これにより無限ともいえる非常に多くの教師あり学習を互いに干渉せずに学習できる。入力から出力を予測する教師あり学習は様々な場面で利用することができる。例えば、強化学習における状態sからの最適な行動決定a=f(s)や、ある状態sで行動aを実行したら、次の状態s'がどうなるかs'=f(s, a)という環境モデルも教師あり学習で実現される。

 これら3つの学習は連動して実現される。例えばピアノ演奏の練習の場合を考えてみよう。練習の最初のうちは一つ一つどの鍵盤を押すかを考えて行動するため時間がかかり、不正確である。ここでは大脳基底核による強化学習が中心的な役割を果たし、どの行動が最も良さそうかを考え時間をかけて評価をする。この段階では毎回の行動で判断が必要であり脳も“疲れ”る。

 しかし、練習を繰り返していくと、意識せずに、ある状態の次にどう行動するか(どの鍵盤を押すか)を自動的に決定できるようになる。ここでは意志の介入は必要ない。この状態では小脳による教師あり学習が進み、ある状態sの次にどの行動を選ぶのかa=f(s)、そしてどの状態になるのかs'=f(s, a)が小脳により瞬時に計算されるようになっている。小脳による教師あり学習が機能し始めれば高速かつ正確に弾けるようになり、意識せず弾けるようになる。そのため、ピアノを弾きながら他のことを考えられるようになる。

 一般に、ある状態sの時にどのように行動aするかについては、強化学習が主体のモデルフリー、小脳による次の状態予測結果を使って評価したモデルベース、そして、小脳による記憶ベースに分けられる。

 a*=argmax aQ(s, a) モデルフリー(大脳基底核)

 a*=argmax a[r+V(f(s', a))] モデルベース(大脳基底核)

   s'=f(s, a) (小脳)

 a*=g(s) 記憶ベース(小脳)

 このように脳内では様々な異なる学習機構を持つモジュールが連動してタスクを学習していく。

 さらに他の学習結果を使って別の学習をするブートストラップも行われる。例えば、入力画像を同じ物体同士にグループ分けするセグメンテーションの学習では、はじめに「一緒に動いているものは一つの物体である」という事前知識を使って、動画からのセグメンテーションをはじめに学習する。次にこの学習結果を使って静止物体のセグメンテーションの正解を作り、静止画像のセグメンテーション方法を学習すると考えられている。

 人の脳では大部分の学習のブートストラップの仕組みが遺伝的(生得的)に組み込まれていると考えられている。受精卵から成体への成長の過程では、単純な細胞群が適切なタイミングに分化し相互作用しながら複雑な組織へと変化していく。これと同様に脳内でも様々な学習問題が適切な時期に発動されるように設定されており、成長するに従って今までの学習された結果をモジュールとして使ってより複雑な学習問題を解いていく。

 現在の機械学習や深層学習はこのような複雑な学習システムは実現しておらず、かろうじて人が複数の学習機構を組合せて実現している程度である。例えばDeepMindの囲碁ソフトであるAlphaGo学習の過程では次の手予測の教師あり学習、それを使っての行動価値関数の学習、それを使って盤面の状態価値関数の学習と進んでいく。

 神経科学と人工知能は近年、再度接近し交流が始まっている4)。人や動物の知能の仕組みを参考に学ぶとともに、現在の人工知能が複雑な問題を解けるようになるにつれ、それらの仕組みが実際に脳内で起きているかを調べる動きも出てきている。

 ワークショップの最後に参加者の一人が次のような興味深いアンケートをとっていた。「将来の人工知能は脳に似たシステムとなるのか、全く違うシステムになるのか。そして脳の仕組みの解明が人工知能の実現に役に立つのか、立たないのか」。私は「脳とは全く違うシステムになるが脳の仕組みの解明が人工知能の実現に役に立つ」と回答した。この結果が正しいのかは10年後に振り返ってみよう。

1)http://www.brain-ai.jp/events/detail/616/
2)K. Doya, “What are the Computations of the cerebellum, the basal ganglia, and the cerebral cortex?,” Neural Networks, vol.12, pp.961-974, 1999.
3)R. Karakida et al.,“Analysing Feature Extraction by Contrastive Divergence Learning in RBMs,” Deep Learning and Representation Learning Workshop, NIPS2014.
4)A. Marblestone et al., “Toward an Integration of Deep Learning and Neuroscience,” https://doi.org/10.1101/058545
岡野原 大輔(おかのはら・だいすけ)
2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:2017年7月号 pp.40-41 日経Robotics
記事は執筆時の情報に基づいており、現在では異なる場合があります。