これを最も素直に実現する方法がマルチタスク学習である。マルチタスク学習では複数のタスクの学習データを前もって用意し、それらを同時に利用して学習する。タスク間で共通した部分問題に対し共通した計算を利用できるように、ニューラルネットは入力から途中までは共有して、最後にタスクごとに分岐するようなモデルを使う。また、多クラス分類も一種のマルチタスク学習と考えられる。これも途中まで同じネットワークを共有し、最後に分岐してsoftmaxで確率を計算しているためである。

 究極的には長い期間にわたって様々なタスクを学習し続ける必要が出てくる。このとき、新しいタスクが登場したり、または新しい学習データが手に入ったりした時に、最初からモデルを学習するのは非現実的であり、現在の学習済みのモデルを改良し続けていくことが必要となる。これを継続学習(continual learning)、または生涯学習(lifelong machine learning)と呼ぶ。

 人は継続学習をしており、各学習は同時には行わない。ある期間は自転車の乗り方を練習し、それが終ったら次は歴史の勉強をするといった具合である。自転車の乗り方と歴史の勉強を同時にするということはしない(睡眠中の夢で過去の経験を再生しているという説はある)。新しいタスクを学習しても、過去の学習結果は忘れず問題なく学習することができる。

 一方、現在の機械学習器で継続学習を行うと、新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう現象が起こる。こうした現象を専門用語で致命的忘却(catastrophic forgetting)と呼ぶ。また、今の学習が過去の学習結果に干渉し、悪影響をおよぼす現象を致命的干渉(catastrophic interference)と呼ぶ。

タスクごとにパラメータの重要度を算出

 コンピュータは過去の経験を学習データセットやReplay Bufferとして蓄積した上で、同時に学習するような問題設定にすれば何とか複数のタスクを学習できる。しかし、人が日々こなしているような数千、数万のタスクを学習するようになってくると致命的忘却の問題が発生してくる。また、今後IoTの普及で様々なデバイスが経験を積んで学習データを集められるようになった時、膨大な量の学習データを全て記憶しておくのが困難になると考えられる。

 致命的忘却を防ぎ、継続学習を実現する手法はこれまでいくつか提案されているが、ここでは最新の研究成果をいくつか紹介しよう。

 米グーグルのDeepMindにより提案された方法1)では、各タスクを学習し終えた後に、そのタスクにおける各パラメータの重要度を求めておく。そして、新しいタスクを学習する時には、過去のタスクで重要だった重みはできるだけ変わらないように制約した上で新しいタスクを学習する。この学習は、パラメータの固定(consolidation)度合いがタスクに対する重要性で柔軟(elastic)に変わることから、Elastic Weight Consolidation(EWC)と名付けられている(図1)。

図1 EWCによるマルチタスク学習のイメージ
矢印はパラメータ空間での各学習手法での学習の軌跡を示す。EWCは複数のタスクでエラーが少なくなるように学習を進める。(図:グーグルDeepMind)
[画像のクリックで拡大表示]

 どの重みが重要であるかどうかは、そのタスクにおけるFisher情報行列の対角項を使って判断する。Fisher情報行列はモデルの対数尤度の各パラメータについての勾配の2次モーメントである。これが大きいということはそのパラメータを動かすとモデル(予測分布)が大きく変わる重要なパラメータであることを意味し、小さい場合は重要でないことを意味する。

 実験では、家庭用ゲーム機「Atari 2600」の各ゲームを順に学習していった時に、何も制約をかけない通常の学習と、パラメータの重要度を求めず一律に昔のパラメータに近いようにする学習(L2)、そしてEWCを比較した。実験結果では、通常の学習では新しいタスクを学習すると従来タスクの精度が落ちてしまう致命的忘却が起きることが確認された。また、L2の場合は学習時の制約が厳しすぎて新しいタスクの精度を十分上げることができなかった。EWCは新しいタスクを十分な精度がでるように学習しつつ、従来タスクの精度も維持できていることが示された。

局所的な情報から重要度を推定する手法も

 一方でEWCでは、各タスクを終えた後にFisher行列の対角項を求めるというステップが必要である。これは現実世界のように、様々なタスクの学習が部分的に次々とやってくるような設定では不向きである。

 そこで米Stanford Universityの研究グループは、各パラメータの重要度をオンラインで推定する手法を提案した2)。これらの重要度を求める時にはモデル全体の情報は必要とせず、各パラメータの局所的な情報のみが必要なので、脳内でも実現可能な手法と主張している。

 この重要度の計算方法の導出は省略するが、各パラメータの重要度は学習時の各ステップでの目的関数に対する偏微分と、更新幅の積の総和としてオンラインで推定することができる。そして、新しいタスクの学習時には、これまでのタスクでの重要度が大きいパラメータについては更新されにくくすることで致命的忘却を回避する。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 実際の脳のシナプスは現在のニューラルネットワークで使われているスカラー値のようなパラメータだけではなく、様々な情報を保持し、シナプスの可塑性を動的に変えて継続学習を実現していると考えられている。ニューラルネットワークの世界でも、こうしたアイデアを基に継続学習を実現する様々なアイデアが実現されていくだろう。

1)J. Kirkpatrick et al., “Overcoming catastrophic forgetting in neural networks,” https://arxiv.org/abs/1612.00796
2)F. Zenke et. al., “Improved multitask learning through synaptic intelligence,” https://arxiv.org/abs/1703.04200
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:2017年5月号 pp.34-35 日経Robotics
記事は執筆時の情報に基づいており、現在では異なる場合があります。