本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 ニューラルネットワークは学習データ数と同程度かそれ以上に多くのパラメータを持ちながら、なぜ過学習せず汎化するかはこれまで未解決問題だった。このようなパラメータ数の方が学習データ数(制約数)より多い場合を過剰パラメータ(Over-parameterized)表現と呼ぶ。

 一般にモデルはパラメータ数が必要な数より多く、表現力が強すぎる場合、ノイズ由来の誤ったパターンを学習してしまい、訓練データではうまくいくが、テストデータではうまくいかない過学習と呼ばれる現象を起こす。

 これを防ぐため、学習時にモデルの表現力を抑える正則化を適用することが一般的である。重みのノルムに罰則項を付けたり、使うパラメータ数を最小限にするなどだ(Boostingなど)。しかしニューラルネットワークは学習時にそのような正則化(例えばDropout、Weight Decayやノイズを導出するバッチ正規化)を明示的に適用しなくても過学習しにくいことが分かっている。

著者の岡野原大輔氏

 それではニューラルネットワーク(NN)の表現力がないのかというとそうではない。

 実際、学習データのラベルをランダムに変えて作った訓練データに対してニューラルネットワークを学習させても、訓練誤差を0にすることができる1)。さらにネットワークの幅が大きくパラメータ数が多ければ多いほど学習が容易であり汎化性能が上がることが分かっている。一方で幅を無限大にして得られるNeural Tangent Kernelを使ったNNよりも通常の有限の幅のNNの方が精度が高いことも分かっている2)

この先は日経Robotics購読者限定です。