人工知能学会は2018年6月5日、同学会が主催した画像認識コンペティション「JSAI Cup 2018」の結果を発表し、入賞者5人を表彰した。1位~5位の入賞者が実施したプレゼンテーションを通じ、深層学習(多層のニューラルネットを使った機械学習)で画像認識AIの精度を高める最新のテクニックを紹介しよう。

 今回のコンペのテーマは「食材の分類」。食材の画像データから、タマネギ、きゅうりなど55種類の材料を分類する画像分類器を設計し、正解率の高さを競う。

「タマネギ」「きゅうり」などの正解ラベルが付与された学習用の画像データは1万1995枚、正解ラベルを付与していない評価用のテストデータは3937枚
[画像のクリックで拡大表示]

 主催者が提示した学習用の画像データは、協賛のクックパッドが提供した1カテゴリ約290枚×55カテゴリの1万5932枚である。コンペの開催期間は2018年1月22日~3月29日。応募者は121人で、うち会社員が51%、学生が39%だった。20代の参加が目立ったという。

二つの禁止事項で現実に即したコンペに

 今回のコンペは、企業が深層学習を使う際に直面する困難を考慮して、主に二つの禁止事項を設けた。まず、ネットワークの構造やハイパーパラメータが異なる複数のモデルを同時に学習させ、複数モデルの多数決などで解を出す「アンサンブル学習」は使えない。アンサンブル学習はGPUサーバーなど学習用インフラを豊富に持つ参加者ほど有利になるためだ。

 もう一つ、ImageNetなど既存の画像データベースを学習させた学習済みモデルの利用は禁止とした。クックパッドが提供した1万5932枚の画像データのみを使って学習させる。

 1分類当たり約300枚という写真データの量は、画像認識向けの学習データとして決して十分とは言えない。この制限は学習データを大量に集めるのが難しい現実の課題を反映したものといえる。学習モデルが少ない学習データに過剰に適応してしまい、精度の低下を招く「オーバーフィッティング(過学習)」をいかに防ぐかが勝負のカギになる。

 「JSAI Cup 2018」で優勝したのは東京大学大学院情報学環 相澤・山崎研究室 修士1年の郁 青氏だった。

入賞者のうち半数以上は企業からの参加者だった
[画像のクリックで拡大表示]
それぞれ異なる手法で学習モデルを設計した。郁氏の学習モデルは、ネットワーク構造として「SE-ResNet-50(Hu, CVPR 2018)」を採用、深層学習フレームワークはPyTorchを使った
[画像のクリックで拡大表示]

 郁氏のプレゼンテーションから、正解率98.1%という最高精度の学習モデルを実現した手法を明らかにする。

この先は日経 xTECH Active会員の登録が必要です

日経xTECH Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。