前回に引き続き、GCPの追加学習可能なAIサービス「Cloud AutoML」を解説する(2019年1月時点でベータ版)。文章の内容に合わせて分類ラベルを付与する「Cloud AutoML Natural Language」と、機械翻訳の「Cloud AutoML Translation」について順に、機能概要とカスタマイズの手順を見ていく。

AutoML Natural Language

 AutoML Natural Languageは、自然言語の文章の内容を読み取り、それに合う分類ラベルを付与するカスタムモデル(ユーザー独自のAI)を作成するサービスだ。2019年1月時点で、対応言語は英語だけである。

 ベースは、第9回で取り上げた「Cloud Natural Language API」である。この学習済みモデルは、入力された文章に対して、Googleが定義した汎用的な700個以上のカテゴリーのラベルを付与する、という機能を持つ。

 700個で十分に思うかもしれないが、業務では汎用カテゴリーではなく、業務に合わせた特定カテゴリーに分類するケースが少なくない。例えば、Webサイトで顧客が画面のフォームに入力した文章を「問い合わせ」「依頼事項」「改善要望」に分類する、といった具合である。

 この場合、Cloud Natural Language APIではなくAutoML Natural Languageを選択し、追加学習させてカスタムモデルを構築する。

 追加学習の方法を、(1)学習データの登録、(2)追加学習の実行、(3)モデルの評価、(4)予測の実行という手順に沿って解説する。

手順(1)学習データの登録

 利用者は、文章とカスタムラベルのセットを学習データとしてAutoMLに入力する。文章は1個の文でも、複数の文でも構わない。

 データセットの登録方法は二つあり、新規作成の際に選択する。

 一つは、CSV(カンマ区切り)ファイルをアップロードする方法だ。1行ごとに文章とカスタムラベルをカンマで区切り記述する。CSVファイルに文章を記載せず、文章データ(テキストファイルまたはZip圧縮ファイル)が格納されたCloud Storageのパスを指定する方法もある。

 もう一つの登録方法では、文章データのテキストファイルまたはZip圧縮ファイルをアップロードし、コンソール画面から手動でカスタムラベルを割り当てる。アップロードした文章データとカスタムラベルは「TEXT ITEMS」画面で参照し、随時、編集できる(図1)。なお、文章データのアップロード時に「Enable multi-label classification」をオンにすると、一つの文章に複数のラベルを割り当てられる。

図1 AutoML Natural Languageに学習データとしてロードした文章とカスタムラベル
[画像のクリックで拡大表示]

 学習データとする、文章データとカスタムラベルの制約事項、推奨事項、注意点について説明する。

 カスタムラベルは2個以上、100個以下の範囲で付与する。どのカスタムラベルにも当てはまらない「None_of_the_above」ラベルを追加したほうがよい。

 カスタムラベルごとに必要な文章は、最低でも10個。精度を高めるには、カスタムラベルごとに1000個以上を用意することが推奨される。文章が10個に満たないカスタムラベルは除外する。

 学習データの文章量には、1個の機械学習モデルで10万個という上限がある。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら