情報通信研究機構(NICT)は2017年9月8日、翻訳データを提供する対価としてNICTの翻訳エンジンを安価に提供する「翻訳バンク」制度の運用を始めた。制度利用者が提供する対訳データの量に応じて、翻訳エンジンのライセンス料を値引く。人工知能(AI)技術による国産翻訳エンジンの精度向上が目的だ。

情報通信研究機構(NICT)が運営する「翻訳バンク」制度の概要
NICTは翻訳エンジンの精度向上を目的に学習用の対訳データの提供を募る。対訳データの提供側はデータ量に応じてNICTの翻訳エンジンのライセンス料を値引いてもらえる。
[画像のクリックで拡大表示]

 翻訳を手がける企業が同制度を利用すると、NICTの翻訳エンジンを下訳に使って人件費を抑えられ、翻訳結果をNICTに提供するとさらなる値引きを受けられる。ライセンスの割引率は個別見積もりだが、NICTの隅田英一郎先進的音声翻訳研究開発推進センター副研究開発推進センター長は「相対取引のなかで、驚くほど割安感のある料金で提供したい」と話す。

 NICTは2016年12月に、AIブームの火付け役となった深層学習(ディープラーニング)を自然言語処理に生かした、ニューラルネットワーク機械翻訳(NMT)エンジンを実用化。音声翻訳の「VoiceTra」やテキスト翻訳の「TexTra」などをスマートフォン向けアプリケーションや民間企業へのライセンスといった形態で提供している。「NMTはアルゴリズムとデータの双方が要になる。データ量に応じて精度が上がるのが経験的に明らかだ。アルゴリズムが日々進歩するなか、多分野の対訳データの不足が課題」(隅田氏)だった。

募集する対訳データの例
自然言語間の対訳データであれば形式は問わない。
[画像のクリックで拡大表示]

 これまでNICTはNMTの学習に使う対訳データを著作権を侵害しない範囲でWebサイトから収集したり、29組織から寄贈で集めたりしてきた。翻訳バンク制度で提供側の利点を増やし、今後1年間で100万文を100社から集め、計1億文の対訳データの収集を目指す。

 対訳データは2020年以降の提供を目指して開発中の次世代翻訳エンジンにも生かす。ニュースや演説のような長文の同時通訳を可能にしたい考え。翻訳バンクの運用で「長文の同時翻訳の実現に向け、基礎となる翻訳システムの精度向上が期待できる」(同)。

開発中の翻訳エンジンのデモ動画
同時通訳が可能な長文翻訳機能の開発を目指す。
[画像のクリックで拡大表示]
関連サイト:翻訳バンクのWebサイト
■変更履歴
記事公開当初、対訳データの収集目標を「計100億文」としていましたが、正しくは「計1億文」です。お詫びして訂正します。本文は修正済みです。 [2017/09/08 19:40]