語学の勉強をしなくても世界の人々と意思疎通できる時代がやってきた。人工知能(AI)を用いたニューラル機械翻訳(NMT)技術が猛烈な勢いで発展しているからだ。言葉の壁は大幅に低くなった。翻訳業界は再編が始まった。街中では自動翻訳機が急増中で、観光業界や店舗、運輸、病院などに普及し始めた。将来的には自動翻訳機が1人に1台、普及する可能性も出てきた。

 「翻訳業界全体が、雷に打たれたような衝撃を受けた。これは50年に一度の破壊的技術であると」─。Xtra代表取締役社長、ロゼッタ執行役員の古谷祐一氏は、2016年11月に米Googleがオンライン翻訳サービス「Google翻訳」の翻訳技術を、それまでの「統計機械翻訳(SMT)」から深層学習ベースの「ニューラル機械翻訳(NMT)」に切り替えた際のインパクトをこう語る注1)。古谷氏はすぐに業界再編に動き出し、2017年11月に古谷氏がそれまで率いていたGMOスピード翻訳をロゼッタに身売りした。

注1)この切り換えは、2016年9月に英語-中国語間の翻訳で始められ、同11月に日本語を含む9カ国語(日本語、英語、フランス語、ドイツ語、スペイン語、ポルトガル語、中国語、韓国語、トルコ語)間での翻訳がNMTベースになった。

30年分の技術を一気に凌駕

 インターネット上のオンライン翻訳サービスはインターネットの黎明期からあった。ただ、当初の翻訳精度は低く、英語の和訳で意味の概略をなんとかつかめるという程度。英語以外の外国語は和訳しても意味が通らないことが多かった。そこに長く使われていた翻訳技術がSMTだ(図1)。2000年前後に多少精度が向上したものの、それでも人に読ませる文章として出力結果をそのまま使うことはできなかった。

図1 機械翻訳技術に革命
従来の統計機械翻訳(SMT)と新しいニューラル機械翻訳(NMT)の評価スコア(BLEU)の推移。SMTは30年近くかかってBLEUスコアが20だったが、これは「文法上のミスが多いが、主旨はなんとか汲み取れる」レベル。NMTは初登場後、3年ほどでSMTを抜き、比較の際の標準となっている英語からドイツ語への対訳データを用いた場合で同35になった。これは実用上大きな問題がない水準になったことを示す。データが豊富な特定分野ではBLEUスコアが50という例も出ている。2020年ごろには同60以上と、一般的な人間の翻訳を超える水準になる見通しだ。(図:NICT、BLEUスコアの目安:https://cloud.google.com/translate/automl/docs/evaluate?hl=ja#bleu)
[画像のクリックで拡大表示]

 一方、NMTは2013年にその原型が登場。瞬く間に精度を高めて2016年には翻訳精度の指標となるBLEUスコアがSMTの約20を超え、2018年には同35まで向上した。35は、意味は問題なく伝わり、文章としても自然といえる水準である。しかもこの値は、BLEUスコアがやや出にくい英語からドイツ語への翻訳の場合。英語とフランス語間、英語と中国語間などではもはや40台、つまり高品質な翻訳といえる水準に達している。情報通信研究機構(NICT)フェローの隅田英一郎氏は「2020年には翻訳精度がBLEUスコアで60超(平均的な人間を超える水準)になる」とみる。

BLEU(BiLingual Evaluation Understudy)スコア=機械翻訳の精度の評価指標の1つ。プロの翻訳者による翻訳と機械翻訳の結果が、単語または句レベルでどれだけ一致しているかを判定する。これはSMTには有効でも、NMTにとっては必ずしも適切ではないという指摘もある。BLEUスコアでSMTの結果より低い値でも、主観評価ではNMTが高得点という例も多いという。

英語→中国語でプロ並みに

 特定の言語間では既に「Human Parity(人間並み)」の報告が聞こえ出した(図2)。人間といっても一般人ではなく、プロの翻訳者に並ぶ水準という意味である。

 一番乗りは米Microsoftで、中国語のニュース記事を英語に翻訳するモデルがHuman Parityを実現したと2018年5月に発表した注2)。2018年夏の学会「WMT 2018」では、英語からチェコ語への翻訳でプロの翻訳者を超える「Super Human(人間超え)」も報告された。2019年8月のWMT 2019では英語からドイツ語への翻訳で人間超えが報告された。ほとんどの言語間でこうした人間並み、人間超えが実現するのも時間の問題といえる。

図2 この1年で“人間並み”“人間超え”が続々
深層学習では、画像認識や音声認識で人間並みや人間超えが実現していた中、NMTはやや出遅れ気味だった。2018年5月にMicrosoftが初めて、英語から中国語への翻訳で“人間並み”(Human Parity)を実現したと発表(a)。そこから、Human Parity、あるいは人間を超える結果が相次いでいる。音声認識とNMT、そして音声合成の組み合わせから成る音声間翻訳でも、近い将来に人間とそん色ない水準になりそうだ(b)。
[画像のクリックで拡大表示]

注2)ただし、これは1文ごとの翻訳の評価で文章全体ではない。

WMT 2018=WMTは機械翻訳の技術コンペを毎年実施している学会で、正式名称はConference on Machine Translation。先頭文字のWは以前の学会名がWorkshop on Statistical Machine Translationだったことによる。

この先は有料会員の登録が必要です。「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。今なら有料会員(月額プラン)が12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら