2016年のニューラル機械翻訳(NMT)の実用化は、翻訳業界に衝撃を与え、ポケトークのような自動翻訳端末の市場拡大につながるなど、社会に大きなインパクトを与えた。ただし、翻訳技術や自然言語処理技術(NLP)分野では、その後も革命級のブレークスルーが相次いでいる。翻訳を含む言語系の人工知能(AI)が従来の常識を次々と塗り替え、ありえないペースで発展している。

 わずか5年ほどの短期間に革命と言ってよいほどの大きなブレークスルーが機械翻訳技術に相次いだ。具体的には、それまで単語かフレーズ(句)ごとだった翻訳が、ニューラル機械翻訳(NMT)の登場によって1文ごとの翻訳になった。

 次に来たのは、文脈を考慮した文章単位の翻訳が可能になったことだ。後述する「トランスフォーマー(Transformer)」と呼ばれる新しい深層ニューラルネットワーク(DNN)の登場で実現した(図1)。これが人間超えの翻訳技術である。

図1 トランスフォーマーが「革命」を量産
NMTの技術動向を示した。RNNがタイムスタンプ付きCNNの登場で終焉した後、「自己注意」が柱となる「トランスフォーマー」が登場。それがさらに次世代技術の主要部品となって、自然言語処理技術の分野で革命級のブレークスルーが相次いでいる。
[画像のクリックで拡大表示]

 さらには、そのトランスフォーマーを基に翻訳など1つのタスクにとどまらず、さまざまなタスクをこなせる汎用性の高い言語系AI(人工知能)も開発された。文章やコンピュータープログラムを生成できたり、編集者代わりに文書の要約や校正ができたりする。その中には、対訳データを必要としないバイリンガルやマルチリンガルな言語系AIもある。そしてCNNなど映像系AIと融合して、映像、テキスト、音声間を自在に行き来する新しいAIが登場し始めた(図2)。

図2 言語/音声のAIが視覚AIに追い付き融合へ
自動翻訳と自然言語処理技術(NLP)に今、起こっていることと、近い将来に起こることを示した。翻訳を含むさまざまな言語処理技術が急速に発展し、画像認識技術との相互乗り入れも実現しつつある。人間が手取り足取り教えなくても、周囲の世界を見ることで、その世界を理解する能力を備えたAI(人工知能)が登場しそうだ。
[画像のクリックで拡大表示]

CNN(Convolutional Neural Network)=画像認識などに強い深層ニューラルネットワーク。ネットワークの畳み込み層などの構造は、1979年に当時NHKの研究者だった福島邦彦氏が開発した「ネオコグニトロン」と同じ。ただし、学習法が違っていた。1989年にフランスのYann LeCun氏が誤差逆伝播法を使って深層学習可能にしたことで現在の技術になった。

ニューラルネットで文ごと翻訳

 ここから、これらの変化をやや詳しく順に紹介する。最初の革命は、第1部で触れた統計機械翻訳(SMT)からNMTへの変化だ(図3)。

図3 統計機械翻訳(SMT) からニューラル機械翻訳(NMT)へ
ポケトークなど自動翻訳機の急増を後押しした最初の技術的な革命を示した。SMTだけでなく、NMTも統計翻訳の一種だが、1文まるごと符号化してそれを基に翻訳先の文を再構成する点が異なる。符号化後のベクトルや行列は「潜在空間」または「中間言語(Interlingua)」などと呼ばれ、さらなる革命への扉を開いた。
[画像のクリックで拡大表示]

 NMTといっても、統計や確率をベースにしていることはSMTと同じである。最大の違いは、SMTでは単語やフレーズ(句)ごとの翻訳を最適化していたのに対して、NMTは1文を丸ごと符号化してから翻訳先の言語に変換する点である。

 この違いは文としての流暢さに大きく影響する。SMTでは、訳文は単語や句ごとのつぎはぎでしかなく、人が読むと違和感を感じることが少なくなかった。一方、NMTでは訳が必ずしも正確でなくても、訳文の流暢さは格段に増した注1)。それが可能になったのは、極めて複雑な関数を表現できるDNNを用いたからだ。

注1)このことは、BLEUスコアではSMTとNMTに大きな差がない場合でも、人間の主観評価ではNMTの方がずっと高い、という傾向に表れている。

この先は有料会員の登録が必要です。「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら