本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 ニューラルネットワークはあらかじめ設計されたネットワーク構造に従ってデータが入力から出力に向かって計算されながら伝搬していく。多くの問題では、事前知識を使って構造を設計することで性能を上げることができる。

 例えば、畳み込みニューラルネットワーク(CNN)は、画像は近い位置にある情報が関係があるという事前知識を使って、近い位置にあるニューロン間のみをつなぐことでパラメータ数を減らし、特定のモデルが学習されやすいようにして汎化性能を上げている。

 このような事前知識は帰納バイアスとも呼ばれ、学習が成功するかの重要な要素である。しかし、データの流れ方は学習によって決定し、データに合わせて変わることが望ましい。

著者の岡野原大輔氏

 自己注意(Self-Attention)機構1-2)は、データの流れ方自体を学習し決定するような方法である。もともとRNN向けに提案されたが、CNNなど他のニューラルネットワークにも利用されている。自己注意機構は強力であり機械翻訳3)、質問応答4)、画像生成5-6)など、多くの問題で最高精度を達成している。自分自身の途中の計算結果に注意し、そこから読み込むことからこの名がついている。

この先は日経Robotics購読者限定です。