音声合成技術の進化が目覚ましい。しかし、それを支えているのは声優などによる良質な収録音声だ。声をなりわいとする声優にとって、音声合成技術の普及は「仕事が奪われる」リスク要因でもある。

その音声合成技術を、現場の声優はどう見ているのか。音声合成ソフトウエア「ガイノイドTALK」や歌声合成ソフトウエア「VOCALOID」、声質変換ソフトウエア「リアチェンvoice」などに声を提供し、自身でも音声合成技術を活用しているピアレスガーベラ所属声優の小岩井ことり氏に聞いた。同氏は作詞や作曲なども手掛ける。(聞き手は東 将大、高野 敦=日経 xTECH)

音声合成技術の利点は何だとお考えでしょうか。

小岩井ことり(こいわい・ことり)
ピアレスガーベラ所属。TVアニメ「のんのんびより」宮内れんげ、「THE IDOLM@STER ミリオンライブ!」天空橋朋花などの声を担当する一方、TBSラジオで毎日流れるジングルの作詞作曲編曲を務めるなど作家としても活躍。1ツイートで1万2000本以上のイヤホンを売り、自身も80機以上のイヤホン・ヘッドホンを所有するオーディオマニアとしても有名。声優初のMENSA会員となり話題にもなった。(写真:加藤 康)

小岩井 音声合成技術を使えば、アナウンサーのような明瞭な声を、誰でも映像作品のナレーションなどに使えるようになってきました。これはすごいことです。これまでは、ナレーターを雇ったり収録スタジオを借りたりする必要があって、個人のクリエーターでは難しかったと思います。

 私は自作アニメを作ることがあるのですが、勝手にアニメ作品に声を当てることはできないので、私が声で出演した「VOCALOID」を使って制作したことがあります。自分自身が声で出演できなくても、合成音声にしゃべらせられるという選択肢ができました。

 加えて、VOCALOIDのような歌声合成ソフトウエアでは、人間には絶対に出せないピュアな表現ができると思っています。それは、楽曲に対する作り手の思いを純粋に込められるという点です。普通の歌手は、自らの経験や感情、気持ちといったフィルターを通して歌います。歌手自身の思いが前面に出てくるイメージです。

 一方で、作曲者がメロディーやリズムに込めた気持ちや、作詞者が歌詞で伝えたかった気持ちが、歌手のフィルターに通されることで伝わらなくなってしまう可能性があります。VOCALOIDならクリエーターの思いを前面に出せて、そのまま伝えられるようになる魅力があると思います。

自然な発話に近づいたとはいえ、感情表現が苦手だという指摘があります。合成音声の課題について、どのように捉えていますか。

小岩井 「感情を表現する」というのは個人差があるので、完全な人間らしい表現は本当に難しいと思います。一般に感情表現と思われているのは、声質ではなく、演技の要素です。これまでの人生で経験し蓄積した様々な情報を、多人数が共有できて分かりやすく伝えられるのが感情だと考えています。感情が表に出ない人っていうのは、多くの人が想像する感情表現と違っているからそう感じるんだと思います。

 しかも声優は、セリフで微妙なニュアンスの違いを表現するのが仕事なんです。例えばアニメのアフレコでは、映像を見ながら台本を読み合わせすることが多くあります。例えば、「調子に乗ってドヤっているキャラクター」を演じたときに、「それは嫌みっぽくなると思うので、もっと自分に酔っている感じでお願いします」とディレクションされて、演技を変えたことがありました。

 ここまで細かい感情表現を合成音声で再現するには、まだ時間がかかると思います。もしやるならば、音声合成技術ではなく、声質変換技術で声質だけを変えて、別の人が演技や感情表現を担当するという形になるかもしれません。

演技が必要な仕事は今後も人間が担当することになりそうですが、そうではない仕事なら音声合成に任せられるのでしょうか。

小岩井 コストパフォーマンスが良ければ、いずれはそうなるんじゃないかと思っています。そもそも私は、技術の進歩に関してすごくポジティブなんです。もし、人じゃなくても代用できる部分があるなら、そこは私たちではなく合成音声が担って、私たちは私たちにしかできない仕事を担うようになる。それに関して、私個人としては悪いとは全く思っていません。

 ただ、音声合成技術では、どうしても手間はかかります。作業が速い人は速いので「時間」ではなく「手間」と表現しました。もし人間だったら、極端にいえば1度歌うだけで完成品ができるかもしれません。一方、音声合成技術はプログラムなので、すべて指示を出して完成品を出力する流れになります。そういった点では、今は人間の方がコストパフォーマンスが良いと感じる部分もあります。

 私は声優だけではなく作曲の仕事もしているんですが、複数の楽器の音を混ぜたり、音色や音圧などを調整したりするミキシング用ソフトウエアには、自動で調整する機能があって、80点ぐらいのものを出力してくれます。下手に人間がやるよりずっと上手なんです。

 そのソフトウエアの開発者は、「手間のかかる作業や単純作業をソフトウエア側で担うことで、人間にはもっと芸術的な部分に時間を長く使ってほしい」と話していました。これは音声合成技術を使う場合でも同じだと思います。音楽でも演技でも、80点を超えた、機械が表現できない部分に人間は魅力を感じるのだと聞いて、確かにそうだと思いました。

(写真:加藤 康)