クラウド型TTS音声合成サービスの現状について

TTS合成音といえば、どうしてもコンピュータを使って電子的に合成された音声なので「人工的な音」、あるいは「機械音」のようなイメージがあり、補助的な用途でしか使えないのではないかといった先入観にとらわれがちです。ところが、実際の生活シーンでは公共交通機関でのアナウンス、券売機でチケットを購入したり自動販売機で飲み物などを購入したりする際の音声ガイド、あるいは電話での自動応答メッセージなど、 TTS合成音が私たちの周囲に満ち溢れているというのが実情です。しかもたいていの場合、それらの音声は本物の人間の話し手が普通にスタジオ録音したもの、つまり肉声の録音が使われていると感じられるほどのレベルになっています。それほどにまで TTS合成音の品質は高くなってきています。また、音声合成技術はアメリカなど英語圏の国々がリードしていることもあり、特に英語については合成音の品質が高く、使用できる音声の種類も豊富です。

なお、かつてはコンピューターの急速な性能向上にともなって、音声合成はモデルとなる人間の音声情報を必要とせず、まったく電子的に行えると予測されていたこともありました。音声をコンピュータに取り込んで分析すればスペクトログラムなどのビジュアルな表示が得られ、セグメント情報や各種韻律情報がそこに出力されるのだから、今度は反対にこのようなデータを入力としてコンピューターを使い、いわば逆向きに処理を行えば規則的に音声が合成できるのではないかと思う人がいても当然でしょう。これは、いわゆる、フォルマント合成のような考え方です。ところが、面白いことに実際には音声合成技術はそのような方向には進みませんでした。現実には、アナウンサーなど人間の読み手が録音した大量の音声資料を集めた大規模な音声コーパスを利用し、さまざまな言語環境に応じてコーパスから音声の断片を取り出して接続し、適切な韻律(イントネーションやポーズ、リズムなど時間的要素、物理的強度など)の情報を付与することで音声合成が実現されるようになっていきます。これが第2世代の音声合成技術であり、Taylor(2009)などがいうSynthesis by concatenation and signal-processing modification、つまりセグメント連結と信号処理に基づく合成技術です。この意味で、音声合成は完全な機械音から作るのではなくて、人間が発した音声の断片を接合していく方法の流れが主流となっていきます。現在ではさらに深層学習に基づく合成技術、そしてWaveNetやTacotron2といったより新しい音声合成技術のおかげで、より簡単にそしてより人間の肉声に近い合成音が得られるようになってきています。また同じvoiceであっても、さまざまな感情に対応した音声の合成が可能になってきています。一部産業界で利用が進んできたTTS合成音であるが、今後さらに教育分野など幅広いドメインでの利用が期待されます。

東淳一、「TTS合成音の教育および研究での活用について」(音韻研究 (25) 161-172 2022年3月)を一部修正加筆しました。