AIを使った英語ナレーションサービスについて
TTS(Text-to-Speech)合成音を作成する場合、「テキストを入力して即合成」というだけでは、作成者が意図した理想的な音声の生成がうまくできる保証はありません。たとえばニーズに応じて適切なポーズをおく、ピッチ、つまり声の高さを調整すること、つまり合成音の適切なデザインが必要になります。特に日本語の場合には、全体的なピッチの動きとは別に、語アクセントも問題となります。例えば「飴」と「雨」では、語アクセントの違い、つまりピッチの動きの差異によって意味が正確に伝わります。Microsoftなど海外企業が提供する日本語のテキスト合成サービスでは、ときおり語アクセントが間違っていたり不自然な場合があります。その場合には手作業で正しい語アクセントに修正する作業が必要です。最近のクラウド型のTTS音声合成サービスでは、嬉しい、悲しい、怒っている、ささやき声などといった発話スタイルを選べる音声の提供が普及しつつあります。たとえば、怒った顧客が冷静に対応しているカスタマーサービスと電話で対話をしているシーンなどもより自然な音声で合成できるようになっています。ただ、このような自然な対話音声の生成は誰でも簡単にできるわけではなく、弊社ではクライアント様のニーズに対応して適切な英語音声、あるいは日本語音声をデザインします。以下に、作成した合成音の例を示します。なお、このような合成音の作成法の指導も行います。
ブティックのラジオCM例(英語)
新幹線アナウンス例(英語)
新幹線アナウンス例(日本語)
レクチャー音声例(英語によるAIDAモデルの解説)
ハンバーガー注文の会話例(英語)
訪問先企業の受付での会話例(英語)
ビジネスでの電話応答例(英語)
管制官とパイロットとの対話例(英語)
無線通信らしさの臨場感を出すため、音声の周波数帯域を狭くしてあります。