学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用
(1) キャラクターを音声合成で発話させることに興味を持つ方
(2) デジタルキャラクターの新しい応用の方向を模索される方
(3) RPGなどゲーム内のキャラクターの自動発話を検討されている方
(4) 音声合成のカスタマイズによる効果がわからないため悩まれている方
(5) 機械学習(HMM)による音声合成に興味のある方
(1) 声の素を作成する方法:キャラクターのさまざまな声のトーンを再現するために、トーン別の音声を収録し機械学習(HMM)にかける手法
(2) 多様な表現を作成する方法:SSMLタグ(音声合成調整用の汎用タグ)の調整では難しい音声表現を韻律転移を活用して短時間に作成する手法
(3) 生音声と合成音の違和感を軽減する方法:生音声と合成した音声を同時に使いたいという要望に対して、この2つのトーンを自然に接続する手法。
(4) 抑揚データを再活用する方法:抑揚データを豊富に準備することで、一定の素材から様々なバリエーションの音声を生成する手法
(5) 機械学習(HMM)による音声合成の手法
近年のゲーム製作やデジタルキャラクターを用いたコンテンツでは、決められた台詞ではない、自由対話が求められている。それに伴い、音声合成技術による自然な声が求められている。本セッションでは、ゲームで求められる自然な声を実現する音声合成技術の要件をまとめ、実際にそれらを実装するための手法について説明する。
具体的には
(1) 声の素を作る:キャラクターのさまざまな声のトーンを再現するために、トーン別の音声を収録、機械学習(Hidden Markov Model, HMM)を実施。一人のキャラクター向けに複数の声の素を作成する。
(2) 韻律転移を活用、多様な表現を作る:細やかな音声表現を音声合成技術で実現するため、必要となる抑揚データを韻律転移機能搭載の調整ツールを活用して作成する。
(3) 生音声と合成音の差異の軽減:生音声と合成した音声を同時に使いたいが、音質の差異が気になる、という課題を解消するために活用する手法を説明する。
(4) 作成した表現の再活用:多様な表現の素になる抑揚データは複数の声の素に対して適用することが可能、同じ抑揚をもった異なる音声を作成することができる。
上記の点を実際のゲームへの応用のポイントと、デモの実演によって説明する。また技術の詳細として活用した機械学習について説明する