CEDEC2019: ニューラルネットワークを用いた音声信号によるリップシンク（口パク生成）技術

ニューラルネットワークを用いた音声信号によるリップシンク（口パク生成）技術

アイコンの詳細はこちら

公募

SND

ENG

中辛

講演形式

レギュラーセッション

講演時間

09月05日(木) 16:30 〜 17:30

資料公開

予定あり

受講スキル

・AI技術を用いたデジタル信号処理に興味のあるサウンドプログラマー。

・声の特性をより理解したいサウンドクリエーター。

得られる知見

・音声信号（ボイス）の解析手法。

・発声の仕組みと音声情報との関係性。

・音声信号からの音韻情報の認識手法。

・音声信号からの口を動かすための手法。

・AI技術（ニューラルネットワーク）を用いた音声解析及びリップシンク（口パク生成）技術。

セッションの内容

声に合わせてキャラクタの口を動かすことで、親近感を向上することができます。しかしなら、大量のセリフに対して手付けで口を動かすことは、その労力から困難です。

本セッションでは、音声から自動的に口の動きを生成する２つの手法を紹介します。

最初は、非常に軽量な「最尤エントロピー法」よってフォルマント周波数を抽出し、口の形状を推定する手法について解説します。

次にニューラルネットワークを用いて口の動きを推定する手法について説明します。音声特徴量を入力、口の形状を出力とするニューラルネットワークを作り、既存の音声データによって学習します。学習済みのニューラルネットワークを利用して、音声データから口の形状を推定します。従来の収録済みのセリフはもちろん、リアルタイム処理によってボイスチャットや生中継イベントへの活用できます。

これらの口パクの生成の手法について、デモンストレーションを交えながら解説します。

押見正雄

株式会社CRI・ミドルウェア

代表取締役社長

<講演者プロフィール>

1987年　早稲田大学理工学部機械工学科卒。
同年　　人工知能研究者としてCSK総合研究所(CRI)に入社。
1990～2001年
　　　　セガサターン・ドリームキャストの映像・音声関連のシステムソフト開発に従事。
1995年　サウンドミドルウェア CRI ADXを開発、販売。
2001年　CRI･ミドルウェアの創業メンバーとして参画。
2013年　同社代表取締役就任。

音声・映像の技術が大好きなオヤジエンジニア。

<受講者へのメッセージ>

30年に渡り、様々な音声処理ソフトの開発を行って参りました。
キャラクタの口がセリフに合わせて動くと、キャラクタの親近感は非常に向上します。
音声に合わせて口を動かすには、大変な労力を要しますが、
音声を解析し口の形を推定することで、比較的簡単に口を動かすことができます。
音素認識は非常に難しい音声処理の分野ですが、ニューラルネットワークを利用することで口の形状の推定精度が向上しました。また、リアルタイムに口を動かすこともできるようになりました。
皆様のゲームの中のキャラクタがより生き生きと喋ることの一助になれば嬉しいです。

閉じる

飯島健太

株式会社CRI・ミドルウェア

組込み事業部

エンジニア

<講演者プロフィール>

2014年　千葉大学工学部画像科学科卒業。
同年　　株式会社CRI･ミドルウェアへ入社。

遊技機向けミドルウェアや組込み機器向けミドルウェアの開発に携わる。
近年は音声信号処理関連の業務に従事。

<受講者へのメッセージ>

今日、様々な界隈でリアルタイムリップシンク活用の気運が高まっています。
しかしながら、音声信号のみを解析してリップシンク情報を生成するのは非常に難易度が高く、
多分野へ汎用可能なリップシンク技術を作り上げるためには入力特徴量の設計・推論モデルの設計・得られた結果の分析など、様々な知見が必要となります。
本セッションで得られる知見が、音声信号処理にご興味をお持ちの皆様のお役に立てば幸いです。

閉じる

上田賢次郎

株式会社CRI・ミドルウェア

組込事業部

エンジニア

<講演者プロフィール>

2013 年早稲田大学基幹理工学部情報理工学科卒業
2015 年早稲田大学大学院基幹理工学研究科情報理工学専攻卒業
同年株式会社CRI・ミドルウェアに入社

大学・大学院在学中、統計的音声認識の研究を行う。入社後は「CRI 機械学習部」を立ち上げ勉強会を開催するなど、機械学習の布教に努める。近年では、口パク解析ミドルウェア「Clipper」の次世代版となる新製品の研究開発を行っている。

<受講者へのメッセージ>

近年目覚ましい成果を上げているニューラルネットワークですが、音声認識分野への適用については未だ様々な課題が残されています。中でも、口パクを解析するというタスクは前例が少なく、世の中にもノウハウがありません。私たちが数年間の研究で培ったノウハウを共有することで、音声認識分野の技術の発展の一助になれば幸いです。

閉じる

CEDILセッション関連

ニューラルネットワークを用いた音声信号によるリップシンク（口パク生成）技術

セッション詳細

SESSION DETAIL

セッションの内容

CEDILセッション関連