日本語の任意の言葉の発話画像生成技術を開発 -- 聴覚障碍者のコミュニケーション環境の改善に向けて -- 神奈川工科大学|The大学Times

日本語の任意の言葉の発話画像生成技術を開発 -- 聴覚障碍者のコミュニケーション環境の改善に向けて -- 神奈川工科大学大学通信 2018.2.3

 神奈川工科大学情報工学科の宮崎剛教授は、日本語の音との口形の関連性を使って、任意の日本語の語句を発話する口の画像を生成する技術を開発しました。

 宮崎教授は、日本語のすべての音には1つずつ決まった口の形があることと、音がつながる際に口の形に変化が起こる規則があることに着目。日本語のすべての音と口形に対応するデータベースを構築し、音がつながる際に起こる口形変化を、コンピュータを用いて計算する技術を確立しました。この技術により、日本語の仮名を入力するだけで、その語句を発話する際の口の動きを、コンピュータを使って生成できるようになりました。
 あらかじめ、日本語の5つの母音(あ〜お)と閉じた口(閉唇)の6枚の口の画像を用意しておき、これらの画像にコンピュータグラフィックスの技術を応用することで、発話画像を生成できるようになりました。

 従来、聴覚障碍者が読唇のトレーニングをする際の発話映像教材は、実際に人が発話する様子を撮影した映像を編集して作成されていたため、教材用の語句を増やすことは、発話をする人にとっても映像を編集する人にとっても大変な作業でした。
 この技術を利用することで、教材とする語句の仮名(文字)を用意しておくだけで、その語句を発話する口形の画像をコンピュータを使って生成できるようになるため、人による作業が不要になったり、教材用の語句を容易に増やせるようになったりします。この教材を使用して読唇のトレーニングを積むことで、相手の口の動きから話している内容を読み取る能力(読話)が身につきます。

 さらにこの技術と音声合成技術を組み合わせることで、アバターやアニメ作品、ゲームキャラクター等へのアテレコにも適用でき、音声と口の動きを同期させることができると考えています。さらには、海外映画の吹き替えに適用できれば、俳優の声のデータ(音素)から日本語の台詞を音声合成し、併せて俳優の口の動きを加工することができれば、あたかも日本語を話しているような映像を生成することも可能であると考えています。

 なお、この成果は テクニカルショウヨコハマ2018に出展します。
 (2018/2/7(水)、8(木)、9(金) パシフィコ横浜 AM10:00〜PM5:00)


▼本件に関する問い合わせ先
神奈川工科大学 工学教育研究推進機構
井藤 晴久
住所:〒243-0292 神奈川県厚木市下荻野1030
TEL:046-291-3299
メール:ito.haruhisa@cco.kanagfawa-it.ac.jp

大学通信詳細ページ
プレスリリース配信 大学通信提供