Системата създава синхронизирано с устна видеоклип от аудио клипове

Anonim

Системата създава синхронизирано с устна видеоклип от аудио клипове

наука

Бен Косуърт

12 юли 2017 г.

Системата е обучена по часове от речите на Барак Обама (Кредит: Michael.worley)

Вече е възможно да се създаде цифрово копие на гласа на някой, което да позволи на потребителите да произвеждат аудио файл, в който да казват неща, които никога не са казали. Все пак слушателите все още не могат да бъдат заблудени, тъй като няма да има кадри на човека, който говори тези думи. Добре .

Учените от Университета във Вашингтон вече са създали система, която преобразува аудио клипове в синхронизирани с устните видеоклипове на високоговорителя.

За да работи системата, тя трябва да анализира приблизително 14 часа от съществуващия кадър на говорещия - изследователите се надяват да намалят тази цифра значително, може би до един час. Използвайки невронна мрежа, тя научава кои от техните форми на устата придружават речта, която звучи.

Когато системата впоследствие е снабдена с "целево видео" на човека (в който може да говори за нещо), заедно с аудио файл, в който говорят желаните думи, той ги сдвоява заедно. Това става чрез премахване на оригиналното звучене на видеоклипа, замяната му с желаното аудио и пренасочване на компютърно анимирана версия на устата на високоговорителя на мястото на устата им във видеото.

Крайният резултат е, че хората ги чуват да говорят желаните думи и очевидно виждат и устата си да го правят. Въпреки че със сигурност има потенциал за предателство, изследователите са разработили технологията с други цели в ума.

"Реалистичното конвертиране на аудио към видео има практически приложения като подобряването на видеоконференциите за срещи, както и футуристични такива като например да може да проведете разговор с историческа фигура във виртуалната реалност, като създавате визуални образи само от аудио", казва асистентът професор Ира Кемалмахер-Шлизерман. "Това е вид пробив, който ще помогне да се даде възможност тези следващи стъпки."

Можете да видите и чуете използваната система в следващия видеоклип.

Източник: Университета във Вашингтон

Системата е обучена по часове от речите на Барак Обама (Кредит: Michael.worley)