За даними Pinplay, Meta нещодавно анонсувала фреймворк штучного інтелекту під назвою audio2photoreal, який здатний генерувати серію реалістичних моделей персонажів NPC, а також автоматично «синхронізувати губи» та «позувати» моделі персонажів за допомогою існуючих файлів дубляжу. В офіційному звіті про дослідження зазначалося, що після отримання файлу дубляжу фотореальний фреймворк Audio2 спочатку згенерує серію моделей NPC, а потім використає технологію квантування та алгоритм дифузії для генерації дій моделі, в якому технологія квантування забезпечує еталон зразка дії для фреймворку, а алгоритм дифузії використовується для покращення ефекту дій персонажів, згенерованих кадром. Сорок три відсотки оцінювачів у контрольованому експерименті були «повністю задоволені» сценами діалогів персонажів, згенерованими кадром, тому дослідники вважали, що фотореальна структура Audio2 здатна генерувати «більш динамічні та виразні» рухи, ніж конкуруючі продукти в галузі. Повідомляється, що тепер дослідницька група оприлюднила відповідний код і набір даних на GitHub.

AUDIO-0.13%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити