За даними Pinplay, Meta нещодавно анонсувала фреймворк штучного інтелекту під назвою audio2photoreal, який здатний генерувати серію реалістичних моделей персонажів NPC, а також автоматично «синхронізувати губи» та «позувати» моделі персонажів за допомогою існуючих файлів дубляжу. В офіційному звіті про дослідження зазначалося, що після отримання файлу дубляжу фотореальний фреймворк Audio2 спочатку згенерує серію моделей NPC, а потім використає технологію квантування та алгоритм дифузії для генерації дій моделі, в якому технологія квантування забезпечує еталон зразка дії для фреймворку, а алгоритм дифузії використовується для покращення ефекту дій персонажів, згенерованих кадром. Сорок три відсотки оцінювачів у контрольованому експерименті були «повністю задоволені» сценами діалогів персонажів, згенерованими кадром, тому дослідники вважали, що фотореальна структура Audio2 здатна генерувати «більш динамічні та виразні» рухи, ніж конкуруючі продукти в галузі. Повідомляється, що тепер дослідницька група оприлюднила відповідний код і набір даних на GitHub.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
За даними Pinplay, Meta нещодавно анонсувала фреймворк штучного інтелекту під назвою audio2photoreal, який здатний генерувати серію реалістичних моделей персонажів NPC, а також автоматично «синхронізувати губи» та «позувати» моделі персонажів за допомогою існуючих файлів дубляжу. В офіційному звіті про дослідження зазначалося, що після отримання файлу дубляжу фотореальний фреймворк Audio2 спочатку згенерує серію моделей NPC, а потім використає технологію квантування та алгоритм дифузії для генерації дій моделі, в якому технологія квантування забезпечує еталон зразка дії для фреймворку, а алгоритм дифузії використовується для покращення ефекту дій персонажів, згенерованих кадром. Сорок три відсотки оцінювачів у контрольованому експерименті були «повністю задоволені» сценами діалогів персонажів, згенерованими кадром, тому дослідники вважали, що фотореальна структура Audio2 здатна генерувати «більш динамічні та виразні» рухи, ніж конкуруючі продукти в галузі. Повідомляється, що тепер дослідницька група оприлюднила відповідний код і набір даних на GitHub.