По данным Pinplay, Meta недавно анонсировала фреймворк искусственного интеллекта под названием audio2photoreal, который способен генерировать серию реалистичных моделей персонажей NPC, а также автоматически «синхронизировать губы» и «позировать» модели персонажей с помощью существующих файлов дубляжа. В официальном отчете об исследовании указывалось, что после получения файла дубляжа фотореалистичный фреймворк Audio2 сначала сгенерирует серию моделей NPC, а затем будет использовать технологию квантования и алгоритм диффузии для генерации модельных действий, в которых технология квантования обеспечивает эталон образца действий для фреймворка, а алгоритм диффузии используется для улучшения эффекта действий персонажей, генерируемых кадром. Сорок три процента оценщиков в контролируемом эксперименте были «полностью удовлетворены» сценами диалогов персонажей, сгенерированными кадром, поэтому исследователи посчитали, что фотореалистичная структура Audio2 способна генерировать «более динамичные и выразительные» движения, чем конкурирующие продукты в отрасли. Сообщается, что исследовательская группа теперь выложила соответствующий код и набор данных в открытый доступ на GitHub.

AUDIO-0.05%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить