2024-01-11 04:09:34

De acordo com Pinplay, a Meta anunciou recentemente uma estrutura de IA chamada audio2photoreal, que é capaz de gerar uma série de modelos realistas de personagens NPC, e automaticamente "sincronizar os lábios" e "posar" os modelos de personagens com a ajuda de arquivos de dublagem existentes. O relatório oficial da pesquisa apontou que, após receber o arquivo de dublagem, o framework fotoreal Audio2 primeiro gerará uma série de modelos NPC e, em seguida, usará tecnologia de quantização e algoritmo de difusão para gerar ações de modelo, em que a tecnologia de quantização fornece referência de amostra de ação para o framework e o algoritmo de difusão é usado para melhorar o efeito das ações de caracteres geradas pelo quadro. Quarenta e três por cento dos avaliadores no experimento controlado estavam "fortemente satisfeitos" com as cenas de diálogo de personagens geradas pelo quadro, então os pesquisadores sentiram que a estrutura fotorreal Audio2 foi capaz de gerar movimentos "mais dinâmicos e expressivos" do que os produtos concorrentes na indústria. É relatado que a equipe de pesquisa já tornou o código relevante e o conjunto de dados públicos no GitHub.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1CandyDrop Airdrop Event 6.0
28k Popularidade
2White House Crypto Report
37k Popularidade
3Join Alpha RION Airdrop to Earn $40
18k Popularidade
4Fed Holds Rates Decision
8k Popularidade
5July Spark Program TOP 10 Creators Announced
2k Popularidade

Marcar

sitemap