De acordo com relatos da mídia estrangeira, na semana passada foi lançado oficialmente um software de tradução chamado LipDub**, um programa de IA que permite que criadores de vídeo se comuniquem em diferentes idiomas em minutos.
O LipDub está sendo desenvolvido pela startup Captions, fundada em 2021 por Gaurav Misra e Dwight Churchill. A Captions recebeu apoio de investimento da Sequoia Capital, Anderson Horowitz, dos cofundadores do Instagram Kevin Systrom e Mike Krieger e de Julie Zhuo, ex-vice-presidente de design de produto do Facebook.
O fundador Gaurav Misra é de Nova Delhi, na Índia, e foi chefe de engenharia de design da Snap. De acordo com Misra, ele cresceu em uma variedade de línguas diferentes, incluindo hindi, inglês, punjabi e urdu. Gaurav Misra também passou anos aprendendo francês, o que o ajudou a construir redes profissionais na Europa, África e Oriente Médio.
Misra acredita que a tradução baseada em IA e a tecnologia de correspondência labial podem ajudar as pessoas a se conectarem e entenderem as outras mais facilmente.
Legendas: Localização fácil de tradução de vídeo com IA
A Captions é conhecida por produzir legendas geradas por IA, correção de voz e técnicas que corrigem a posição dos globos oculares dos criadores de vídeo na pós-produção. Misra e Churchill, que anteriormente trabalharam como desenvolvedores de produtos no Goldman Sachs, há muito tempo queriam adicionar correspondência labial às traduções de voz, mas não esperavam que isso acontecesse tão rapidamente. "Inicialmente, pensávamos que levaria 10 anos para que a tecnologia levasse 10 anos para chegar lá, mas agora a tecnologia está se movendo tão rápido que coisas novas estão surgindo quase todos os meses ou até mesmo todas as semanas", disse Misra. "
A LipDub está entrando em um promissor mercado de tradução de IA. Seus concorrentes incluem clonagem de voz aplicativos de tradução HeyGen e Verbalate, bem como novas ferramentas de empresas como Spotify e o estúdio de efeitos visuais Monsters Aliens Robots Zombies. **
Onde, no passado, muitas empresas precisavam contratar vários apresentadores de vídeo para expressar a mesma história em idiomas diferentes, mas agora podem fazer o mesmo com a IA generativa. Esses aplicativos permitem que os usuários carreguem vídeos e, em seguida, convertam-nos em turco, francês, árabe ou italiano fluentes em minutos.
Rijul Gupta, fundador da DeepMedia, disse: "Basicamente implementamos esta nova tecnologia perfeitamente, qualquer pessoa pode clonar a voz de qualquer pessoa e fazê-la falar em um idioma diferente com uma referência de áudio de 5 segundos. "
Em sites como X e Reddit, vídeos dublados de algumas pessoas conhecidas apareceram milhares de vezes. O Spotify entrou na onda no mês passado, quando anunciou que ofereceria podcasts traduzidos por IA que podem ser convertidos em diferentes idiomas, mantendo seu timbre e entonação originais. **
Atualmente, os atores Dax Shepard e Kristen Bell, os pesquisadores do MIT Lex Fridman e Steven Bartlett têm podcasts em espanhol, e traduções para francês e alemão estarão disponíveis em breve. A nova ferramenta Spotify aproveita a recém-lançada tecnologia de geração de voz da OpenAI para oferecer uma experiência de audição mais realista.
**No início do ano passado, a equipe da Misra and Captions começou a experimentar a correspondência labial e a trabalhar com parceiros para testar como ela funciona no aplicativo Captions. **
Misra admite que a tecnologia de correspondência labial está evoluindo mais rápido do que ele esperava. "Parece que é natural passar para a próxima fase, criando um vídeo que não pareça dublagem ou ajustes artificiais." A nova tecnologia faz com que os vídeos pareçam muito naturais e fáceis de entender. "Desde o início do teste, uma nova possibilidade foi apresentada a eles. Misra disse: "Como a tecnologia que vimos antes em Star Trek, é ficção científica! "
A Captions recebeu US$ 25 milhões em financiamento da Série B da Kleiner Perkins em junho. Captions agora tem 100.000 usuários ativos diários, e Misra acredita que a empresa terá mais usuários ativos após o lançamento do LipDub.
**Atualmente disponível em 28 idiomas, incluindo coreano, espanhol, tcheco, tâmil e ucraniano, o LipDub usa o modo zero-shot para entregar vídeos suaves sem ver o assunto no modelo de geração de vídeo da Captions. **
Os algoritmos internos de aprendizado de máquina da LipDubs são treinados para reconhecer movimentos labiais de alto-falantes, e a empresa também usa o modelo GPT-4 da OpenAI para traduzir vídeos em diferentes idiomas e dialetos no aplicativo. Essa tecnologia de locução de IA já é usada no aplicativo Captions e foi lançada em março deste ano, atraindo usuários de todo o mundo.
"Pessoas que de outra forma não seriam capazes de alcançar um público específico agora podem fazê-lo", disse Misra. Esta tecnologia é um exemplo perfeito de um futuro utópico, por isso estou muito entusiasmado com isso. "
Segundo Misra, as possibilidades de novas tecnologias são infinitas. "Acho que a transmissão ao vivo é um exemplo muito confiável." "Seja um jogo ao vivo na Twitch ou uma apresentação desconhecida, esses tipos de conteúdo podem ser facilmente localizados por meio da IA", diz Misra. "
HeyGen: Quer fazer a distribuição de vídeo em diferentes idiomas tão fácil quanto digitar**
Além das legendas, existem muitas empresas do mesmo tipo de tradução de IA, como a HeyGen**. A HeyGen é uma empresa de IA com milhões de usuários e é um dos maiores players no campo da correspondência labial de IA e tradução de conteúdo de vídeo curto. Depois que a empresa lançou seu recurso de tradução de vídeo em 7 de setembro, ele rapidamente se tornou popular no X. Desde então, dezenas de vídeos fotorrealistas tornaram-se virais, com utilizadores a partilharem clips de Elon Musk, Messi e Mark Zuckerberg a falar em várias línguas estrangeiras. **
Mark Burginger, chefe da empresa de brinquedos Qubits, certa vez apresentou sua empresa centrada em STEM em um programa chamado "Shark Tank". Por curiosidade, ele experimentou o recurso de tradução de IA da HeyGen em 13 de setembro. Ele postou um vídeo em X de si mesmo falando em espanhol, embora não entendesse espanhol.
"Você consegue imaginar uma pequena empresa de brinquedos que ganha menos de um milhão de dólares por ano sendo capaz de usar essas ferramentas bastante baratas?" Burginger disse que é um artista e inventor baseado em Hendersonville, Carolina do Norte, e Burginger disse, "o que ajuda a nivelar o campo de jogo com grandes empresas". "
O objetivo da HeyGen é "remover a barreira linguística", diz Joshua Xu, cofundador e CEO da empresa, "no qual imaginamos um futuro em que produzir conteúdo de vídeo e disseminar informações em diferentes idiomas seja tão fácil quanto digitar".
Em um vídeo gerado por IA publicado no X, Xu acrescentou que plataformas educacionais como Coursera, Khan Academy e MasterClass podem expandir seu alcance sendo "multilíngues". Atualmente, o HeyGen suporta 10 idiomas de entrada e 8 idiomas de saída**, incluindo inglês, espanhol, chinês, italiano, hindi e japonês. **
Joshua Xu, CEO da HeyGen;
Antes de fundar a HeyGen, anteriormente conhecida como Movio, Wayne Liang, XU da Snap e ex-engenheiro da ByteDance, fundou a Surreal em 2020.
Na época, a Surreal oferecia produtos realistas "deepfake", "deepfake" é uma tecnologia de síntese de vídeo que pode criar vídeos compostos com realidade falsa. Esta tecnologia atrai as empresas de comércio eletrónico que querem publicitar os seus produtos de uma forma mais eficiente. **A Surreal garantiu US$ 1 milhão em uma rodada anjo quatro meses após o lançamento das operações em Shenzhen, na China. **Até hoje, a Surreal ainda está ativa na China, publicando anúncios de emprego e estágios nos sites de emprego e universidades da China, mas a plataforma HeyGen da Surreal opera principalmente em Los Angeles, onde XU e Liang trabalham.
Movio é uma plataforma de vídeo de IA baseada no motor Surreal que foi lançado em julho de 2022. De acordo com a empresa, seu produto gerou US $ 1 milhão em receita em apenas 7 meses, após o qual XU e Liang rebatizaram a Movio para HeyGen,** e desde 2020, HeyGen e Surreal levantaram pelo menos US $ 9 milhões em financiamento da Sequoia Capital, IDG Capital, ZhenFund e do braço de capital de risco da Baidu, Baidu Ventures. **
Verbalize inspirado em podcasts
Além do LipDub e do HeyGen, há também uma plataforma que também está envolvida neste espaço, e o Verbalate também pode dublar os vídeos dos usuários no idioma alvo simultaneamente. A diferença é que o Verbalate pode dublar vídeos de até 30 minutos de duração.
De acordo com o fundador da plataforma, Grant Davies, a Verbalate nasceu puramente do tédio durante a pandemia. Um dia em 2022, Davies ouviu uma entrevista em podcast com Joe Rogan e MrBeast enquanto pilotava. Na época, o youtuber mencionou que seu canal estava usando dubladores para dublar vídeos em espanhol, russo, hindi, português e outros idiomas, já que menos de 10% da população mundial fala inglês. Davies estava trabalhando em tecnologia de IA na época, e eles não achavam que sua equipe seria capaz de fazê-lo.
A Davies usa sua rede de marketing para apresentar e vender os serviços da Verbalate para clientes corporativos que desejam se comunicar com funcionários no exterior. De acordo com Dom Procter, fundador da OutSourced Staff, uma empresa de terceirização de Sydney, "Para mim, como vendedor e comerciante, isso facilita minha vida. "
Tendo usado vídeos Verbalate para enviar mensagens para funcionários remotos na Ásia ou na Europa Oriental, Dom Procter observa: "Criar conteúdo em seu idioma nativo é um divisor de águas". O plano de assinatura mais básico do Verbalate é de US $ 9 por mês e permite que os usuários criem um vídeo de 10 minutos por uma taxa adicional de US $ 1 por minuto. O Plano de Criação mensal da HeyGen custa US $ 29 por mês e pode produzir vários vídeos de 5 minutos cada. **
Outras plataformas estão olhando para um mercado maior e tempos de reprodução de vídeo mais longos. A MARZ, com sede em Toronto, atrai principalmente empresas de produção de cinema e televisão interessadas em dublagem fotorrealista por meio de sua plataforma de IA LipDub (não LipDub da Captions).
Atualmente, o LipDub AI** processa um clipe de vídeo de um minuto contendo várias fotos com um tempo de execução inferior a 20 minutos. Embora a empresa atualmente use clipes de treinamento para fazer essas narrações, ela espera acelerar o processamento dentro do ano, abandonando os clipes de treinamento e confiando apenas em clipes de áudio e brutos. Ao contrário de outras plataformas de dublagem, o LipDub AI não usa grandes modelos de linguagem, mas usa seu próprio modelo generativo, que é treinado em uma base de gravação de som.
Tim Reyes, diretor de marketing da MARZ, acredita que a tecnologia de sincronização labial ajudará os produtores a expandir o impacto de um filme ou programa de TV sem comprometer a segurança no emprego do ator. Reyes argumenta: "O LipDub AI realmente abre um monte de oportunidades para novos mercados, ao contrário de algumas outras tecnologias de IA que interrompem o fluxo de trabalho atual na indústria cinematográfica. "
Além de abrir novos mercados, os criadores desses aplicativos têm ideais mais elevados. Davies espera que programas de tradução como o Verbalate quebrem preconceitos implícitos sobre seu próprio idioma e até promovam uma mentalidade mais global. Davies diz que, em um vídeo compartilhado por sua equipe no X, pessoas de diferentes regiões puderam ser vistas expressando suas opiniões em diferentes idiomas, o que o ajudou a pensar sobre como as pessoas são capazes de se comunicar além-fronteiras. Davies acha que tem o potencial de tornar as pessoas um pouco mais humanas, porque pessoas de culturas diferentes podem se entender melhor." **
Davies diz que mesmo mensagens políticas, em suas próprias palavras, podem fazer a diferença, e se pudermos ouvir uns aos outros, é possível ajudar a humanidade.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Além da mudança profunda do rosto, surgiram dublagens simuladas e softwares de IA que também podem combinar formatos de lábios
Fonte original: GenAI New World
De acordo com relatos da mídia estrangeira, na semana passada foi lançado oficialmente um software de tradução chamado LipDub**, um programa de IA que permite que criadores de vídeo se comuniquem em diferentes idiomas em minutos.
O fundador Gaurav Misra é de Nova Delhi, na Índia, e foi chefe de engenharia de design da Snap. De acordo com Misra, ele cresceu em uma variedade de línguas diferentes, incluindo hindi, inglês, punjabi e urdu. Gaurav Misra também passou anos aprendendo francês, o que o ajudou a construir redes profissionais na Europa, África e Oriente Médio.
Misra acredita que a tradução baseada em IA e a tecnologia de correspondência labial podem ajudar as pessoas a se conectarem e entenderem as outras mais facilmente.
Legendas: Localização fácil de tradução de vídeo com IA
A Captions é conhecida por produzir legendas geradas por IA, correção de voz e técnicas que corrigem a posição dos globos oculares dos criadores de vídeo na pós-produção. Misra e Churchill, que anteriormente trabalharam como desenvolvedores de produtos no Goldman Sachs, há muito tempo queriam adicionar correspondência labial às traduções de voz, mas não esperavam que isso acontecesse tão rapidamente. "Inicialmente, pensávamos que levaria 10 anos para que a tecnologia levasse 10 anos para chegar lá, mas agora a tecnologia está se movendo tão rápido que coisas novas estão surgindo quase todos os meses ou até mesmo todas as semanas", disse Misra. "
A LipDub está entrando em um promissor mercado de tradução de IA. Seus concorrentes incluem clonagem de voz aplicativos de tradução HeyGen e Verbalate, bem como novas ferramentas de empresas como Spotify e o estúdio de efeitos visuais Monsters Aliens Robots Zombies. **
Onde, no passado, muitas empresas precisavam contratar vários apresentadores de vídeo para expressar a mesma história em idiomas diferentes, mas agora podem fazer o mesmo com a IA generativa. Esses aplicativos permitem que os usuários carreguem vídeos e, em seguida, convertam-nos em turco, francês, árabe ou italiano fluentes em minutos.
Em sites como X e Reddit, vídeos dublados de algumas pessoas conhecidas apareceram milhares de vezes. O Spotify entrou na onda no mês passado, quando anunciou que ofereceria podcasts traduzidos por IA que podem ser convertidos em diferentes idiomas, mantendo seu timbre e entonação originais. **
Atualmente, os atores Dax Shepard e Kristen Bell, os pesquisadores do MIT Lex Fridman e Steven Bartlett têm podcasts em espanhol, e traduções para francês e alemão estarão disponíveis em breve. A nova ferramenta Spotify aproveita a recém-lançada tecnologia de geração de voz da OpenAI para oferecer uma experiência de audição mais realista.
**No início do ano passado, a equipe da Misra and Captions começou a experimentar a correspondência labial e a trabalhar com parceiros para testar como ela funciona no aplicativo Captions. **
Misra admite que a tecnologia de correspondência labial está evoluindo mais rápido do que ele esperava. "Parece que é natural passar para a próxima fase, criando um vídeo que não pareça dublagem ou ajustes artificiais." A nova tecnologia faz com que os vídeos pareçam muito naturais e fáceis de entender. "Desde o início do teste, uma nova possibilidade foi apresentada a eles. Misra disse: "Como a tecnologia que vimos antes em Star Trek, é ficção científica! "
A Captions recebeu US$ 25 milhões em financiamento da Série B da Kleiner Perkins em junho. Captions agora tem 100.000 usuários ativos diários, e Misra acredita que a empresa terá mais usuários ativos após o lançamento do LipDub.
**Atualmente disponível em 28 idiomas, incluindo coreano, espanhol, tcheco, tâmil e ucraniano, o LipDub usa o modo zero-shot para entregar vídeos suaves sem ver o assunto no modelo de geração de vídeo da Captions. **
Os algoritmos internos de aprendizado de máquina da LipDubs são treinados para reconhecer movimentos labiais de alto-falantes, e a empresa também usa o modelo GPT-4 da OpenAI para traduzir vídeos em diferentes idiomas e dialetos no aplicativo. Essa tecnologia de locução de IA já é usada no aplicativo Captions e foi lançada em março deste ano, atraindo usuários de todo o mundo.
"Pessoas que de outra forma não seriam capazes de alcançar um público específico agora podem fazê-lo", disse Misra. Esta tecnologia é um exemplo perfeito de um futuro utópico, por isso estou muito entusiasmado com isso. "
Segundo Misra, as possibilidades de novas tecnologias são infinitas. "Acho que a transmissão ao vivo é um exemplo muito confiável." "Seja um jogo ao vivo na Twitch ou uma apresentação desconhecida, esses tipos de conteúdo podem ser facilmente localizados por meio da IA", diz Misra. "
HeyGen: Quer fazer a distribuição de vídeo em diferentes idiomas tão fácil quanto digitar**
Além das legendas, existem muitas empresas do mesmo tipo de tradução de IA, como a HeyGen**. A HeyGen é uma empresa de IA com milhões de usuários e é um dos maiores players no campo da correspondência labial de IA e tradução de conteúdo de vídeo curto. Depois que a empresa lançou seu recurso de tradução de vídeo em 7 de setembro, ele rapidamente se tornou popular no X. Desde então, dezenas de vídeos fotorrealistas tornaram-se virais, com utilizadores a partilharem clips de Elon Musk, Messi e Mark Zuckerberg a falar em várias línguas estrangeiras. **
"Você consegue imaginar uma pequena empresa de brinquedos que ganha menos de um milhão de dólares por ano sendo capaz de usar essas ferramentas bastante baratas?" Burginger disse que é um artista e inventor baseado em Hendersonville, Carolina do Norte, e Burginger disse, "o que ajuda a nivelar o campo de jogo com grandes empresas". "
O objetivo da HeyGen é "remover a barreira linguística", diz Joshua Xu, cofundador e CEO da empresa, "no qual imaginamos um futuro em que produzir conteúdo de vídeo e disseminar informações em diferentes idiomas seja tão fácil quanto digitar".
Em um vídeo gerado por IA publicado no X, Xu acrescentou que plataformas educacionais como Coursera, Khan Academy e MasterClass podem expandir seu alcance sendo "multilíngues". Atualmente, o HeyGen suporta 10 idiomas de entrada e 8 idiomas de saída**, incluindo inglês, espanhol, chinês, italiano, hindi e japonês. **
Antes de fundar a HeyGen, anteriormente conhecida como Movio, Wayne Liang, XU da Snap e ex-engenheiro da ByteDance, fundou a Surreal em 2020.
Na época, a Surreal oferecia produtos realistas "deepfake", "deepfake" é uma tecnologia de síntese de vídeo que pode criar vídeos compostos com realidade falsa. Esta tecnologia atrai as empresas de comércio eletrónico que querem publicitar os seus produtos de uma forma mais eficiente. **A Surreal garantiu US$ 1 milhão em uma rodada anjo quatro meses após o lançamento das operações em Shenzhen, na China. **Até hoje, a Surreal ainda está ativa na China, publicando anúncios de emprego e estágios nos sites de emprego e universidades da China, mas a plataforma HeyGen da Surreal opera principalmente em Los Angeles, onde XU e Liang trabalham.
Movio é uma plataforma de vídeo de IA baseada no motor Surreal que foi lançado em julho de 2022. De acordo com a empresa, seu produto gerou US $ 1 milhão em receita em apenas 7 meses, após o qual XU e Liang rebatizaram a Movio para HeyGen,** e desde 2020, HeyGen e Surreal levantaram pelo menos US $ 9 milhões em financiamento da Sequoia Capital, IDG Capital, ZhenFund e do braço de capital de risco da Baidu, Baidu Ventures. **
Verbalize inspirado em podcasts
Além do LipDub e do HeyGen, há também uma plataforma que também está envolvida neste espaço, e o Verbalate também pode dublar os vídeos dos usuários no idioma alvo simultaneamente. A diferença é que o Verbalate pode dublar vídeos de até 30 minutos de duração.
A Davies usa sua rede de marketing para apresentar e vender os serviços da Verbalate para clientes corporativos que desejam se comunicar com funcionários no exterior. De acordo com Dom Procter, fundador da OutSourced Staff, uma empresa de terceirização de Sydney, "Para mim, como vendedor e comerciante, isso facilita minha vida. "
Tendo usado vídeos Verbalate para enviar mensagens para funcionários remotos na Ásia ou na Europa Oriental, Dom Procter observa: "Criar conteúdo em seu idioma nativo é um divisor de águas". O plano de assinatura mais básico do Verbalate é de US $ 9 por mês e permite que os usuários criem um vídeo de 10 minutos por uma taxa adicional de US $ 1 por minuto. O Plano de Criação mensal da HeyGen custa US $ 29 por mês e pode produzir vários vídeos de 5 minutos cada. **
Outras plataformas estão olhando para um mercado maior e tempos de reprodução de vídeo mais longos. A MARZ, com sede em Toronto, atrai principalmente empresas de produção de cinema e televisão interessadas em dublagem fotorrealista por meio de sua plataforma de IA LipDub (não LipDub da Captions).
Atualmente, o LipDub AI** processa um clipe de vídeo de um minuto contendo várias fotos com um tempo de execução inferior a 20 minutos. Embora a empresa atualmente use clipes de treinamento para fazer essas narrações, ela espera acelerar o processamento dentro do ano, abandonando os clipes de treinamento e confiando apenas em clipes de áudio e brutos. Ao contrário de outras plataformas de dublagem, o LipDub AI não usa grandes modelos de linguagem, mas usa seu próprio modelo generativo, que é treinado em uma base de gravação de som.
Tim Reyes, diretor de marketing da MARZ, acredita que a tecnologia de sincronização labial ajudará os produtores a expandir o impacto de um filme ou programa de TV sem comprometer a segurança no emprego do ator. Reyes argumenta: "O LipDub AI realmente abre um monte de oportunidades para novos mercados, ao contrário de algumas outras tecnologias de IA que interrompem o fluxo de trabalho atual na indústria cinematográfica. "
Além de abrir novos mercados, os criadores desses aplicativos têm ideais mais elevados. Davies espera que programas de tradução como o Verbalate quebrem preconceitos implícitos sobre seu próprio idioma e até promovam uma mentalidade mais global. Davies diz que, em um vídeo compartilhado por sua equipe no X, pessoas de diferentes regiões puderam ser vistas expressando suas opiniões em diferentes idiomas, o que o ajudou a pensar sobre como as pessoas são capazes de se comunicar além-fronteiras. Davies acha que tem o potencial de tornar as pessoas um pouco mais humanas, porque pessoas de culturas diferentes podem se entender melhor." **
Davies diz que mesmo mensagens políticas, em suas próprias palavras, podem fazer a diferença, e se pudermos ouvir uns aos outros, é possível ajudar a humanidade.