Según informes de medios extranjeros, la semana pasada se lanzó oficialmente un software de traducción llamado LipDub**, un programa de inteligencia artificial que permite a los creadores de videos comunicarse en diferentes idiomas en minutos.
LipDub está siendo desarrollado por la startup Captions, fundada en 2021 por Gaurav Misra y Dwight Churchill. Captions ha recibido apoyo de inversión de Sequoia Capital, Anderson Horowitz, los cofundadores de Instagram Kevin Systrom y Mike Krieger, y Julie Zhuo, ex vicepresidenta de diseño de productos de Facebook.
El fundador Gaurav Misra es de Nueva Delhi, India, y fue jefe de ingeniería de diseño de Snap. Según Misra, creció en una variedad de idiomas diferentes, incluidos el hindi, el inglés, el punjabi y el urdu. Gaurav Misra también pasó años aprendiendo francés, lo que le ayudó a construir redes profesionales en Europa, África y Oriente Medio.
Misra cree que la tecnología de traducción y coincidencia de labios impulsada por IA puede ayudar a las personas a conectarse y comprender a los demás más fácilmente.
Subtítulos: Fácil localización de traducción de vídeo con IA
Captions es conocido por producir subtítulos generados por IA, corrección de voz y técnicas que corrigen la posición de los globos oculares de los creadores de videos en la posproducción. Misra y Churchill, que anteriormente trabajaron como desarrolladores de productos en Goldman Sachs, llevaban mucho tiempo queriendo añadir la coincidencia de labios a las traducciones de voz en off, pero no esperaban que sucediera tan rápido. "Inicialmente pensamos que la tecnología tardaría 10 años en llegar allí, pero ahora la tecnología se está moviendo tan rápido que están saliendo cosas nuevas casi todos los meses o incluso cada semana", dijo Misra. "
LipDub está entrando en un prometedor mercado de traducción de IA. Sus competidores incluyen aplicaciones de traducción de clonación de voz HeyGen y Verbalate, así como nuevas herramientas de compañías como Spotify y el estudio de efectos visuales Monsters Aliens Robots Zombies. **
Mientras que en el pasado, muchas empresas necesitaban contratar a varios presentadores de video para expresar la misma historia en diferentes idiomas, pero ahora pueden hacer lo mismo con la IA generativa. Estas aplicaciones permiten a los usuarios cargar videos y luego convertirlos al turco, francés, árabe o italiano fluidos en minutos.
Rijul Gupta, fundador de DeepMedia, dijo: "Básicamente hemos implementado esta nueva tecnología a la perfección, cualquiera puede clonar la voz de cualquier persona y hacerla hablar en un idioma diferente con una referencia de audio de 5 segundos. "
En sitios como X y Reddit, miles de veces han aparecido videos doblados de algunas personas conocidas. Spotify se unió al carro el mes pasado cuando anunció que ofrecería podcasts traducidos por IA que se pueden convertir a diferentes idiomas manteniendo su timbre y entonación originales. **
Actualmente, los actores Dax Shepard y Kristen Bell, los investigadores del MIT Lex Fridman y Steven Bartlett tienen podcasts en español, y pronto estarán disponibles traducciones al francés y al alemán. La nueva herramienta de Spotify aprovecha la tecnología de generación de voz recientemente lanzada por OpenAI para ofrecer una experiencia auditiva más realista.
** A principios del año pasado, el equipo de Misra y Captions comenzó a experimentar con la coincidencia de labios y a trabajar con socios para probar cómo funciona en la aplicación Captions. **
Misra admite que la tecnología de emparejamiento de labios está evolucionando más rápido de lo que esperaba. "Parece que es natural pasar a la siguiente etapa, creando un video que no se sienta como una actuación de voz o ajustes artificiales". La nueva tecnología hace que los videos se vean muy naturales y fáciles de entender. "Desde el comienzo de la prueba, se les presentó una nueva posibilidad. Misra dijo: "Al igual que la tecnología que hemos visto antes en Star Trek, ¡es ciencia ficción! "
Captions recibió 25 millones de dólares en fondos de la Serie B de Kleiner Perkins en junio. Captions ahora tiene 100,000 usuarios activos diarios, y Misra cree que la compañía tendrá más usuarios activos después del lanzamiento de LipDub.
**Actualmente disponible en 28 idiomas, incluidos coreano, español, checo, tamil y ucraniano, LipDub utiliza el modo de disparo cero para ofrecer videos fluidos sin ver el sujeto en el modelo de generación de video de Captions. **
Los algoritmos internos de aprendizaje automático de LipDubs están entrenados para reconocer los movimientos de los labios de los hablantes, y la compañía también utiliza el modelo GPT-4 de OpenAI para traducir videos a diferentes idiomas y dialectos en la aplicación. Esta tecnología de locución de IA ya se utiliza en la aplicación Captions y se lanzó en marzo de este año, atrayendo a usuarios de todo el mundo.
"Las personas que de otro modo no podrían llegar a un público específico ahora pueden hacerlo", dijo Misra. Esta tecnología es un ejemplo perfecto de un futuro utópico, así que estoy muy entusiasmado con ella. "
Según Misra, las posibilidades de las nuevas tecnologías son infinitas. "Creo que la transmisión en vivo es un ejemplo muy confiable". "Ya sea que se trate de un juego en vivo en Twitch o una presentación desconocida, este tipo de contenido se puede localizar fácilmente a través de la IA", dice Misra. "
HeyGen: ¿Quieres que la distribución de videos en diferentes idiomas sea tan fácil como escribir**
Además de los subtítulos, hay muchas empresas del mismo tipo de traducción de IA, como HeyGen**. HeyGen es una empresa de IA con millones de usuarios y es uno de los mayores actores en el campo de la coincidencia de labios con IA y la traducción de contenidos de vídeo cortos. Después de que la compañía lanzara su función de traducción de video el 7 de septiembre, rápidamente se hizo popular en X. Desde entonces, decenas de videos fotorrealistas se han vuelto virales, y los usuarios comparten clips de Elon Musk, Messi y Mark Zuckerberg hablando en varios idiomas extranjeros. **
Mark Burginger, director de la compañía de juguetes Qubits, una vez presentó su compañía centrada en STEM en un programa llamado "Shark Tank". Por curiosidad, probó la función de traducción de IA de HeyGen el 13 de septiembre. Publicó un video en X de sí mismo hablando en español, a pesar de que no entendía español.
"¿Te imaginas que una pequeña empresa de juguetes que gana menos de un millón de dólares al año pueda usar estas herramientas bastante baratas?" Burginger dijo que es un artista e inventor con sede en Hendersonville, Carolina del Norte, y Burginger dijo, "lo que ayuda a nivelar el campo de juego con las grandes empresas". "
El objetivo de HeyGen es "eliminar la barrera del idioma", dice Joshua Xu, cofundador y CEO de la compañía, "en la que imaginamos un futuro en el que producir contenido de video y difundir información en diferentes idiomas sea tan fácil como escribir".
En un video generado por IA publicado en X, Xu agregó que las plataformas educativas como Coursera, Khan Academy y MasterClass pueden expandir su alcance al ser "multilingües". Actualmente, HeyGen admite 10 idiomas de entrada y 8 idiomas de salida**, incluidos inglés, español, chino, italiano, hindi y japonés. **
El director ejecutivo de HeyGen, Joshua Xu
Antes de fundar HeyGen, anteriormente conocido como Movio, Wayne Liang, XU de Snap y ex ingeniero de ByteDance, fundó Surreal en 2020.
En ese momento, Surreal ofrecía productos realistas de "deepfake", "deepfake" es una tecnología de síntesis de video que puede crear videos compuestos con realidad falsa. Esta tecnología atrae a las empresas de comercio electrónico que desean publicitar sus productos de una manera más eficiente. **Surreal consiguió 1 millón de dólares en una ronda ángel cuatro meses después de lanzar sus operaciones en Shenzhen, China. ** A día de hoy, Surreal sigue activa en China, publicando ofertas de trabajo y prácticas en los sitios web de empleo y universidades de China, pero la plataforma HeyGen de Surreal opera principalmente en Los Ángeles, donde trabajan XU y Liang.
Movio es una plataforma de video de IA basada en el motor Surreal que se lanzó en julio de 2022. Según la empresa, su producto generó 1 millón de dólares en ingresos en sólo 7 meses, tras lo cual XU y Liang cambiaron el nombre de Movio a HeyGen** y, desde 2020, HeyGen y Surreal han recaudado al menos 9 millones de dólares en financiación de Sequoia Capital, IDG Capital, ZhenFund y el brazo de capital riesgo de Baidu, Baidu Ventures. **
Verbal inspirado en podcasts
Además de LipDub y HeyGen, también hay una plataforma que también está involucrada en este espacio, y Verbalate también puede doblar los videos de los usuarios al idioma de destino simultáneamente. La diferencia es que Verbalate puede poner voz a videos de hasta 30 minutos de duración.
Según el fundador de la plataforma, Grant Davies, Verbalate nació puramente del aburrimiento durante la pandemia. Un día de 2022, Davies escuchó una entrevista en un podcast con Joe Rogan y MrBeast mientras conducía. En ese momento, el YouTuber mencionó que su canal estaba utilizando actores de doblaje para doblar videos al español, ruso, hindi, portugués y otros idiomas, ya que menos del 10% de la población mundial habla inglés. Davies estaba trabajando en tecnología de IA en ese momento, y no creían que su equipo pudiera hacerlo.
Davies utiliza su red de marketing para presentar y vender los servicios de Verbalate a clientes corporativos que desean comunicarse con empleados en el extranjero. Según Dom Procter, fundador de OutSourced Staff, una empresa de subcontratación de Sídney, "para mí, como vendedor y comercializador, me hace la vida más fácil. "
Después de haber utilizado videos de Verbalate para enviar mensajes a empleados remotos en Asia o Europa del Este, Dom Procter señala: "Crear contenido en su idioma nativo cambia las reglas del juego". El plan de suscripción más básico de Verbalate cuesta $ 9 por mes y permite a los usuarios crear un video de 10 minutos de duración por una tarifa adicional de $ 1 por minuto. El plan mensual para creadores de HeyGen cuesta $ 29 por mes y puede producir varios videos de 5 minutos cada uno. **
Otras plataformas están buscando un mercado más grande y tiempos de reproducción de video más largos. MARZ, con sede en Toronto, atrae principalmente a productoras de cine y televisión interesadas en la actuación de voz fotorrealista a través de su plataforma de IA LipDub (no LipDub de Captions).
LipDub AI** procesa actualmente un videoclip de un minuto que contiene varias tomas con una duración de menos de 20 minutos. Si bien la compañía actualmente usa clips de capacitación para hacer estas voces en off, espera acelerar el procesamiento dentro del año al deshacerse de los clips de capacitación y confiar solo en el audio y los clips sin procesar. A diferencia de otras plataformas de doblaje, LipDub AI no utiliza grandes modelos lingüísticos, sino que utiliza su propio modelo generativo, que se entrena sobre la base de la grabación de sonido.
Tim Reyes, director de marketing de MARZ, cree que la tecnología de sincronización de labios ayudará a los productores a ampliar el impacto de una película o programa de televisión sin poner en peligro la seguridad laboral del actor. Reyes argumenta: "LipDub AI en realidad abre un montón de oportunidades para nuevos mercados, a diferencia de otras tecnologías de IA que interrumpen el flujo de trabajo actual en la industria cinematográfica. "
Además de abrir nuevos mercados, los creadores de estas aplicaciones tienen ideales más elevados. Davies espera que los programas de traducción como Verbalate rompan los sesgos implícitos sobre su propio idioma e incluso fomenten una mentalidad más global. Davies dice que en un video que su equipo compartió en X, se podía ver a personas de diferentes regiones expresando sus opiniones en diferentes idiomas, lo que le ayudó a pensar en cómo las personas pueden comunicarse a través de las fronteras. Davies cree que tiene el potencial de hacer que las personas sean un poco más humanas, porque las personas de diferentes culturas pueden entenderse mejor". **
Davies dice que incluso los mensajes políticos, en sus propias palabras, pueden marcar la diferencia, y si podemos escucharnos unos a otros, es posible ayudar a la humanidad.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Además del cambio facial profundo, ha aparecido el doblaje simulado y el software de IA que también puede coincidir con las formas de los labios
Fuente original: GenAI New World
Según informes de medios extranjeros, la semana pasada se lanzó oficialmente un software de traducción llamado LipDub**, un programa de inteligencia artificial que permite a los creadores de videos comunicarse en diferentes idiomas en minutos.
El fundador Gaurav Misra es de Nueva Delhi, India, y fue jefe de ingeniería de diseño de Snap. Según Misra, creció en una variedad de idiomas diferentes, incluidos el hindi, el inglés, el punjabi y el urdu. Gaurav Misra también pasó años aprendiendo francés, lo que le ayudó a construir redes profesionales en Europa, África y Oriente Medio.
Misra cree que la tecnología de traducción y coincidencia de labios impulsada por IA puede ayudar a las personas a conectarse y comprender a los demás más fácilmente.
Subtítulos: Fácil localización de traducción de vídeo con IA
Captions es conocido por producir subtítulos generados por IA, corrección de voz y técnicas que corrigen la posición de los globos oculares de los creadores de videos en la posproducción. Misra y Churchill, que anteriormente trabajaron como desarrolladores de productos en Goldman Sachs, llevaban mucho tiempo queriendo añadir la coincidencia de labios a las traducciones de voz en off, pero no esperaban que sucediera tan rápido. "Inicialmente pensamos que la tecnología tardaría 10 años en llegar allí, pero ahora la tecnología se está moviendo tan rápido que están saliendo cosas nuevas casi todos los meses o incluso cada semana", dijo Misra. "
LipDub está entrando en un prometedor mercado de traducción de IA. Sus competidores incluyen aplicaciones de traducción de clonación de voz HeyGen y Verbalate, así como nuevas herramientas de compañías como Spotify y el estudio de efectos visuales Monsters Aliens Robots Zombies. **
Mientras que en el pasado, muchas empresas necesitaban contratar a varios presentadores de video para expresar la misma historia en diferentes idiomas, pero ahora pueden hacer lo mismo con la IA generativa. Estas aplicaciones permiten a los usuarios cargar videos y luego convertirlos al turco, francés, árabe o italiano fluidos en minutos.
En sitios como X y Reddit, miles de veces han aparecido videos doblados de algunas personas conocidas. Spotify se unió al carro el mes pasado cuando anunció que ofrecería podcasts traducidos por IA que se pueden convertir a diferentes idiomas manteniendo su timbre y entonación originales. **
Actualmente, los actores Dax Shepard y Kristen Bell, los investigadores del MIT Lex Fridman y Steven Bartlett tienen podcasts en español, y pronto estarán disponibles traducciones al francés y al alemán. La nueva herramienta de Spotify aprovecha la tecnología de generación de voz recientemente lanzada por OpenAI para ofrecer una experiencia auditiva más realista.
** A principios del año pasado, el equipo de Misra y Captions comenzó a experimentar con la coincidencia de labios y a trabajar con socios para probar cómo funciona en la aplicación Captions. **
Misra admite que la tecnología de emparejamiento de labios está evolucionando más rápido de lo que esperaba. "Parece que es natural pasar a la siguiente etapa, creando un video que no se sienta como una actuación de voz o ajustes artificiales". La nueva tecnología hace que los videos se vean muy naturales y fáciles de entender. "Desde el comienzo de la prueba, se les presentó una nueva posibilidad. Misra dijo: "Al igual que la tecnología que hemos visto antes en Star Trek, ¡es ciencia ficción! "
Captions recibió 25 millones de dólares en fondos de la Serie B de Kleiner Perkins en junio. Captions ahora tiene 100,000 usuarios activos diarios, y Misra cree que la compañía tendrá más usuarios activos después del lanzamiento de LipDub.
**Actualmente disponible en 28 idiomas, incluidos coreano, español, checo, tamil y ucraniano, LipDub utiliza el modo de disparo cero para ofrecer videos fluidos sin ver el sujeto en el modelo de generación de video de Captions. **
Los algoritmos internos de aprendizaje automático de LipDubs están entrenados para reconocer los movimientos de los labios de los hablantes, y la compañía también utiliza el modelo GPT-4 de OpenAI para traducir videos a diferentes idiomas y dialectos en la aplicación. Esta tecnología de locución de IA ya se utiliza en la aplicación Captions y se lanzó en marzo de este año, atrayendo a usuarios de todo el mundo.
"Las personas que de otro modo no podrían llegar a un público específico ahora pueden hacerlo", dijo Misra. Esta tecnología es un ejemplo perfecto de un futuro utópico, así que estoy muy entusiasmado con ella. "
Según Misra, las posibilidades de las nuevas tecnologías son infinitas. "Creo que la transmisión en vivo es un ejemplo muy confiable". "Ya sea que se trate de un juego en vivo en Twitch o una presentación desconocida, este tipo de contenido se puede localizar fácilmente a través de la IA", dice Misra. "
HeyGen: ¿Quieres que la distribución de videos en diferentes idiomas sea tan fácil como escribir**
Además de los subtítulos, hay muchas empresas del mismo tipo de traducción de IA, como HeyGen**. HeyGen es una empresa de IA con millones de usuarios y es uno de los mayores actores en el campo de la coincidencia de labios con IA y la traducción de contenidos de vídeo cortos. Después de que la compañía lanzara su función de traducción de video el 7 de septiembre, rápidamente se hizo popular en X. Desde entonces, decenas de videos fotorrealistas se han vuelto virales, y los usuarios comparten clips de Elon Musk, Messi y Mark Zuckerberg hablando en varios idiomas extranjeros. **
"¿Te imaginas que una pequeña empresa de juguetes que gana menos de un millón de dólares al año pueda usar estas herramientas bastante baratas?" Burginger dijo que es un artista e inventor con sede en Hendersonville, Carolina del Norte, y Burginger dijo, "lo que ayuda a nivelar el campo de juego con las grandes empresas". "
El objetivo de HeyGen es "eliminar la barrera del idioma", dice Joshua Xu, cofundador y CEO de la compañía, "en la que imaginamos un futuro en el que producir contenido de video y difundir información en diferentes idiomas sea tan fácil como escribir".
En un video generado por IA publicado en X, Xu agregó que las plataformas educativas como Coursera, Khan Academy y MasterClass pueden expandir su alcance al ser "multilingües". Actualmente, HeyGen admite 10 idiomas de entrada y 8 idiomas de salida**, incluidos inglés, español, chino, italiano, hindi y japonés. **
Antes de fundar HeyGen, anteriormente conocido como Movio, Wayne Liang, XU de Snap y ex ingeniero de ByteDance, fundó Surreal en 2020.
En ese momento, Surreal ofrecía productos realistas de "deepfake", "deepfake" es una tecnología de síntesis de video que puede crear videos compuestos con realidad falsa. Esta tecnología atrae a las empresas de comercio electrónico que desean publicitar sus productos de una manera más eficiente. **Surreal consiguió 1 millón de dólares en una ronda ángel cuatro meses después de lanzar sus operaciones en Shenzhen, China. ** A día de hoy, Surreal sigue activa en China, publicando ofertas de trabajo y prácticas en los sitios web de empleo y universidades de China, pero la plataforma HeyGen de Surreal opera principalmente en Los Ángeles, donde trabajan XU y Liang.
Movio es una plataforma de video de IA basada en el motor Surreal que se lanzó en julio de 2022. Según la empresa, su producto generó 1 millón de dólares en ingresos en sólo 7 meses, tras lo cual XU y Liang cambiaron el nombre de Movio a HeyGen** y, desde 2020, HeyGen y Surreal han recaudado al menos 9 millones de dólares en financiación de Sequoia Capital, IDG Capital, ZhenFund y el brazo de capital riesgo de Baidu, Baidu Ventures. **
Verbal inspirado en podcasts
Además de LipDub y HeyGen, también hay una plataforma que también está involucrada en este espacio, y Verbalate también puede doblar los videos de los usuarios al idioma de destino simultáneamente. La diferencia es que Verbalate puede poner voz a videos de hasta 30 minutos de duración.
Davies utiliza su red de marketing para presentar y vender los servicios de Verbalate a clientes corporativos que desean comunicarse con empleados en el extranjero. Según Dom Procter, fundador de OutSourced Staff, una empresa de subcontratación de Sídney, "para mí, como vendedor y comercializador, me hace la vida más fácil. "
Después de haber utilizado videos de Verbalate para enviar mensajes a empleados remotos en Asia o Europa del Este, Dom Procter señala: "Crear contenido en su idioma nativo cambia las reglas del juego". El plan de suscripción más básico de Verbalate cuesta $ 9 por mes y permite a los usuarios crear un video de 10 minutos de duración por una tarifa adicional de $ 1 por minuto. El plan mensual para creadores de HeyGen cuesta $ 29 por mes y puede producir varios videos de 5 minutos cada uno. **
Otras plataformas están buscando un mercado más grande y tiempos de reproducción de video más largos. MARZ, con sede en Toronto, atrae principalmente a productoras de cine y televisión interesadas en la actuación de voz fotorrealista a través de su plataforma de IA LipDub (no LipDub de Captions).
LipDub AI** procesa actualmente un videoclip de un minuto que contiene varias tomas con una duración de menos de 20 minutos. Si bien la compañía actualmente usa clips de capacitación para hacer estas voces en off, espera acelerar el procesamiento dentro del año al deshacerse de los clips de capacitación y confiar solo en el audio y los clips sin procesar. A diferencia de otras plataformas de doblaje, LipDub AI no utiliza grandes modelos lingüísticos, sino que utiliza su propio modelo generativo, que se entrena sobre la base de la grabación de sonido.
Tim Reyes, director de marketing de MARZ, cree que la tecnología de sincronización de labios ayudará a los productores a ampliar el impacto de una película o programa de televisión sin poner en peligro la seguridad laboral del actor. Reyes argumenta: "LipDub AI en realidad abre un montón de oportunidades para nuevos mercados, a diferencia de otras tecnologías de IA que interrumpen el flujo de trabajo actual en la industria cinematográfica. "
Además de abrir nuevos mercados, los creadores de estas aplicaciones tienen ideales más elevados. Davies espera que los programas de traducción como Verbalate rompan los sesgos implícitos sobre su propio idioma e incluso fomenten una mentalidad más global. Davies dice que en un video que su equipo compartió en X, se podía ver a personas de diferentes regiones expresando sus opiniones en diferentes idiomas, lo que le ayudó a pensar en cómo las personas pueden comunicarse a través de las fronteras. Davies cree que tiene el potencial de hacer que las personas sean un poco más humanas, porque las personas de diferentes culturas pueden entenderse mejor". **
Davies dice que incluso los mensajes políticos, en sus propias palabras, pueden marcar la diferencia, y si podemos escucharnos unos a otros, es posible ayudar a la humanidad.