El texto puede generar directamente más de 20 tipos de música de fondo. ¡La versión gratuita de Stable Audio ya está aquí!

**Fuente: **Comunidad Abierta AIGC

El 14 de septiembre, la famosa plataforma de código abierto Stability AI lanzó el producto de IA generativa de audio Stable Audio en su sitio web oficial. (Dirección de uso libre:

Los usuarios pueden generar directamente más de 20 tipos de música de fondo, como rock, jazz, electrónica, hip-hop, heavy metal, folk, pop, punk y country, a través de mensajes de texto.

Por ejemplo, ingrese palabras clave como discoteca, caja de ritmos, sintetizador, bajo, piano, guitarra, alegre, 115 BPM, etc. para generar música de fondo.

Actualmente, Stable Audio tiene dos versiones gratuita y de pago: la versión gratuita, que puede generar 20 piezas musicales al mes, con una duración máxima de 45 segundos, y no puede utilizarse con fines comerciales; la versión de pago, que cuesta 11,99 dólares al mes ( Aproximadamente 87 yuanes), puede generar 500 piezas musicales. La música, con una duración máxima de 90 segundos, se puede utilizar comercialmente.

Si no desea pagar, puede registrar algunas cuentas más y unir la música generada a través de AU (un editor de audio) o PR para lograr el mismo efecto.

Breve introducción al audio estable

En los últimos años, los modelos de difusión han logrado un rápido desarrollo en imágenes, videos, audio y otros campos, lo que puede mejorar significativamente la eficiencia del entrenamiento y la inferencia. Pero existe un problema con los modelos de difusión en el dominio del audio, que normalmente producen contenido de tamaño fijo.

Por ejemplo, un modelo de difusión de audio podría entrenarse en clips de audio de 30 segundos y generar solo clips de audio de 30 segundos. Para superar este cuello de botella técnico, Stable Audio utiliza un modelo más avanzado.

Este es un modelo de difusión latente de audio basado en metadatos de texto y ajustes de duración y hora de inicio del archivo de audio, lo que permite controlar el contenido y la duración del audio generado. Esta condición de tiempo adicional permite al usuario generar audio de una duración específica.

El uso de una representación latente del audio con una resolución muy reducida puede lograr una eficiencia de inferencia más rápida en comparación con el audio original. Con el último modelo de audio estable, Stable Audio puede reproducir 95 segundos de audio estéreo utilizando la GPU NVIDIA A100 en menos de un segundo, con una frecuencia de muestreo de 44,1 kHz.

En términos de datos de entrenamiento, Stable Audio utiliza un conjunto de datos compuesto por más de 800.000 archivos de audio, que incluyen música, efectos de sonido y varios instrumentos musicales.

El conjunto de datos suma más de 19.500 horas de audio y también coopera con el proveedor de servicios de música AudioSparx, por lo que la música generada se puede utilizar para la comercialización.

Modelo de difusión latente

Los modelos de difusión latente utilizados por Stable Audio son un modelo generativo basado en difusión que se utiliza principalmente en el espacio de codificación latente de codificadores automáticos previamente entrenados. Este es un enfoque que combina codificadores automáticos y modelos de difusión.

Los codificadores automáticos se utilizan por primera vez para aprender representaciones latentes de baja dimensión de datos de entrada (como imágenes o audio). Esta representación latente captura características importantes de los datos de entrada y puede usarse para reconstruir los datos originales.

Luego se entrenan modelos de difusión en este espacio latente, cambiando gradualmente las variables latentes para generar nuevos datos.

La principal ventaja de este enfoque es que puede mejorar significativamente la velocidad de entrenamiento e inferencia de los modelos de difusión. Debido a que el proceso de difusión ocurre en un espacio latente relativamente pequeño en lugar de en el espacio de datos original, se pueden generar nuevos datos de manera más eficiente.

Además, al operar en el espacio latente, dichos modelos también pueden proporcionar un mejor control sobre los datos generados. Por ejemplo, las variables latentes pueden manipularse para cambiar ciertas características de los datos generados, o el proceso de generación de datos puede guiarse imponiendo restricciones a las variables latentes.

Uso de audio estable y visualización del estuche

"AIGC Open Community" probó la versión gratuita de Stable Audio. El método de uso es similar al de ChatGPT. Simplemente ingrese el mensaje de texto. El contenido del mensaje incluye cuatro categorías: detalles, mentalidad, instrumentos y ritmos.

Cabe señalar que si desea que la música generada sea más delicada, rítmica y rítmica, el texto de entrada también debe ser más detallado. En otras palabras, cuanto más texto introduzca, mejor será el efecto generado.

Interfaz de usuario de audio estable

La siguiente es una demostración de caso de generación de audio.

Trance, isla, playa, sol, 4 am, progresivo, sintetizador, 909, acordes dramáticos, coro, optimista, nostálgico, dinámico.

Abrazo suave, comodidad, sintetizador bajo, brillo, viento y hojas, ambiente, paz, relajante, agua.

Pop electrónico, sintetizador de gran reverberación, caja de ritmos, atmosférico, temperamental, nostálgico, genial, pop instrumental, 100 BPM.

3/4, 3 tiempos, guitarra, batería, brillante, feliz, aplaudiendo

El material de este artículo proviene del sitio web oficial de Stability AI, si hay alguna infracción, contáctenos para eliminarla.

FIN

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)