Em 14 de setembro, a famosa plataforma de código aberto Stability AI lançou o produto de IA gerador de áudio Stable Audio em seu site oficial. (Endereço de uso gratuito:
Os usuários podem gerar diretamente mais de 20 tipos de música de fundo, como rock, jazz, eletrônico, hip-hop, heavy metal, folk, pop, punk e country por meio de prompts de texto.
Por exemplo, insira palavras-chave como disco, bateria eletrônica, sintetizador, baixo, piano, guitarra, alegre, 115 BPM, etc. para gerar música de fundo.
Atualmente, o Stable Audio possui duas versões gratuitas e pagas: a versão gratuita, que pode gerar 20 músicas por mês, com duração máxima de 45 segundos, e não pode ser usada para fins comerciais; a versão paga, que custa US$ 11,99 por mês ( cerca de 87 yuans), pode gerar 500 peças musicais. Música, duração máxima de 90 segundos, pode ser usada comercialmente.
Se não quiser pagar, você pode registrar mais algumas contas e unir a música gerada por meio de AU (um editor de áudio) ou PR para obter o mesmo efeito.
Breve introdução ao Áudio Estável
Nos últimos anos, os modelos de difusão alcançaram um rápido desenvolvimento em imagem, vídeo, áudio e outros campos, o que pode melhorar significativamente a eficiência do treinamento e da inferência. Mas há um problema com os modelos de difusão no domínio do áudio, que normalmente produzem conteúdo de tamanho fixo.
Por exemplo, um modelo de difusão de áudio pode ser treinado em clipes de áudio de 30 segundos e gerar apenas clipes de áudio de 30 segundos. Para quebrar esse gargalo técnico, a Stable Audio utiliza um modelo mais avançado.
Este é um modelo de difusão de áudio latente baseado em metadados de texto e ajustes de duração e horário de início do arquivo de áudio, permitindo controle sobre o conteúdo e a duração do áudio gerado. Esta condição de tempo adicional permite ao usuário gerar áudio de uma duração especificada.
Usar uma representação latente do áudio com amostragem bastante reduzida pode obter uma eficiência de inferência mais rápida em comparação com o áudio original. Com o mais recente modelo de áudio estável, o Stable Audio pode renderizar 95 segundos de áudio estéreo usando a GPU NVIDIA A100 em menos de um segundo, com uma taxa de amostragem de 44,1 kHz.
Em termos de dados de treinamento, o Stable Audio utiliza um conjunto de dados composto por mais de 800.000 arquivos de áudio, incluindo música, efeitos sonoros e diversos instrumentos musicais.
O conjunto de dados totaliza mais de 19.500 horas de áudio e também coopera com o provedor de serviços de música AudioSparx, para que a música gerada possa ser utilizada para comercialização.
Modelo de difusão latente
Os modelos de difusão latente usados pelo Stable Audio são um modelo generativo baseado em difusão usado principalmente no espaço de codificação latente de autoencoders pré-treinados. Esta é uma abordagem que combina autoencoders e modelos de difusão.
Os codificadores automáticos são usados primeiramente para aprender representações latentes de baixa dimensão de dados de entrada (como imagens ou áudio). Esta representação latente captura características importantes dos dados de entrada e pode ser usada para reconstruir os dados originais.
Os modelos de difusão são então treinados neste espaço latente, alterando gradativamente as variáveis latentes para gerar novos dados.
A principal vantagem desta abordagem é que ela pode melhorar significativamente a velocidade de treinamento e inferência dos modelos de difusão. Como o processo de difusão ocorre num espaço latente relativamente pequeno e não no espaço de dados original, novos dados podem ser gerados de forma mais eficiente.
Além disso, por operarem no espaço latente, tais modelos também podem proporcionar melhor controle sobre os dados gerados. Por exemplo, variáveis latentes podem ser manipuladas para alterar certas características dos dados gerados, ou o processo de geração de dados pode ser guiado pela imposição de restrições às variáveis latentes.
Uso estável de áudio e exibição de caixa
"AIGC Open Community" experimentou a versão gratuita do Stable Audio. O método de uso é semelhante ao do ChatGPT. Basta inserir o prompt de texto. O conteúdo imediato inclui quatro categorias: detalhes, mentalidade, instrumentos e batidas.
Deve-se destacar que se você deseja que a música gerada seja mais delicada, rítmica e rítmica, o texto de entrada também precisa ser mais detalhado. Em outras palavras, quanto mais solicitações de texto você inserir, melhor será o efeito gerado.
Interface de usuário de áudio estável
A seguir está uma demonstração de caso de geração de áudio.
O material deste artigo vem do site oficial da Stability AI. Se houver alguma infração, entre em contato conosco para excluí-la.
FIM
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O texto pode gerar diretamente mais de 20 tipos de música de fundo. A versão gratuita do Stable Audio está aqui!
**Fonte: **Comunidade Aberta AIGC
Em 14 de setembro, a famosa plataforma de código aberto Stability AI lançou o produto de IA gerador de áudio Stable Audio em seu site oficial. (Endereço de uso gratuito:
Os usuários podem gerar diretamente mais de 20 tipos de música de fundo, como rock, jazz, eletrônico, hip-hop, heavy metal, folk, pop, punk e country por meio de prompts de texto.
Por exemplo, insira palavras-chave como disco, bateria eletrônica, sintetizador, baixo, piano, guitarra, alegre, 115 BPM, etc. para gerar música de fundo.
Atualmente, o Stable Audio possui duas versões gratuitas e pagas: a versão gratuita, que pode gerar 20 músicas por mês, com duração máxima de 45 segundos, e não pode ser usada para fins comerciais; a versão paga, que custa US$ 11,99 por mês ( cerca de 87 yuans), pode gerar 500 peças musicais. Música, duração máxima de 90 segundos, pode ser usada comercialmente.
Se não quiser pagar, você pode registrar mais algumas contas e unir a música gerada por meio de AU (um editor de áudio) ou PR para obter o mesmo efeito.
Breve introdução ao Áudio Estável
Nos últimos anos, os modelos de difusão alcançaram um rápido desenvolvimento em imagem, vídeo, áudio e outros campos, o que pode melhorar significativamente a eficiência do treinamento e da inferência. Mas há um problema com os modelos de difusão no domínio do áudio, que normalmente produzem conteúdo de tamanho fixo.
Por exemplo, um modelo de difusão de áudio pode ser treinado em clipes de áudio de 30 segundos e gerar apenas clipes de áudio de 30 segundos. Para quebrar esse gargalo técnico, a Stable Audio utiliza um modelo mais avançado.
Este é um modelo de difusão de áudio latente baseado em metadados de texto e ajustes de duração e horário de início do arquivo de áudio, permitindo controle sobre o conteúdo e a duração do áudio gerado. Esta condição de tempo adicional permite ao usuário gerar áudio de uma duração especificada.
Em termos de dados de treinamento, o Stable Audio utiliza um conjunto de dados composto por mais de 800.000 arquivos de áudio, incluindo música, efeitos sonoros e diversos instrumentos musicais.
O conjunto de dados totaliza mais de 19.500 horas de áudio e também coopera com o provedor de serviços de música AudioSparx, para que a música gerada possa ser utilizada para comercialização.
Modelo de difusão latente
Os modelos de difusão latente usados pelo Stable Audio são um modelo generativo baseado em difusão usado principalmente no espaço de codificação latente de autoencoders pré-treinados. Esta é uma abordagem que combina autoencoders e modelos de difusão.
Os codificadores automáticos são usados primeiramente para aprender representações latentes de baixa dimensão de dados de entrada (como imagens ou áudio). Esta representação latente captura características importantes dos dados de entrada e pode ser usada para reconstruir os dados originais.
Os modelos de difusão são então treinados neste espaço latente, alterando gradativamente as variáveis latentes para gerar novos dados.
Além disso, por operarem no espaço latente, tais modelos também podem proporcionar melhor controle sobre os dados gerados. Por exemplo, variáveis latentes podem ser manipuladas para alterar certas características dos dados gerados, ou o processo de geração de dados pode ser guiado pela imposição de restrições às variáveis latentes.
Uso estável de áudio e exibição de caixa
"AIGC Open Community" experimentou a versão gratuita do Stable Audio. O método de uso é semelhante ao do ChatGPT. Basta inserir o prompt de texto. O conteúdo imediato inclui quatro categorias: detalhes, mentalidade, instrumentos e batidas.
Deve-se destacar que se você deseja que a música gerada seja mais delicada, rítmica e rítmica, o texto de entrada também precisa ser mais detalhado. Em outras palavras, quanto mais solicitações de texto você inserir, melhor será o efeito gerado.
A seguir está uma demonstração de caso de geração de áudio.
Trance, ilha, praia, sol, 4h, progressivo, sintetizador, 909, acordes dramáticos, refrão, otimista, nostálgico, dinâmico.
Abraço suave, conforto, sintetizador baixo, brilho, vento e folhas, ambiente, tranquilo, relaxante, água.
Pop eletrônico, sintetizador de grande reverberação, bateria eletrônica, atmosférico, temperamental, nostálgico, legal, pop instrumental, 100 BPM.
3/4, 3 batidas, guitarra, bateria, brilhante, feliz, palmas
O material deste artigo vem do site oficial da Stability AI. Se houver alguma infração, entre em contato conosco para excluí-la.
FIM