Текст може безпосередньо створювати понад 20 видів фонової музики. Безкоштовна версія Stable Audio тут!

**Джерело: **AIGC Open Community

14 вересня відома платформа з відкритим вихідним кодом Stability AI випустила на своєму офіційному сайті аудіогенеруючий AI-продукт Stable Audio. (Безкоштовна адреса:

Користувачі можуть безпосередньо генерувати понад 20 типів фонової музики, як-от рок, джаз, електроніка, хіп-хоп, хеві-метал, фолк, поп, панк і кантрі, за допомогою текстових підказок.

Наприклад, введіть такі ключові слова, як дискотека, драм-машина, синтезатор, бас, піаніно, гітара, веселий, 115 BPM тощо, щоб створити фонову музику.

Наразі Stable Audio має дві безкоштовну та платну версії: безкоштовну версію, яка може генерувати 20 музичних творів на місяць з максимальною тривалістю 45 секунд і не може використовуватися в комерційних цілях; платну версію, яка коштує 11,99 доларів на місяць ( близько 87 юанів), може створювати 500 музичних творів. Музику максимальною тривалістю 90 секунд можна використовувати в комерційних цілях.

Якщо ви не хочете платити, ви можете зареєструвати ще кілька облікових записів і з’єднати згенеровану музику через AU (аудіоредактор) або PR, щоб досягти того самого ефекту.

Короткий вступ до Stable Audio

За останні кілька років дифузійні моделі досягли швидкого розвитку в області зображень, відео, аудіо та інших областях, що може значно підвищити ефективність навчання та висновків. Але є проблема з дифузійними моделями в звуковій області, які зазвичай створюють вміст фіксованого розміру.

Наприклад, модель розповсюдження звуку може бути навчена на 30-секундних аудіокліпах і генерувати лише 30-секундні аудіокліпи. Щоб подолати це технічне вузьке місце, Stable Audio використовує вдосконалену модель.

Це модель прихованого розповсюдження аудіо, заснована на текстових метаданих і налаштуваннях тривалості аудіофайлу та часу початку, що дозволяє контролювати вміст і тривалість згенерованого аудіо. Ця додаткова умова часу дозволяє користувачеві генерувати аудіо заданої тривалості.

Використання прихованого представлення аудіо зі значною дискретизацією може досягти швидшої ефективності висновку порівняно з вихідним аудіо. З останньою моделлю стабільного звуку Stable Audio може відтворювати 95 секунд стереозвуку за допомогою графічного процесора NVIDIA A100 менш ніж за одну секунду з частотою дискретизації 44,1 кГц.

Що стосується навчальних даних, Stable Audio використовує набір даних, що складається з понад 800 000 аудіофайлів, включаючи музику, звукові ефекти та різні музичні інструменти.

Набір даних нараховує понад 19 500 годин аудіо, а також співпрацює з постачальником музичних послуг AudioSparx, тому згенеровану музику можна використовувати для комерціалізації.

Модель латентної дифузії

Моделі латентної дифузії, які використовує Stable Audio, є генеративною моделлю на основі дифузії, яка в основному використовується в латентному просторі кодування попередньо навчених автокодерів. Це підхід, який поєднує автокодери та дифузійні моделі.

Автокодери спочатку використовуються для вивчення низькорозмірних прихованих представлень вхідних даних (таких як зображення чи аудіо). Це приховане представлення фіксує важливі характеристики вхідних даних і може використовуватися для реконструкції вихідних даних.

Дифузійні моделі потім навчаються в цьому прихованому просторі, поступово змінюючи приховані змінні для генерування нових даних.

Основна перевага цього підходу полягає в тому, що він може значно покращити навчання та швидкість висновку моделей дифузії. Оскільки процес розповсюдження відбувається у відносно невеликому прихованому просторі, а не у вихідному просторі даних, нові дані можуть бути згенеровані ефективніше.

Крім того, працюючи в прихованому просторі, такі моделі також можуть забезпечувати кращий контроль над згенерованими даними. Наприклад, латентними змінними можна маніпулювати, щоб змінити певні характеристики згенерованих даних, або процес генерації даних можна керувати шляхом накладення обмежень на латентні змінні.

Стабільне використання звуку та відображення регістра

"AIGC Open Community" спробувала безкоштовну версію Stable Audio. Спосіб використання подібний до ChatGPT. Просто введіть текстове повідомлення. Контент підказки включає чотири категорії: деталі, менталітет, інструменти та ритми.

Слід зазначити, що якщо ви хочете, щоб згенерована музика була більш тонкою, ритмічною і ритмічною, то вхідний текст також повинен бути більш деталізованим. Іншими словами, чим більше текстових підказок ви введете, тим кращим буде створений ефект.

Інтерфейс користувача Stable Audio

Нижче наведено приклад демонстрації створення аудіо.

Транс, острів, пляж, сонце, 4 години ранку, прогресив, синтезатор, 909, драматичні акорди, приспів, бадьорий, ностальгічний, динамічний.

М’які обійми, затишок, низький рівень синтезатора, мерехтіння, вітер і листя, атмосфера, спокій, розслаблення, вода.

Електронний поп, великий ревербератор, драм-машина, атмосферний, примхливий, ностальгічний, крутий, інструментальний поп, 100 ударів на хвилину.

3/4, 3 такти, гітара, барабани, яскравий, щасливий, плескання

Матеріал цієї статті взято з офіційного сайту Stability AI.Якщо є порушення, будь ласка, зв'яжіться з нами, щоб видалити його.

КІНЕЦЬ

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити