文本直接生成20多種背景音樂,免費版Stable Audio來了!

**來源:**AIGC開放社區

9月14日,著名開源平台Stability AI在官網發布了,音頻生成式AI產品Stable Audio。 (免費使用地址:

用戶通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉村等20多種類型背景音樂。

例如,輸入迪斯科、鼓機、合成器、貝司、鋼琴、吉他、歡快、115 BPM等關鍵詞,就能生成背景音樂。

目前,Stable Audio有免費和付費兩個版本:免費版,每月可生成20個音樂,最大時長45秒,不能用於商業;付費版,每月11.99美元(約87元),可生成500個音樂,最大時長90秒,可用於商業。

如果你不想付費可以多註冊幾個賬號,可以通過AU(一種音頻編輯器)或PR將生成的音樂拼接起來可達到同樣效果。

Stable Audio簡單介紹

在过去几年,扩散模型在图像、视频、音频等领域获得了飞速发展,可显著提升训练和推理效率。但音频领域的扩散模型存在一个问题,通常会生成固定大小的内容。

例如,音頻擴散模型可能在30秒的音頻片段上進行訓練,並且只能生成30秒的音頻片段。為了打破這個技術瓶頸Stable Audio使用了一種更先進的模型。

這是一種基於文本元數據以及音頻文件持續時間,和開始時間調整的音頻潛在擴散模型,允許對生成音頻的內容和長度進行控制。這種額外的時間條件使用戶能夠生成指定長度的音頻。

與原始音頻相比,使用大幅度下採樣的音頻潛在表示可以實現更快的推理效率。通過最新穩定音頻模型,Stable Audio能在不到一秒的時間內,使用NVIDIA A100 GPU渲染出95秒的立體聲音頻,採樣率為44.1 kHz。

訓練數據方面,Stable Audio使用了一個超過80萬個音頻文件組成的數據集,包含音樂、音效以及各種樂器。

該數據集總計超過1.95萬小時的音頻,同時與音樂服務商AudioSparx進行合作,所以,生成的音樂可以用於商業化。

潛在擴散模型

Stable Audio所使用的潛在擴散模型(Latent Diffusion Models)是一種基於擴散的生成模型,主要在預訓練的自動編碼器的潛在編碼空間中使用。這是一種結合了自動編碼器和擴散模型的方法。

自動編碼器首先被用來學習輸入數據(例如圖像或音頻)的低維潛在表示。這個潛在表示捕捉了輸入數據的重要特徵,並且可以被用來重構原始數據。

然後,擴散模型在這個潛在空間中進行訓練,逐步改變潛在變量,從而生成新的數據。

这种方法的主要优点是可以显著提高扩散模型的训练和推理速度。因为扩散过程在一个相对较小的潜在空间中进行,而不是在原始数据空间中进行,因此可以更高效地生成新的数据。

此外,通過在潛在空間中進行操作,這種模型還可以提供對生成數據的更好控制。例如,可以通過操縱潛在變量來改變生成數據的某些特性,或者通過對潛在變量施加約束來引導數據生成過程。

Stable Audio使用和案例展示

「AIGC開放社區」體驗了一下免費版Stable Audio,使用方法與ChatGPT差不多直接輸入文本提示即可。提示內容包括細節、心態、樂器和節拍四大類。

需要注意的是,如果想生成的音樂更細膩、有律動性和節奏,輸入的文本也需要更細化。也就是說,你輸入的文本提示越多,那么生成的效果就約好。

Stable Audio使用界面

以下是生成音頻案例展示。

恍惚、島嶼、海灘、太陽、凌晨4點、漸進、合成器、909、戲劇和弦、合唱、歡快、懷舊、動態。

柔軟的擁抱,舒適,低合成,閃爍,風和樹葉,環境,和平,放鬆,水。

流行電子、大混響合成器、控鼓機、大氣、穆迪、懷舊、酷、流行樂器、100 BPM。

3/4,3拍,吉他,鼓,明亮,快樂,拍手

本文素材來源Stability AI官網,如有侵權請聯繫刪除

結尾

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)