Text doğrudan 20'den fazla fon müziği türü oluşturabilir. Stable Audio'nun ücretsiz sürümü burada!

**Kaynak: **AIGC Açık Topluluğu

14 Eylül'de ünlü açık kaynak platformu Stability AI, ses üreten yapay zeka ürünü Stable Audio'yu resmi web sitesinde yayınladı. (Ücretsiz kullanım adresi:

Kullanıcılar, metin istemleri aracılığıyla doğrudan rock, caz, elektronik, hip-hop, heavy metal, folk, pop, punk ve country gibi 20'den fazla arka plan müziği türü üretebilir.

Örneğin, arka plan müziği oluşturmak için disko, davul makinesi, sentezleyici, bas, piyano, gitar, neşeli, 115 BPM vb. anahtar sözcükleri girin.

Şu anda Stable Audio'nun iki ücretsiz ve ücretli sürümü var: ayda 20 müzik parçası üretebilen, maksimum 45 saniye süren ve ticari amaçlarla kullanılamayan ücretsiz sürüm; aylık 11,99 ABD doları tutarındaki ücretli sürüm ( Yaklaşık 87 yuan), 500 parça müzik üretebilir. Maksimum süresi 90 saniye olan müzik, ticari olarak kullanılabilir.

Ödeme yapmak istemiyorsanız, birkaç hesap daha kaydedebilir ve aynı etkiyi elde etmek için oluşturulan müziği AU (bir ses düzenleyici) veya PR aracılığıyla birleştirebilirsiniz.

Sabit Sese kısa giriş

Geçtiğimiz birkaç yılda difüzyon modelleri görüntü, video, ses ve diğer alanlarda eğitim ve çıkarım verimliliğini önemli ölçüde artırabilecek hızlı bir gelişme kaydetti. Ancak ses alanındaki, genellikle sabit boyutlu içerik üreten yayılma modelleriyle ilgili bir sorun var.

Örneğin, bir ses yayılım modeli 30 saniyelik ses klipleri üzerinde eğitilebilir ve yalnızca 30 saniyelik ses klipleri oluşturabilir. Bu teknik darboğazı kırmak için Stable Audio daha gelişmiş bir model kullanıyor.

Bu, metin meta verilerine ve ses dosyası süresine ve başlangıç zamanı ayarlamalarına dayanan, oluşturulan sesin içeriği ve uzunluğu üzerinde kontrole izin veren bir gizli ses yayılma modelidir. Bu ek zaman koşulu, kullanıcının belirli bir uzunlukta ses üretmesine olanak tanır.

Sesin yoğun şekilde altörneklenmiş gizli temsilinin kullanılması, orijinal sese kıyasla daha hızlı çıkarım verimliliği sağlayabilir. En yeni stabil ses modeliyle Stable Audio, NVIDIA A100 GPU'yu kullanarak 44,1 kHz örnekleme hızıyla 95 saniyelik stereo sesi bir saniyeden kısa sürede işleyebilir.

Eğitim verileri açısından Stable Audio, müzik, ses efektleri ve çeşitli müzik enstrümanlarını içeren 800.000'den fazla ses dosyasından oluşan bir veri seti kullanıyor.

Veri seti toplamda 19.500 saatten fazla ses içeriyor ve ayrıca müzik servis sağlayıcısı AudioSparx ile işbirliği yapıyor, böylece oluşturulan müzik ticarileştirme için kullanılabiliyor.

Gizli yayılma modeli

Stable Audio tarafından kullanılan Gizli Dağıtım Modelleri, esas olarak önceden eğitilmiş otomatik kodlayıcıların gizli kodlama alanında kullanılan, dağıtım tabanlı üretken bir modeldir. Bu, otomatik kodlayıcıları ve difüzyon modellerini birleştiren bir yaklaşımdır.

Otomatik kodlayıcılar ilk olarak giriş verilerinin (görüntüler veya ses gibi) düşük boyutlu gizli temsillerini öğrenmek için kullanılır. Bu gizli gösterim, giriş verilerinin önemli özelliklerini yakalar ve orijinal verileri yeniden oluşturmak için kullanılabilir.

Daha sonra yayılma modelleri bu gizli alanda eğitilir ve yeni veriler üretmek için gizli değişkenler kademeli olarak değiştirilir.

Bu yaklaşımın temel avantajı, yayılma modellerinin eğitim ve çıkarım hızını önemli ölçüde artırabilmesidir. Yayılma süreci orijinal veri alanı yerine nispeten küçük bir gizli alanda meydana geldiğinden, yeni veriler daha verimli bir şekilde üretilebilir.

Ayrıca bu tür modeller gizli alanda çalışarak üretilen veriler üzerinde daha iyi kontrol de sağlayabilir. Örneğin, gizli değişkenler, oluşturulan verilerin belirli özelliklerini değiştirmek için manipüle edilebilir veya gizli değişkenlere kısıtlamalar getirilerek veri oluşturma süreci yönlendirilebilir.

Kararlı Ses kullanımı ve vaka gösterimi

"AIGC Open Community", Stable Audio'nun ücretsiz sürümünü denedi. Kullanım yöntemi ChatGPT'ninkine benzer. Sadece metin istemini girin. Bilgi istemi içeriği dört kategoriden oluşur: ayrıntılar, zihniyet, enstrümanlar ve vuruşlar.

Oluşturulan müziğin daha hassas, ritmik ve ritmik olmasını istiyorsanız giriş metninin de daha ayrıntılı olması gerektiğini unutmayın. Başka bir deyişle, ne kadar çok metin istemi girerseniz, oluşturulan efekt o kadar iyi olur.

Stabil Ses kullanıcı arayüzü

Aşağıda ses üretmeye ilişkin bir örnek olay gösterimi yer almaktadır.

Trance, ada, plaj, güneş, sabah 4, progresif, synth, 909, dramatik akorlar, koro, iyimser, nostaljik, dinamik.

Yumuşak kucaklama, rahatlık, düşük sentez, ışıltı, rüzgar ve yapraklar, ortam, huzurlu, rahatlatıcı, su.

Pop elektronik, büyük yankı synth, davul makinesi, atmosferik, karamsar, nostaljik, havalı, pop enstrümantal, 100 BPM.

3/4, 3 vuruş, gitar, davul, parlak, mutlu, alkışlar

Bu makalenin içeriği Stability AI'nin resmi web sitesinden alınmıştır. Herhangi bir ihlal varsa lütfen silmek için bizimle iletişime geçin.

SON

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)