Văn bản có thể trực tiếp tạo ra hơn 20 loại nhạc nền. Phiên bản miễn phí của Âm thanh ổn định đã có tại đây!

**Nguồn: **Cộng đồng mở AIGC

Vào ngày 14 tháng 9, nền tảng nguồn mở nổi tiếng Stability AI đã phát hành sản phẩm AI tạo âm thanh Stable Audio trên trang web chính thức của mình. (Địa chỉ sử dụng miễn phí:

Người dùng có thể trực tiếp tạo hơn 20 loại nhạc nền như rock, jazz, điện tử, hip-hop, kim loại nặng, dân gian, pop, punk và đồng quê thông qua lời nhắc bằng văn bản.

Ví dụ: nhập các từ khóa như disco, trống máy, tổng hợp, bass, piano, guitar, vui vẻ, 115 BPM, v.v. để tạo nhạc nền.

Hiện tại, Stable Audio có hai phiên bản miễn phí và trả phí: phiên bản miễn phí, có thể tạo 20 bản nhạc mỗi tháng, thời lượng tối đa 45 giây và không thể sử dụng cho mục đích thương mại; phiên bản trả phí, có giá 11,99 USD mỗi tháng ( khoảng 87 nhân dân tệ), có thể tạo ra 500 bản nhạc. Âm nhạc, thời lượng tối đa 90 giây, có thể được sử dụng cho mục đích thương mại.

Nếu không muốn trả tiền, bạn có thể đăng ký thêm một vài tài khoản và có thể ghép nhạc được tạo thông qua AU (trình chỉnh sửa âm thanh) hoặc PR để đạt được hiệu quả tương tự.

Giới thiệu ngắn gọn về Âm thanh ổn định

Trong vài năm qua, các mô hình khuếch tán đã đạt được sự phát triển nhanh chóng về hình ảnh, video, âm thanh và các lĩnh vực khác, có thể cải thiện đáng kể hiệu quả đào tạo và suy luận. Nhưng có một vấn đề với các mô hình khuếch tán trong lĩnh vực âm thanh, vốn thường tạo ra nội dung có kích thước cố định.

Ví dụ: mô hình khuếch tán âm thanh có thể được đào tạo trên các clip âm thanh 30 giây và chỉ tạo các clip âm thanh 30 giây. Để giải quyết nút thắt kỹ thuật này, Stable Audio sử dụng một model cao cấp hơn.

Đây là mô hình khuếch tán tiềm ẩn âm thanh dựa trên siêu dữ liệu văn bản và thời lượng tệp âm thanh cũng như các điều chỉnh thời gian bắt đầu, cho phép kiểm soát nội dung và độ dài của âm thanh được tạo. Điều kiện thời gian bổ sung này cho phép người dùng tạo ra âm thanh có độ dài xác định.

Việc sử dụng biểu diễn âm thanh tiềm ẩn được lấy mẫu giảm nhiều có thể đạt được hiệu quả suy luận nhanh hơn so với âm thanh gốc. Với mẫu âm thanh ổn định mới nhất, Stable Audio có thể kết xuất 95 giây âm thanh nổi bằng GPU NVIDIA A100 trong chưa đầy một giây, với tốc độ lấy mẫu là 44,1 kHz.

Về dữ liệu đào tạo, Stable Audio sử dụng bộ dữ liệu bao gồm hơn 800.000 tệp âm thanh, bao gồm nhạc, hiệu ứng âm thanh và nhiều loại nhạc cụ khác nhau.

Tập dữ liệu có tổng cộng hơn 19.500 giờ âm thanh và nó cũng hợp tác với nhà cung cấp dịch vụ âm nhạc AudioSparx, do đó, âm nhạc được tạo ra có thể được sử dụng cho mục đích thương mại hóa.

##Mô hình khuếch tán tiềm ẩn

Mô hình khuếch tán tiềm ẩn được Âm thanh ổn định sử dụng là mô hình tổng hợp dựa trên khuếch tán, chủ yếu được sử dụng trong không gian mã hóa tiềm ẩn của bộ mã hóa tự động được đào tạo trước. Đây là một cách tiếp cận kết hợp bộ mã hóa tự động và mô hình khuếch tán.

Bộ mã hóa tự động lần đầu tiên được sử dụng để tìm hiểu cách biểu diễn tiềm ẩn chiều thấp của dữ liệu đầu vào (chẳng hạn như hình ảnh hoặc âm thanh). Biểu diễn tiềm ẩn này nắm bắt các tính năng quan trọng của dữ liệu đầu vào và có thể được sử dụng để xây dựng lại dữ liệu gốc.

Các mô hình khuếch tán sau đó được huấn luyện trong không gian tiềm ẩn này, dần dần thay đổi các biến tiềm ẩn để tạo ra dữ liệu mới.

Ưu điểm chính của phương pháp này là nó có thể cải thiện đáng kể tốc độ huấn luyện và suy luận của các mô hình khuếch tán. Do quá trình khuếch tán xảy ra trong một không gian tiềm ẩn tương đối nhỏ thay vì trong không gian dữ liệu gốc nên dữ liệu mới có thể được tạo ra hiệu quả hơn.

Ngoài ra, bằng cách hoạt động trong không gian tiềm ẩn, các mô hình như vậy cũng có thể cung cấp khả năng kiểm soát tốt hơn đối với dữ liệu được tạo. Ví dụ: các biến tiềm ẩn có thể được điều khiển để thay đổi các đặc điểm nhất định của dữ liệu được tạo hoặc quá trình tạo dữ liệu có thể được hướng dẫn bằng cách áp đặt các ràng buộc đối với các biến tiềm ẩn.

Sử dụng âm thanh ổn định và hiển thị trường hợp

"Cộng đồng mở AIGC" đã dùng thử phiên bản Stable Audio miễn phí. Phương thức sử dụng tương tự như ChatGPT. Chỉ cần nhập lời nhắc văn bản. Nội dung nhắc nhở bao gồm bốn loại: chi tiết, tâm lý, nhạc cụ và nhịp điệu.

Cần lưu ý rằng nếu muốn bản nhạc được tạo ra tinh tế, nhịp nhàng và nhịp nhàng hơn thì văn bản đầu vào cũng cần phải chi tiết hơn. Nói cách khác, bạn nhập càng nhiều văn bản nhắc nhở thì hiệu ứng được tạo ra sẽ càng tốt.

Giao diện người dùng âm thanh ổn định

Sau đây là một trường hợp trình diễn việc tạo ra âm thanh.

Trance, island, beach, sun, 4am, progressive, synth, 909, hợp âm kịch tính, điệp khúc, lạc quan, hoài cổ, năng động.

Ôm mềm mại, thoải mái, synth thấp, lung linh, gió và lá, xung quanh, yên bình, thư giãn, nước.

Pop điện tử, synth hồi âm lớn, máy đánh trống, không khí, tâm trạng, hoài cổ, thú vị, nhạc cụ pop, 100 BPM.

3/4, 3 nhịp, guitar, trống, tươi sáng, vui vẻ, vỗ tay

Nội dung bài viết được lấy từ trang web chính thức của Stability AI, nếu có vi phạm vui lòng liên hệ với chúng tôi để xóa.

KẾT THÚC

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)