Theo báo cáo qubit, các học giả từ Viện nghiên cứu Microsoft Châu Á (MSRA) đã đề xuất một kiến trúc mô hình lớn mới Mạng lưu trữ (RetNet) trong bài báo "Mạng lưu trữ: Người kế vị biến thế cho các mô hình ngôn ngữ lớn", được coi là lĩnh vực của mô hình lớn Người kế nhiệm của Transformer. Dữ liệu thử nghiệm cho thấy rằng đối với các tác vụ mô hình hóa ngôn ngữ: RetNet có thể đạt được độ phức tạp tương đương với Transformer, tốc độ suy luận là 8,4 lần, mức sử dụng bộ nhớ giảm 70% và có khả năng mở rộng tốt. Và khi kích thước mô hình lớn hơn một tỷ lệ nhất định, RetNet sẽ hoạt động tốt hơn Transformer.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Theo báo cáo qubit, các học giả từ Viện nghiên cứu Microsoft Châu Á (MSRA) đã đề xuất một kiến trúc mô hình lớn mới Mạng lưu trữ (RetNet) trong bài báo "Mạng lưu trữ: Người kế vị biến thế cho các mô hình ngôn ngữ lớn", được coi là lĩnh vực của mô hình lớn Người kế nhiệm của Transformer. Dữ liệu thử nghiệm cho thấy rằng đối với các tác vụ mô hình hóa ngôn ngữ: RetNet có thể đạt được độ phức tạp tương đương với Transformer, tốc độ suy luận là 8,4 lần, mức sử dụng bộ nhớ giảm 70% và có khả năng mở rộng tốt. Và khi kích thước mô hình lớn hơn một tỷ lệ nhất định, RetNet sẽ hoạt động tốt hơn Transformer.