Ở giai đoạn này, các tác nhân AI dường như là toàn năng, chơi trò chơi và bắt chước con người để hoàn thành các nhiệm vụ khác nhau và các tác nhân này về cơ bản được đào tạo trong môi trường phức tạp. Không chỉ vậy, khi nhiệm vụ học tập trở nên phức tạp hơn, độ phức tạp của môi trường mô phỏng cũng tăng lên, do đó làm tăng chi phí của môi trường mô phỏng.
Ngay cả đối với các công ty và tổ chức có tài nguyên ở quy mô siêu máy tính, việc đào tạo một tác nhân có thể sử dụng được có thể mất nhiều ngày để hoàn thành.
Điều này cản trở sự tiến bộ trong lĩnh vực này và làm giảm tính thực tế của việc đào tạo các tác nhân AI tiên tiến. Để giải quyết chi phí mô phỏng môi trường cao, những nỗ lực nghiên cứu gần đây đã thiết kế lại cơ bản các trình mô phỏng để đạt được hiệu quả cao hơn khi đào tạo các đại lý. Các tác phẩm này chia sẻ ý tưởng về mô phỏng hàng loạt, đó là việc thực thi đồng thời nhiều môi trường độc lập (các trường hợp đào tạo) trong một công cụ giả lập duy nhất.
Trong bài báo này, các nhà nghiên cứu từ Đại học Stanford và các tổ chức khác,** họ đã đề xuất một công cụ trò chơi học tăng cường có tên Madrona, có thể chạy song song hàng nghìn môi trường trên một GPU duy nhất, giúp giảm thời gian đào tạo tác nhân từ hàng giờ xuống còn hàng phút* *.
* Địa chỉ giấy tờ:
Trang chủ báo giấy:
Cụ thể, Madrona là một công cụ trò chơi nghiên cứu được thiết kế để tạo môi trường học tập có thể chạy đồng thời hàng nghìn phiên bản môi trường trên một GPU duy nhất và triển khai với thông lượng rất cao (hàng triệu bước tổng hợp mỗi giây). Mục tiêu của Madrona là giúp các nhà nghiên cứu dễ dàng tạo ra các môi trường hiệu suất cao mới cho nhiều nhiệm vụ khác nhau, từ đó đẩy nhanh quá trình đào tạo các tác nhân AI theo cấp độ lớn.
Madrona có các tính năng sau:
Mô phỏng hàng loạt GPU: hàng nghìn môi trường có thể chạy trên một GPU;
Kiến trúc Hệ thống Thành phần Thực thể (ECS);
Dễ dàng tương tác với PyTorch.
Ví dụ môi trường Madrona:
Như chúng tôi đã đề cập ở trên, nghiên cứu sử dụng nguyên tắc thiết kế ECS, quy trình cụ thể như sau:
Bằng cách sử dụng khung Madrona, các nhà nghiên cứu đã triển khai nhiều môi trường học tập, cho thấy mức tăng tốc từ hai đến ba bậc trên GPU so với đường cơ sở CPU nguồn mở và tăng tốc so với đường cơ sở mạnh chạy trên CPU 32 luồng. 5-33 lần . Ngoài ra, nghiên cứu cũng triển khai môi trường "trốn tìm 3D" của OpenAI trong khuôn khổ và mỗi bước mô phỏng đều thực hiện vật lý cơ thể cứng nhắc và dò tia, đạt tốc độ hơn 1,9 triệu bước mỗi giây trên một GPU.
Một trong những tác giả, Kayvon Fatahalian, phó giáo sư khoa học máy tính tại Đại học Stanford, nói rằng trên Over cook, một trò chơi nấu ăn cho nhiều đặc vụ cùng chơi, với sự trợ giúp của công cụ trò chơi Madrona, thời gian để mô phỏng 8 triệu bước trong môi trường là rút ngắn từ một giờ xuống còn ba giây.
Hiện tại, Madrona yêu cầu C++ để viết logic trò chơi. Madrona chỉ cung cấp hỗ trợ hiển thị trực quan và mặc dù nó có thể mô phỏng đồng thời hàng nghìn môi trường, nhưng trình hiển thị chỉ có thể xem một môi trường tại một thời điểm.
**Các mô phỏng môi trường dựa trên Madrona là gì? **
Bản thân Madrona không phải là một trình giả lập môi trường RL, mà là một công cụ hoặc khuôn khổ trò chơi. Nó giúp các nhà phát triển triển khai trình mô phỏng môi trường mới của riêng họ dễ dàng hơn, đạt được hiệu suất cao bằng cách chạy mô phỏng hàng loạt trên GPU và kết hợp chặt chẽ đầu ra mô phỏng với mã học tập.
Dưới đây là một số mô phỏng môi trường dựa trên Madrona.
** Phòng thoát Madrona **
Madrona Escape Room là một môi trường 3D đơn giản sử dụng API ECS của Madrona cũng như các khả năng kết xuất và vật lý. Trong nhiệm vụ đơn giản này, đặc vụ phải học cách nhấn một nút màu đỏ và đẩy các hộp có màu khác để di chuyển qua một loạt phòng.
AI quá chín
Môi trường AI đã nấu chín, một môi trường học tập đa tác nhân dựa trên trò chơi điện tử cộng tác (trò chơi nấu ăn cộng tác nhiều người chơi), ở đây được viết lại trong bản viết lại Madrona thông lượng cao.
Nguồn:
Trốn tìm
Vào tháng 9 năm 2019, đặc vụ OpenAI đã tổ chức một trận chiến tấn công và phòng thủ trốn tìm, tạo ra các thói quen và phản thói quen của riêng nó. Môi trường "Trốn tìm" được sao chép ở đây bằng Madrona.
Hanabi
Hanabi là một triển khai của trò chơi bài Hanabi dựa trên công cụ trò chơi Madrona và Dec-POMDP hợp tác. Môi trường dựa trên môi trường Hanabi của DeepMind và hỗ trợ một phần triển khai MAPPO.
Cột sắt
Cartpole là một môi trường đào tạo RL điển hình với tính năng động tương tự như việc triển khai phòng tập thể dục được xây dựng dựa trên công cụ trò chơi Madrona.
Địa chỉ GitHub:
Trò chơi nấu ăn quá chín: đào tạo đặc vụ giỏi nhất trong một phút
Quá chín trong hàng ngàn nhà bếp: Đào tạo các đại lý hoạt động hàng đầu trong vòng chưa đầy một phút
Bidipta Sarkar, sinh viên đại học Stanford, một trong những tác giả của bài báo, đã viết một blog mô tả chi tiết quá trình đào tạo một đặc vụ để chơi trò chơi Nấu ăn quá chín. Nấu quá chín là một trò chơi nấu ăn phổ biến và cũng là một tiêu chuẩn cho nghiên cứu hợp tác đa tác nhân.
Trong nghiên cứu về RL của Sarkar, chi phí cao cho việc mô phỏng môi trường ảo luôn là trở ngại lớn trong việc đào tạo đặc vụ cho ông.
Trong trường hợp của trò chơi Nấu ăn quá chín, cần khoảng 8 triệu bước trò chơi để đào tạo một cặp tác nhân hội tụ thành chiến lược cân bằng ổn định trong cách bố trí phòng hẹp Nấu quá chín (bên dưới). Quá trình triển khai mã nguồn mở của Quá chín được viết bằng Python và chạy ở tốc độ 2000 bước mỗi giây trên CPU AMD 8 nhân, do đó, việc tạo ra trải nghiệm tác nhân cần thiết sẽ mất hơn 1 giờ.
Ngược lại, việc thực hiện tất cả các hoạt động khác cần thiết cho đào tạo (bao gồm suy luận chính sách cho tất cả 8 triệu bước mô phỏng, lan truyền ngược cho đào tạo chính sách) chỉ mất chưa đến 1 phút trên GPU NVIDIA A40. Rõ ràng, việc đào tạo các đặc vụ Quá chín bị giới hạn bởi tốc độ của trình mô phỏng môi trường Quá chín.
Coi Over cook là một môi trường đơn giản, có vẻ ngớ ngẩn khi phải vật lộn với tốc độ mô phỏng. Vì vậy, Sarkar đã thử xem liệu có thể cải thiện tốc độ mô phỏng môi trường Quá chín hay không, vốn yêu cầu sử dụng công cụ trò chơi Madrona.
Bằng cách sử dụng công cụ trò chơi Madrona, Sarkar nhận được một sự thay thế tăng tốc GPU plug-and-play của triển khai Python quá chín ban đầu. Khi mô phỏng song song 1000 môi trường Quá chín, quá trình triển khai được GPU tăng tốc có thể tạo ra trải nghiệm 3,5 triệu bước mỗi giây trên GPU A40.
Do đó, thời gian mô phỏng 8 triệu bước môi trường đã giảm từ 1 giờ xuống còn 3 giây, cho phép đào tạo một chính sách chỉ trong 1 phút bằng cách sử dụng GPU A40.
Tốc độ của trình mô phỏng mở ra những khả năng mới để thực hiện các thao tác quét siêu tham số mở rộng trong Quá chín, đặc biệt là khả năng huấn luyện nhiều chính sách trong khoảng thời gian trước đây cần thiết để huấn luyện một chính sách.
Cuối cùng, Sarkar nhận ra rằng việc chuyển Quá chín sang Madrona là một quá trình mượt mà hơn nhiều so với các lựa chọn thay thế hiện có để tạo môi trường tăng tốc GPU như PyTorch, Taichi Lang, Direct CUDA C++.
Chi tiết blog:
Liên kết tham khảo:
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Chỉ mất 3 giây để một GPU duy nhất chạy hàng nghìn môi trường và 8 triệu bước mô phỏng Stanford đã phát triển một công cụ trò chơi siêu hạng
Ở giai đoạn này, các tác nhân AI dường như là toàn năng, chơi trò chơi và bắt chước con người để hoàn thành các nhiệm vụ khác nhau và các tác nhân này về cơ bản được đào tạo trong môi trường phức tạp. Không chỉ vậy, khi nhiệm vụ học tập trở nên phức tạp hơn, độ phức tạp của môi trường mô phỏng cũng tăng lên, do đó làm tăng chi phí của môi trường mô phỏng.
Ngay cả đối với các công ty và tổ chức có tài nguyên ở quy mô siêu máy tính, việc đào tạo một tác nhân có thể sử dụng được có thể mất nhiều ngày để hoàn thành.
Điều này cản trở sự tiến bộ trong lĩnh vực này và làm giảm tính thực tế của việc đào tạo các tác nhân AI tiên tiến. Để giải quyết chi phí mô phỏng môi trường cao, những nỗ lực nghiên cứu gần đây đã thiết kế lại cơ bản các trình mô phỏng để đạt được hiệu quả cao hơn khi đào tạo các đại lý. Các tác phẩm này chia sẻ ý tưởng về mô phỏng hàng loạt, đó là việc thực thi đồng thời nhiều môi trường độc lập (các trường hợp đào tạo) trong một công cụ giả lập duy nhất.
Trong bài báo này, các nhà nghiên cứu từ Đại học Stanford và các tổ chức khác,** họ đã đề xuất một công cụ trò chơi học tăng cường có tên Madrona, có thể chạy song song hàng nghìn môi trường trên một GPU duy nhất, giúp giảm thời gian đào tạo tác nhân từ hàng giờ xuống còn hàng phút* *.
Cụ thể, Madrona là một công cụ trò chơi nghiên cứu được thiết kế để tạo môi trường học tập có thể chạy đồng thời hàng nghìn phiên bản môi trường trên một GPU duy nhất và triển khai với thông lượng rất cao (hàng triệu bước tổng hợp mỗi giây). Mục tiêu của Madrona là giúp các nhà nghiên cứu dễ dàng tạo ra các môi trường hiệu suất cao mới cho nhiều nhiệm vụ khác nhau, từ đó đẩy nhanh quá trình đào tạo các tác nhân AI theo cấp độ lớn.
Madrona có các tính năng sau:
Một trong những tác giả, Kayvon Fatahalian, phó giáo sư khoa học máy tính tại Đại học Stanford, nói rằng trên Over cook, một trò chơi nấu ăn cho nhiều đặc vụ cùng chơi, với sự trợ giúp của công cụ trò chơi Madrona, thời gian để mô phỏng 8 triệu bước trong môi trường là rút ngắn từ một giờ xuống còn ba giây.
**Các mô phỏng môi trường dựa trên Madrona là gì? **
Bản thân Madrona không phải là một trình giả lập môi trường RL, mà là một công cụ hoặc khuôn khổ trò chơi. Nó giúp các nhà phát triển triển khai trình mô phỏng môi trường mới của riêng họ dễ dàng hơn, đạt được hiệu suất cao bằng cách chạy mô phỏng hàng loạt trên GPU và kết hợp chặt chẽ đầu ra mô phỏng với mã học tập.
Dưới đây là một số mô phỏng môi trường dựa trên Madrona.
** Phòng thoát Madrona **
Madrona Escape Room là một môi trường 3D đơn giản sử dụng API ECS của Madrona cũng như các khả năng kết xuất và vật lý. Trong nhiệm vụ đơn giản này, đặc vụ phải học cách nhấn một nút màu đỏ và đẩy các hộp có màu khác để di chuyển qua một loạt phòng.
Môi trường AI đã nấu chín, một môi trường học tập đa tác nhân dựa trên trò chơi điện tử cộng tác (trò chơi nấu ăn cộng tác nhiều người chơi), ở đây được viết lại trong bản viết lại Madrona thông lượng cao.
Trốn tìm
Vào tháng 9 năm 2019, đặc vụ OpenAI đã tổ chức một trận chiến tấn công và phòng thủ trốn tìm, tạo ra các thói quen và phản thói quen của riêng nó. Môi trường "Trốn tìm" được sao chép ở đây bằng Madrona.
Hanabi là một triển khai của trò chơi bài Hanabi dựa trên công cụ trò chơi Madrona và Dec-POMDP hợp tác. Môi trường dựa trên môi trường Hanabi của DeepMind và hỗ trợ một phần triển khai MAPPO.
Cartpole là một môi trường đào tạo RL điển hình với tính năng động tương tự như việc triển khai phòng tập thể dục được xây dựng dựa trên công cụ trò chơi Madrona.
Địa chỉ GitHub:
Trò chơi nấu ăn quá chín: đào tạo đặc vụ giỏi nhất trong một phút
Quá chín trong hàng ngàn nhà bếp: Đào tạo các đại lý hoạt động hàng đầu trong vòng chưa đầy một phút
Bidipta Sarkar, sinh viên đại học Stanford, một trong những tác giả của bài báo, đã viết một blog mô tả chi tiết quá trình đào tạo một đặc vụ để chơi trò chơi Nấu ăn quá chín. Nấu quá chín là một trò chơi nấu ăn phổ biến và cũng là một tiêu chuẩn cho nghiên cứu hợp tác đa tác nhân.
Trong trường hợp của trò chơi Nấu ăn quá chín, cần khoảng 8 triệu bước trò chơi để đào tạo một cặp tác nhân hội tụ thành chiến lược cân bằng ổn định trong cách bố trí phòng hẹp Nấu quá chín (bên dưới). Quá trình triển khai mã nguồn mở của Quá chín được viết bằng Python và chạy ở tốc độ 2000 bước mỗi giây trên CPU AMD 8 nhân, do đó, việc tạo ra trải nghiệm tác nhân cần thiết sẽ mất hơn 1 giờ.
Coi Over cook là một môi trường đơn giản, có vẻ ngớ ngẩn khi phải vật lộn với tốc độ mô phỏng. Vì vậy, Sarkar đã thử xem liệu có thể cải thiện tốc độ mô phỏng môi trường Quá chín hay không, vốn yêu cầu sử dụng công cụ trò chơi Madrona.
Bằng cách sử dụng công cụ trò chơi Madrona, Sarkar nhận được một sự thay thế tăng tốc GPU plug-and-play của triển khai Python quá chín ban đầu. Khi mô phỏng song song 1000 môi trường Quá chín, quá trình triển khai được GPU tăng tốc có thể tạo ra trải nghiệm 3,5 triệu bước mỗi giây trên GPU A40.
Do đó, thời gian mô phỏng 8 triệu bước môi trường đã giảm từ 1 giờ xuống còn 3 giây, cho phép đào tạo một chính sách chỉ trong 1 phút bằng cách sử dụng GPU A40.
Tốc độ của trình mô phỏng mở ra những khả năng mới để thực hiện các thao tác quét siêu tham số mở rộng trong Quá chín, đặc biệt là khả năng huấn luyện nhiều chính sách trong khoảng thời gian trước đây cần thiết để huấn luyện một chính sách.
Cuối cùng, Sarkar nhận ra rằng việc chuyển Quá chín sang Madrona là một quá trình mượt mà hơn nhiều so với các lựa chọn thay thế hiện có để tạo môi trường tăng tốc GPU như PyTorch, Taichi Lang, Direct CUDA C++.
Chi tiết blog:
Liên kết tham khảo: