Với sự kết hợp giữa GPT-4 và học tăng cường, tương lai của robot sẽ như thế nào?
Khi nói đến việc học, GPT-4 là một sinh viên đáng gờm. Sau khi tiêu hóa một lượng lớn dữ liệu của con người, nó đã nắm vững nhiều kiến thức khác nhau và thậm chí còn truyền cảm hứng cho nhà toán học Tao Zhexuan trong trò chuyện.
Đồng thời, nó đã trở thành một giáo viên xuất sắc, và không chỉ dạy kiến thức sách vở, mà còn dạy robot quay bút.
Robot có tên Eureka, là một nghiên cứu của Nvidia, Đại học Pennsylvania, Viện Công nghệ California và Đại học Texas ở Austin. Nghiên cứu này kết hợp kết quả của các mô hình ngôn ngữ lớn và học tăng cường: GPT-4 được sử dụng để tinh chỉnh chức năng khen thưởng và học tăng cường được sử dụng để đào tạo bộ điều khiển robot.
Với khả năng viết mã của GPT-4, Eureka có khả năng thiết kế chức năng khen thưởng tuyệt vời và phần thưởng tự tạo của nó vượt trội so với các chuyên gia của con người trong 83% nhiệm vụ. Khả năng này cho phép robot thực hiện nhiều nhiệm vụ mà trước đây không dễ thực hiện như xoay bút, mở ngăn kéo và tủ, ném bóng để bắt và rê bóng, vận hành kéo, vv... Tuy nhiên, hiện tại, tất cả điều này được thực hiện trong một môi trường ảo.
Ngoài ra, Eureka đã triển khai một loại RLHF trong ngữ cảnh mới kết hợp phản hồi ngôn ngữ tự nhiên từ các nhà khai thác con người để hướng dẫn và sắp xếp các chức năng phần thưởng. Nó có thể cung cấp cho các kỹ sư robot các chức năng phụ trợ mạnh mẽ để giúp các kỹ sư thiết kế các hành vi chuyển động phức tạp. Jim Fan, một nhà khoa học AI cao cấp tại NVIDIA và là một trong những tác giả của bài báo, đã so sánh nghiên cứu này với "Voyager trong không gian API mô phỏng vật lý".
Điều đáng nói là nghiên cứu này hoàn toàn là mã nguồn mở và địa chỉ nguồn mở như sau:
Liên kết giấy:
Liên kết dự án:
Liên kết mã:
Tổng quan về giấy
Mô hình ngôn ngữ lớn (LLM) vượt trội trong việc lập kế hoạch ngữ nghĩa cấp cao cho các tác vụ robot (như bot SayCan, RT-2 của Google), nhưng liệu chúng có thể được sử dụng để học các tác vụ hoạt động phức tạp, cấp thấp, chẳng hạn như xoay bút, hay không vẫn là một câu hỏi mở. Những nỗ lực hiện tại đòi hỏi rất nhiều chuyên môn về miền để xây dựng lời nhắc nhiệm vụ hoặc chỉ học các kỹ năng đơn giản, khác xa với tính linh hoạt ở cấp độ con người.
Robot RT-2 của Google
Mặt khác, học tăng cường (RL) đã đạt được kết quả ấn tượng về tính linh hoạt và nhiều khía cạnh khác (chẳng hạn như trình thao tác của OpenAI chơi Khối Rubik), nhưng nó đòi hỏi các nhà thiết kế con người phải xây dựng cẩn thận các chức năng phần thưởng để mã hóa chính xác và cung cấp tín hiệu học tập cho hành vi mong muốn. Vì nhiều nhiệm vụ học tăng cường trong thế giới thực chỉ cung cấp phần thưởng thưa thớt khó sử dụng cho việc học, nên việc định hình phần thưởng là cần thiết trong thực tế để cung cấp tín hiệu học tập tiến bộ. Mặc dù chức năng phần thưởng là rất quan trọng, nhưng nó nổi tiếng là khó thiết kế. Một cuộc khảo sát gần đây cho thấy 92% các nhà nghiên cứu và học viên học tăng cường được khảo sát cho biết họ đã thử và sai khi thiết kế phần thưởng, và 89% cho biết họ thiết kế phần thưởng không tối ưu và sẽ dẫn đến hành vi bất ngờ.
Cho rằng thiết kế phần thưởng rất quan trọng, chúng tôi không thể không hỏi, liệu có thể phát triển một thuật toán lập trình phần thưởng phổ quát bằng cách sử dụng các LLM mã hóa hiện đại như GPT-4 không? Các LLM này vượt trội trong mã hóa, tạo zero-shot và học tập trong ngữ cảnh, và đã cải thiện đáng kể hiệu suất của các tác nhân lập trình. Lý tưởng nhất là thuật toán thiết kế phần thưởng này phải có khả năng tạo phần thưởng ở cấp độ con người có thể mở rộng quy mô cho một loạt các nhiệm vụ, tự động hóa các quy trình thử và sai tẻ nhạt mà không cần sự giám sát của con người và tương thích với sự giám sát của con người để đảm bảo an toàn và nhất quán.
Bài báo này đề xuất một thuật toán thiết kế phần thưởng dựa trên LLM, EUREKA (Evolution-driven Universal REward Kit for Agent). Thuật toán đạt được những điều sau:
Hiệu suất của thiết kế phần thưởng đạt đến cấp độ con người trong 29 môi trường RL nguồn mở khác nhau, bao gồm 10 dạng robot khác nhau (bốn chân, quadcopter, hai chân, thao tác và một số tay khéo léo, xem Hình 1). Không có bất kỳ lời nhắc hoặc mẫu phần thưởng cụ thể nào cho nhiệm vụ, phần thưởng tự tạo của EUREKA vượt trội so với các chuyên gia con người trong 83% nhiệm vụ và đạt được mức cải thiện chuẩn hóa trung bình là 52%.
2. Giải quyết các nhiệm vụ vận hành khéo léo không thể đạt được thông qua kỹ thuật khen thưởng thủ công trước đây. Lấy ví dụ như vấn đề xoay bút, trong đó một bàn tay chỉ có năm ngón tay cần nhanh chóng xoay bút theo cấu hình xoay được đặt trước và xoay càng nhiều chu kỳ càng tốt. Bằng cách kết hợp EUREKA với các môn học, lần đầu tiên các nhà nghiên cứu đã chứng minh hoạt động của một cây bút nhanh chóng bật "Bàn tay bóng" được nhân hóa mô phỏng (xem dưới cùng của Hình 1).
Bài viết này cung cấp một phương pháp học ngữ cảnh không có độ dốc mới để học tăng cường dựa trên phản hồi của con người (RLHF), có thể tạo ra các chức năng khen thưởng hiệu quả hơn và phù hợp với con người dựa trên các hình thức đầu vào khác nhau của con người. Bài báo cho thấy EUREKA có thể hưởng lợi và cải thiện các chức năng khen thưởng hiện có của con người. Tương tự, các nhà nghiên cứu đã chứng minh khả năng của EUREKA trong việc sử dụng phản hồi văn bản của con người để hỗ trợ thiết kế các chức năng khen thưởng, giúp nắm bắt các sở thích tinh tế của con người.
Không giống như công việc L2R trước đây sử dụng thiết kế phần thưởng hỗ trợ LLM, EUREKA không có lời nhắc cụ thể về nhiệm vụ, mẫu phần thưởng và một số ví dụ. Trong thử nghiệm, EUREKA hoạt động tốt hơn đáng kể so với L2R do khả năng tạo và tinh chỉnh các chương trình phần thưởng biểu cảm, dạng tự do.
Tính linh hoạt của EUREKA là do ba lựa chọn thiết kế thuật toán chính: bối cảnh như bối cảnh, tìm kiếm tiến hóa và phản ánh phần thưởng.
Đầu tiên, bằng cách sử dụng mã nguồn môi trường làm ngữ cảnh, EUREKA có thể tạo ra các hàm phần thưởng thực thi từ các mẫu không trong LLM mã hóa xương sống (GPT-4). EUREKA sau đó cải thiện đáng kể chất lượng phần thưởng bằng cách thực hiện các tìm kiếm tiến hóa, lặp đi lặp lại đề xuất các lô ứng cử viên phần thưởng và tinh chỉnh các phần thưởng hứa hẹn nhất trong cửa sổ ngữ cảnh LLM. Sự cải thiện trong ngữ cảnh này đạt được thông qua phản ánh phần thưởng, đây là bản tóm tắt văn bản chất lượng phần thưởng dựa trên số liệu thống kê đào tạo chiến lược cho phép chỉnh sửa phần thưởng tự động và có mục tiêu.
HÌNH 3 CHO THẤY MỘT VÍ DỤ VỀ PHẦN THƯỞNG KHÔNG MẪU EUREKA VÀ NHỮNG CẢI TIẾN ĐƯỢC TÍCH LŨY TRONG QUÁ TRÌNH TỐI ƯU HÓA. Để đảm bảo rằng EUREKA có thể mở rộng quy mô tìm kiếm phần thưởng của mình đến tiềm năng tối đa, EUREKA sử dụng phương pháp học tăng cường phân tán được GPU tăng tốc trên IsaacGym để đánh giá phần thưởng trung gian, cung cấp tối đa ba đơn đặt hàng cải thiện tốc độ học tập chính sách, biến EUREKA thành một thuật toán rộng có quy mô tự nhiên khi số lượng tính toán tăng lên.
Điều này được thể hiện trong Hình 2. Các nhà nghiên cứu cam kết mở nguồn tất cả các mẹo, môi trường và các chức năng phần thưởng được tạo ra để tạo điều kiện nghiên cứu sâu hơn về thiết kế phần thưởng dựa trên LLM.
Giới thiệu về phương pháp
EUREKA có thể viết thuật toán phần thưởng một cách tự chủ, cách nó được triển khai, chúng ta hãy xem xét nó tiếp theo.
EUREKA bao gồm ba thành phần thuật toán: 1) sử dụng môi trường làm bối cảnh, do đó hỗ trợ tạo ra các phần thưởng thực thi bằng không; 2) tìm kiếm tiến hóa, đề xuất lặp đi lặp lại và tinh chỉnh các ứng cử viên khen thưởng; 3) Phản ánh khen thưởng và hỗ trợ cải thiện phần thưởng chi tiết.
Môi trường làm bối cảnh
Bài viết này khuyên bạn nên cung cấp mã môi trường gốc trực tiếp làm ngữ cảnh. Chỉ với các hướng dẫn tối thiểu, EUREKA có thể tạo ra phần thưởng trong các môi trường khác nhau mà không cần mẫu. Một ví dụ về đầu ra EUREKA được thể hiện trong Hình 3. EUREKA kết hợp một cách chuyên nghiệp các biến quan sát hiện có (ví dụ: vị trí đầu ngón tay) trong mã môi trường được cung cấp và tạo ra mã phần thưởng hợp lệ - tất cả đều không có bất kỳ mẫu phần thưởng hoặc kỹ thuật nhắc nhở nào dành riêng cho môi trường.
Tuy nhiên, trong lần thử đầu tiên, phần thưởng kết quả có thể không phải lúc nào cũng có thể thực thi được và ngay cả khi có, nó có thể không tối ưu. Điều này đặt ra câu hỏi làm thế nào để khắc phục hiệu quả sự kém tối ưu của việc tạo ra phần thưởng mẫu đơn?
Tìm kiếm tiến hóa
Tiếp theo, bài báo mô tả cách tìm kiếm tiến hóa giải quyết các vấn đề của các giải pháp dưới mức tối ưu được đề cập ở trên. Chúng được hoàn thiện theo cách mà trong mỗi lần lặp, EUREKA lấy mẫu một số đầu ra độc lập của LLM (dòng 5 trong thuật toán 1). Vì mỗi lần lặp là độc lập và đồng nhất, xác suất sai sót trong tất cả các hàm phần thưởng trong lần lặp giảm theo cấp số nhân khi kích thước mẫu tăng lên.
Phản ánh phần thưởng
Để cung cấp phân tích phần thưởng phức tạp và có mục tiêu hơn, bài viết này đề xuất xây dựng phản hồi tự động để tóm tắt các động lực đào tạo chính sách trong văn bản. Cụ thể, xem xét rằng hàm thưởng EUREKA yêu cầu các thành phần riêng lẻ trong chương trình phần thưởng (chẳng hạn như thành phần phần thưởng trong Hình 3), bài viết này theo dõi các giá trị vô hướng của tất cả các thành phần phần thưởng tại các điểm kiểm tra chính sách trung gian trong suốt quá trình đào tạo.
Xây dựng quy trình phản ánh phần thưởng này rất đơn giản, nhưng nó rất quan trọng vì sự phụ thuộc của thuật toán tối ưu hóa phần thưởng. Đó là, việc hàm phần thưởng có hợp lệ hay không bị ảnh hưởng bởi sự lựa chọn cụ thể của thuật toán RL và cùng một phần thưởng có thể hoạt động rất khác nhau ngay cả trong cùng một trình tối ưu hóa cho một sự khác biệt siêu tham số nhất định. Bằng cách trình bày chi tiết cách thuật toán RL tối ưu hóa các thành phần phần thưởng riêng lẻ, phản ánh phần thưởng cho phép EUREKA tạo ra các chỉnh sửa phần thưởng được nhắm mục tiêu nhiều hơn và tổng hợp các chức năng phần thưởng để hoạt động tốt hơn với thuật toán RL cố định.
Thí nghiệm
Phần thử nghiệm cung cấp một đánh giá toàn diện về Eureka, bao gồm khả năng tạo ra các chức năng khen thưởng, khả năng giải quyết các nhiệm vụ mới và khả năng tích hợp các đầu vào khác nhau của con người.
Môi trường thử nghiệm bao gồm 10 robot khác nhau và 29 nhiệm vụ, 29 trong số đó được thực hiện bởi trình mô phỏng IsaacGym. Thí nghiệm sử dụng 9 môi trường nguyên thủy từ IsaacGym (Isaac), bao gồm nhiều dạng robot khác nhau từ bốn chân, hai chân, quadcopter, thao tác đến robot khéo tay. Ngoài ra, bài viết này đảm bảo độ sâu của bài đánh giá bằng cách kết hợp 20 nhiệm vụ từ điểm chuẩn Dexterity.
Eureka có thể tạo ra một chức năng phần thưởng cấp siêu phàm. Trong số 29 nhiệm vụ, chức năng khen thưởng do Eureka đưa ra thực hiện tốt hơn phần thưởng do chuyên gia viết trên 83% nhiệm vụ, cải thiện trung bình 52%. Đặc biệt, Eureka đạt được lợi ích lớn hơn trong môi trường điểm chuẩn Dexterity chiều cao.
Eureka có thể phát triển tìm kiếm phần thưởng để phần thưởng được cải thiện theo thời gian. Eureka dần dần tạo ra phần thưởng tốt hơn bằng cách kết hợp tìm kiếm phần thưởng quy mô lớn và phản hồi phản ánh phần thưởng chi tiết, cuối cùng vượt qua cấp độ của con người.
Eureka cũng có thể tạo ra phần thưởng mới lạ. Bài viết này đánh giá tính mới của phần thưởng Eureka bằng cách tính toán mối tương quan giữa phần thưởng Eureka và phần thưởng của con người trên tất cả các nhiệm vụ của Isaac. Như thể hiện trong hình, Eureka chủ yếu tạo ra các chức năng phần thưởng tương quan yếu, vượt trội hơn các chức năng khen thưởng của con người. Ngoài ra, bài báo cũng quan sát thấy rằng nhiệm vụ càng khó thì phần thưởng Eureka càng ít liên quan. Trong một số trường hợp, phần thưởng Eureka thậm chí có tương quan nghịch với phần thưởng của con người, nhưng hoạt động tốt hơn đáng kể so với phần thưởng của con người.
想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) Hướng dẫn Eureka tạo một hàm phần thưởng chuyển hướng bút đến cấu hình mục tiêu ngẫu nhiên, sau đó (2) tinh chỉnh chiến lược được đào tạo trước này với Eureka Rewards để đạt được cấu hình xoay chuỗi bút mong muốn. Như được hiển thị, Eureka tinh chỉnh nhanh chóng thích nghi với chiến lược, quay thành công nhiều chu kỳ liên tiếp. Ngược lại, cả các chiến lược được đào tạo trước và học từ đầu đều không thể hoàn thành một vòng quay trong một chu kỳ duy nhất.
Bài viết này cũng xem xét liệu bắt đầu với việc khởi tạo hàm phần thưởng của con người có lợi cho Eureka hay không. Như được hiển thị, Eureka cải thiện và hưởng lợi từ phần thưởng của con người, bất kể chất lượng phần thưởng của con người.
Eureka cũng triển khai RLHF, có thể sửa đổi phần thưởng dựa trên phản hồi của con người để hướng dẫn các đại lý từng bước thông qua hành vi an toàn hơn và giống con người hơn. Ví dụ cho thấy cách Eureka dạy một robot hình người chạy thẳng đứng với một số phản hồi của con người thay thế phản xạ phần thưởng tự động trước đó.
* Robot hình người học dáng chạy với Eureka *
Để biết thêm thông tin, vui lòng tham khảo bài báo gốc.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Với GPT-4, robot đã học cách xoay quả bằng bút và đĩa
** Trái tim máy gốc **
Dựng phim: Zhang Qian, Chen Ping
Với sự kết hợp giữa GPT-4 và học tăng cường, tương lai của robot sẽ như thế nào?
Khi nói đến việc học, GPT-4 là một sinh viên đáng gờm. Sau khi tiêu hóa một lượng lớn dữ liệu của con người, nó đã nắm vững nhiều kiến thức khác nhau và thậm chí còn truyền cảm hứng cho nhà toán học Tao Zhexuan trong trò chuyện.
Đồng thời, nó đã trở thành một giáo viên xuất sắc, và không chỉ dạy kiến thức sách vở, mà còn dạy robot quay bút.
Với khả năng viết mã của GPT-4, Eureka có khả năng thiết kế chức năng khen thưởng tuyệt vời và phần thưởng tự tạo của nó vượt trội so với các chuyên gia của con người trong 83% nhiệm vụ. Khả năng này cho phép robot thực hiện nhiều nhiệm vụ mà trước đây không dễ thực hiện như xoay bút, mở ngăn kéo và tủ, ném bóng để bắt và rê bóng, vận hành kéo, vv... Tuy nhiên, hiện tại, tất cả điều này được thực hiện trong một môi trường ảo.
Liên kết dự án:
Liên kết mã:
Tổng quan về giấy
Mô hình ngôn ngữ lớn (LLM) vượt trội trong việc lập kế hoạch ngữ nghĩa cấp cao cho các tác vụ robot (như bot SayCan, RT-2 của Google), nhưng liệu chúng có thể được sử dụng để học các tác vụ hoạt động phức tạp, cấp thấp, chẳng hạn như xoay bút, hay không vẫn là một câu hỏi mở. Những nỗ lực hiện tại đòi hỏi rất nhiều chuyên môn về miền để xây dựng lời nhắc nhiệm vụ hoặc chỉ học các kỹ năng đơn giản, khác xa với tính linh hoạt ở cấp độ con người.
Mặt khác, học tăng cường (RL) đã đạt được kết quả ấn tượng về tính linh hoạt và nhiều khía cạnh khác (chẳng hạn như trình thao tác của OpenAI chơi Khối Rubik), nhưng nó đòi hỏi các nhà thiết kế con người phải xây dựng cẩn thận các chức năng phần thưởng để mã hóa chính xác và cung cấp tín hiệu học tập cho hành vi mong muốn. Vì nhiều nhiệm vụ học tăng cường trong thế giới thực chỉ cung cấp phần thưởng thưa thớt khó sử dụng cho việc học, nên việc định hình phần thưởng là cần thiết trong thực tế để cung cấp tín hiệu học tập tiến bộ. Mặc dù chức năng phần thưởng là rất quan trọng, nhưng nó nổi tiếng là khó thiết kế. Một cuộc khảo sát gần đây cho thấy 92% các nhà nghiên cứu và học viên học tăng cường được khảo sát cho biết họ đã thử và sai khi thiết kế phần thưởng, và 89% cho biết họ thiết kế phần thưởng không tối ưu và sẽ dẫn đến hành vi bất ngờ.
Cho rằng thiết kế phần thưởng rất quan trọng, chúng tôi không thể không hỏi, liệu có thể phát triển một thuật toán lập trình phần thưởng phổ quát bằng cách sử dụng các LLM mã hóa hiện đại như GPT-4 không? Các LLM này vượt trội trong mã hóa, tạo zero-shot và học tập trong ngữ cảnh, và đã cải thiện đáng kể hiệu suất của các tác nhân lập trình. Lý tưởng nhất là thuật toán thiết kế phần thưởng này phải có khả năng tạo phần thưởng ở cấp độ con người có thể mở rộng quy mô cho một loạt các nhiệm vụ, tự động hóa các quy trình thử và sai tẻ nhạt mà không cần sự giám sát của con người và tương thích với sự giám sát của con người để đảm bảo an toàn và nhất quán.
Bài báo này đề xuất một thuật toán thiết kế phần thưởng dựa trên LLM, EUREKA (Evolution-driven Universal REward Kit for Agent). Thuật toán đạt được những điều sau:
Hiệu suất của thiết kế phần thưởng đạt đến cấp độ con người trong 29 môi trường RL nguồn mở khác nhau, bao gồm 10 dạng robot khác nhau (bốn chân, quadcopter, hai chân, thao tác và một số tay khéo léo, xem Hình 1). Không có bất kỳ lời nhắc hoặc mẫu phần thưởng cụ thể nào cho nhiệm vụ, phần thưởng tự tạo của EUREKA vượt trội so với các chuyên gia con người trong 83% nhiệm vụ và đạt được mức cải thiện chuẩn hóa trung bình là 52%.
Không giống như công việc L2R trước đây sử dụng thiết kế phần thưởng hỗ trợ LLM, EUREKA không có lời nhắc cụ thể về nhiệm vụ, mẫu phần thưởng và một số ví dụ. Trong thử nghiệm, EUREKA hoạt động tốt hơn đáng kể so với L2R do khả năng tạo và tinh chỉnh các chương trình phần thưởng biểu cảm, dạng tự do.
Tính linh hoạt của EUREKA là do ba lựa chọn thiết kế thuật toán chính: bối cảnh như bối cảnh, tìm kiếm tiến hóa và phản ánh phần thưởng.
Đầu tiên, bằng cách sử dụng mã nguồn môi trường làm ngữ cảnh, EUREKA có thể tạo ra các hàm phần thưởng thực thi từ các mẫu không trong LLM mã hóa xương sống (GPT-4). EUREKA sau đó cải thiện đáng kể chất lượng phần thưởng bằng cách thực hiện các tìm kiếm tiến hóa, lặp đi lặp lại đề xuất các lô ứng cử viên phần thưởng và tinh chỉnh các phần thưởng hứa hẹn nhất trong cửa sổ ngữ cảnh LLM. Sự cải thiện trong ngữ cảnh này đạt được thông qua phản ánh phần thưởng, đây là bản tóm tắt văn bản chất lượng phần thưởng dựa trên số liệu thống kê đào tạo chiến lược cho phép chỉnh sửa phần thưởng tự động và có mục tiêu.
HÌNH 3 CHO THẤY MỘT VÍ DỤ VỀ PHẦN THƯỞNG KHÔNG MẪU EUREKA VÀ NHỮNG CẢI TIẾN ĐƯỢC TÍCH LŨY TRONG QUÁ TRÌNH TỐI ƯU HÓA. Để đảm bảo rằng EUREKA có thể mở rộng quy mô tìm kiếm phần thưởng của mình đến tiềm năng tối đa, EUREKA sử dụng phương pháp học tăng cường phân tán được GPU tăng tốc trên IsaacGym để đánh giá phần thưởng trung gian, cung cấp tối đa ba đơn đặt hàng cải thiện tốc độ học tập chính sách, biến EUREKA thành một thuật toán rộng có quy mô tự nhiên khi số lượng tính toán tăng lên.
EUREKA có thể viết thuật toán phần thưởng một cách tự chủ, cách nó được triển khai, chúng ta hãy xem xét nó tiếp theo.
EUREKA bao gồm ba thành phần thuật toán: 1) sử dụng môi trường làm bối cảnh, do đó hỗ trợ tạo ra các phần thưởng thực thi bằng không; 2) tìm kiếm tiến hóa, đề xuất lặp đi lặp lại và tinh chỉnh các ứng cử viên khen thưởng; 3) Phản ánh khen thưởng và hỗ trợ cải thiện phần thưởng chi tiết.
Môi trường làm bối cảnh
Bài viết này khuyên bạn nên cung cấp mã môi trường gốc trực tiếp làm ngữ cảnh. Chỉ với các hướng dẫn tối thiểu, EUREKA có thể tạo ra phần thưởng trong các môi trường khác nhau mà không cần mẫu. Một ví dụ về đầu ra EUREKA được thể hiện trong Hình 3. EUREKA kết hợp một cách chuyên nghiệp các biến quan sát hiện có (ví dụ: vị trí đầu ngón tay) trong mã môi trường được cung cấp và tạo ra mã phần thưởng hợp lệ - tất cả đều không có bất kỳ mẫu phần thưởng hoặc kỹ thuật nhắc nhở nào dành riêng cho môi trường.
Tuy nhiên, trong lần thử đầu tiên, phần thưởng kết quả có thể không phải lúc nào cũng có thể thực thi được và ngay cả khi có, nó có thể không tối ưu. Điều này đặt ra câu hỏi làm thế nào để khắc phục hiệu quả sự kém tối ưu của việc tạo ra phần thưởng mẫu đơn?
Tiếp theo, bài báo mô tả cách tìm kiếm tiến hóa giải quyết các vấn đề của các giải pháp dưới mức tối ưu được đề cập ở trên. Chúng được hoàn thiện theo cách mà trong mỗi lần lặp, EUREKA lấy mẫu một số đầu ra độc lập của LLM (dòng 5 trong thuật toán 1). Vì mỗi lần lặp là độc lập và đồng nhất, xác suất sai sót trong tất cả các hàm phần thưởng trong lần lặp giảm theo cấp số nhân khi kích thước mẫu tăng lên.
Để cung cấp phân tích phần thưởng phức tạp và có mục tiêu hơn, bài viết này đề xuất xây dựng phản hồi tự động để tóm tắt các động lực đào tạo chính sách trong văn bản. Cụ thể, xem xét rằng hàm thưởng EUREKA yêu cầu các thành phần riêng lẻ trong chương trình phần thưởng (chẳng hạn như thành phần phần thưởng trong Hình 3), bài viết này theo dõi các giá trị vô hướng của tất cả các thành phần phần thưởng tại các điểm kiểm tra chính sách trung gian trong suốt quá trình đào tạo.
Xây dựng quy trình phản ánh phần thưởng này rất đơn giản, nhưng nó rất quan trọng vì sự phụ thuộc của thuật toán tối ưu hóa phần thưởng. Đó là, việc hàm phần thưởng có hợp lệ hay không bị ảnh hưởng bởi sự lựa chọn cụ thể của thuật toán RL và cùng một phần thưởng có thể hoạt động rất khác nhau ngay cả trong cùng một trình tối ưu hóa cho một sự khác biệt siêu tham số nhất định. Bằng cách trình bày chi tiết cách thuật toán RL tối ưu hóa các thành phần phần thưởng riêng lẻ, phản ánh phần thưởng cho phép EUREKA tạo ra các chỉnh sửa phần thưởng được nhắm mục tiêu nhiều hơn và tổng hợp các chức năng phần thưởng để hoạt động tốt hơn với thuật toán RL cố định.
Phần thử nghiệm cung cấp một đánh giá toàn diện về Eureka, bao gồm khả năng tạo ra các chức năng khen thưởng, khả năng giải quyết các nhiệm vụ mới và khả năng tích hợp các đầu vào khác nhau của con người.
Môi trường thử nghiệm bao gồm 10 robot khác nhau và 29 nhiệm vụ, 29 trong số đó được thực hiện bởi trình mô phỏng IsaacGym. Thí nghiệm sử dụng 9 môi trường nguyên thủy từ IsaacGym (Isaac), bao gồm nhiều dạng robot khác nhau từ bốn chân, hai chân, quadcopter, thao tác đến robot khéo tay. Ngoài ra, bài viết này đảm bảo độ sâu của bài đánh giá bằng cách kết hợp 20 nhiệm vụ từ điểm chuẩn Dexterity.
Để biết thêm thông tin, vui lòng tham khảo bài báo gốc.