📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
有了GPT-4之後,機器人把轉筆、盤核桃都學會了
原創 機器之心
編輯:張倩、陳萍
GPT-4 和強化學習強強聯合,機器人的未來將是什麼樣子?
在學習方面,GPT-4 是一個厲害的學生。 在消化了大量人類數據后,它掌握了各門知識,甚至在聊天中能給數學家陶哲軒帶來啟發。
與此同時,它也成為了一名優秀的老師,而且不光是教書本知識,還能教機器人轉筆。
借助 GPT-4 寫代碼的能力,Eureka 擁有了出色的獎勵函數設計能力,它自主生成的獎勵在 83% 的任務中優於人類專家的獎勵。 這種能力可以讓機器人完成很多之前不容易完成的任務,比如轉筆、打開抽屜和櫃子、拋球接球和盤球、操作剪刀等。 不過,這一切暫時都是在虛擬環境中完成的。
項目連結:
代碼連結:
論文概覽
大型語言模型(LLM)在機器人任務的高級語義規劃方面表現出色(比如谷歌的SayCan、RT-2機器人),但它們是否可以用於學習複雜的低級操作任務,如轉筆,仍然是一個懸而未決的問題。 現有的嘗試需要大量的領域專業知識來構建任務提示或只學習簡單的技能,遠遠達不到人類水平的靈活性。
另一方面,強化學習(RL)在靈活性以及其他許多方面取得了令人印象深刻的成果(比如 OpenAI 會玩魔方的機械手),但需要人類設計師仔細構建獎勵函數,準確地編纂並提供所需行為的學習信號。 由於許多現實世界的強化學習任務只提供難以用於學習的稀疏獎勵,因此在實踐中需要獎勵塑造(reward shaping),以提供漸進的學習信號。 儘管獎勵函數非常重要,但眾所周知,它很難設計。 最近的一項調查發現,92% 的強化學習受訪研究人員和從業者表示,他們在設計獎勵時進行了人工試錯,89% 的人表示他們設計的獎勵是次優的,會導致非預期行為。
鑒於獎勵設計如此重要,我們不禁要問,是否有可能利用最先進的編碼 LLM(如 GPT-4)來開發一種通用的獎勵程式設計演算法? 這些 LLM 在代碼編寫、零樣本生成以及 in-context learning 等方面表現出色,曾經大大提升了程式設計智慧體的性能。 理想情況下,這種獎勵設計演算法應具有人類水準的獎勵生成能力,可擴展到廣泛的任務範圍,在沒有人類監督的情況下自動完成乏味的試錯過程,同時與人類監督相容,以確保安全性和一致性。
這篇論文提出了一種由 LLM 驅動的獎勵設計演算法 EUREKA(全稱是 Evolution-driven Universal REward Kit for Agent)。 該演算法達成了以下成就:
1、在 29 種不同的開源 RL 環境中,獎勵設計的性能達到了人類水準,這些環境包括 10 種不同的機器人形態(四足機器人、四旋翼機器人、雙足機器人、機械手以及幾種靈巧手,見圖 1。 在沒有任何特定任務提示或獎勵範本的情況下,EUREKA 自主生成的獎勵在 83% 的任務中優於人類專家的獎勵,並實現了 52% 的平均歸一化改進。
3、為基於人類反饋的強化學習(RLHF)提供了一種新的無梯度上下文學習方法,可以基於各種形式的人類輸入生成更高效、與人類對齊程度更高的獎勵函數。 論文表明,EUREKA 可以從現有的人類獎勵函數中獲益並加以改進。 同樣,研究者還展示了EUREKA利用人類文本反饋來輔助設計獎勵函數的能力,這有助於捕捉到人類的細微偏好。
與之前使用 LLM 輔助獎勵設計的 L2R 工作不同,EUREKA 完全沒有特定任務提示、獎勵範本以及少量範例。 在實驗中,EUREKA 的表現明顯優於 L2R,這得益於它能夠生成和完善自由形式、表達能力強的獎勵程式。
EUREKA 的通用性得益於三個關鍵的演算法設計選擇:將環境作為上下文、進化搜索和獎勵反思(reward reflection)。
首先,通過將環境原始碼作為上下文,EUREKA 可以從主幹編碼 LLM(GPT-4)中零樣本生成可執行的獎勵函數。 然後,EUREKA 通過執行進化搜索,反覆運算地提出獎勵候選批次,並在 LLM 上下文視窗中精鍊最有希望的獎勵,從而大大提高了獎勵的品質。 這種 in-context 的改進通過獎勵反思來實現,獎勵反思是基於策略訓練統計數據的獎勵品質文本總結,可實現自動和有針對性的獎勵編輯。
圖 3 為 EUREKA 零樣本獎勵範例,以及優化過程中積累的各項改進。 為了確保EUREKA能夠將其獎勵搜索擴展到最大潛力,EUREKA 在IsaacGym上使用 GPU 加速的分散式強化學習來評估中間獎勵,這在策略學習速度上提供了高達三個數量級的提升,使 EUREKA 成為一個廣泛的演算法,隨著計算量的增加而自然擴展。
EUREKA 可以自主的編寫獎勵演算法,具體是如何實現的,我們接著往下看。
EUREKA 由三個演算法元件組成:1)將環境作為上下文,從而支援零樣本生成可執行獎勵; 2)進化搜索,反覆運算地提出和完善獎勵候選; 3)獎勵反思,支援細粒度的獎勵改進。
環境作為上下文
本文建議直接提供原始環境代碼作為上下文。 僅通過最少的指令,EUREKA 就可以在不同的環境中零樣本地生成獎勵。 EUREKA 輸出示例如圖 3 所示。 EUREKA 在提供的環境代碼中熟練地組合了現有的觀察變數 (例如,指尖位置),併產生了一個有效的獎勵代碼 —— 所有這些都沒有任何特定於環境的提示工程或獎勵範本。
然而,在第一次嘗試時,生成的獎勵可能並不總是可執行的,即使它是可執行的,也可能是次優的。 這就出現了一個疑問,即如何有效地克服單樣本獎勵生成的次優性?
接著,論文介紹了進化搜索是如何解決上述提到的次優解決方案等問題的。 他們是這樣完善的,即在每次反覆運算中,EUREKA 對 LLM 的幾個獨立輸出進行採樣(演算法 1 中的第 5 行)。 由於每次反覆運算(generations)都是獨立同分佈的,這樣一來隨著樣本數量的增加,反覆運算中所有獎勵函數出現錯誤的概率呈指數下降。
為了提供更複雜、更有針對性的獎勵分析,本文建議構建自動反饋來總結文本中的策略訓練動態。 具體來說,考慮到 EUREKA 獎勵函數需要獎勵程式中的各個元件(例如圖 3 中的獎勵元件),因而本文在整個訓練過程中跟蹤中間策略檢查點處所有獎勵元件的標量值。
構建這種獎勵反思過程雖然很簡單,但由於獎勵優化演算法存在依賴性,因而這種構建方式就顯得很重要。 也就是說,獎勵函數是否有效受到 RL 演算法的特定選擇的影響,並且即使在給定超參數差異的相同優化器下,相同的獎勵也可能表現得非常不同。 通過詳細說明 RL 演算法如何優化各個獎勵元件,獎勵反思使 EUREKA 能夠產生更有針對性的獎勵編輯並合成獎勵函數,從而更好地與固定 RL 演算法協同。
實驗部分對 Eureka 進行了全面的評估,包括生成獎勵函數的能力、解決新任務的能力以及對人類各種輸入的整合能力。
實驗環境包括10個不同的機器人以及29個任務,其中,這29個任務由IsaacGym模擬器實現。 實驗採用了 IsaacGym (Isaac) 的 9 個原始環境,涵蓋從四足、雙足、四旋翼、機械手到機器人的靈巧手的各種機器人形態。 除此以外,本文還通過納入 Dexterity 基準測試中的 20 項任務來確保評估的深度。
瞭解更多內容,請參考原論文。