穩健,是 Gate 持續增長的核心動力。
真正的成長,不是順風順水,而是在市場低迷時依然堅定前行。我們或許能預判牛熊市的大致節奏,但絕無法精準預測它們何時到來。特別是在熊市週期,才真正考驗一家交易所的實力。
Gate 今天發布了2025年第二季度的報告。作爲內部人,看到這些數據我也挺驚喜的——用戶規模突破3000萬,現貨交易量逆勢環比增長14%,成爲前十交易所中唯一實現雙位數增長的平台,並且登頂全球第二大交易所;合約交易量屢創新高,全球化戰略穩步推進。
更重要的是,穩健並不等於守成,而是在面臨嚴峻市場的同時,還能持續創造新的增長空間。
歡迎閱讀完整報告:https://www.gate.com/zh/announcements/article/46117
CMU清華MIT引爆全球首個Agent無限流,機器人「007」加班自學停不下來! 具身智慧被革命
文章來源:新智元
編輯:Aeneas 好困
全球首個生成式機器人Agent發佈了!
長久以來,相比於語言或者視覺模型可以在大規模的互聯網數據上訓練,訓練機器人的策略模型需要帶有動態物理交互信息的數據,而這些數據的匱乏一直是具身智慧發展的最大瓶頸。
最近,來自CMU、清華、MIT,UMass等機構的研究人員提出了一種全新的RoboGen智能體。
利用涵蓋在大語言模型和生成式模型中蘊含的大規模知識,配以逼真類比世界提供的物理資訊,可以「無限」生成各種任務、場景以及教學數據,實現機器人7x24小時全自動訓練。
深度學習之父Hinton表示,「科技公司們正在未來18個月內,要使用比現在GPT-4多100倍的算力訓練新模型」。 模型參數更大,算力需求巨大,然而數據在哪裡?
面對饑渴的模型,AI合成就是答案。
專案主頁:
開源位址:
具體來說,由MIT-IBM首席科學家淦創帶領的研究團隊,在生成式AI和和可微分物理類比的加持下,提出了一種「提出-生成-學習」迴圈,讓Agent能夠自己出題自己訓練機器人。
首先,Agent提出,我們要開發這個技能。
然後,它會生成相應的環境、配置和技能學習指導,來創建模擬環境。
最後,Agent會將提出的上層任務分解為子任務,選擇最佳學習方法,然後學習策略、掌握所提技能。
值得注意的是,整個過程幾乎都不需要人類的監督,而且任務的數量,竟然是——無限個!
對於這則重磅的研究,英偉達高級科學家Jim Fan也進行了轉發。
把物品放到儲物櫃中:
模擬環境,多樣化技能學習的關鍵
機器人研究中,長期存在這樣一個難題:怎樣賦予機器人多種技能,讓它們在非工廠環境中操作,為人類執行廣泛的任務?
近年來,我們教會了機器人各種複雜的技能,比如流體操縱、投擲物體、踢足球、跑酷等等,然而這些技能卻各自為政,視野較短,需要人工設計的任務描述和訓練監督。
因為現實世界數據收集成本高昂且費力,這些技能都是在適當領域隨機化的模擬中訓練,然後部署到現實世界中的。
與現實世界中的探索和數據收集相比,類比環境具有許多優點,比如提供了低級狀態的特權訪問和無限的探索機會; 支持大規模並行計算,數據收集速度顯著加快; 允許機器人開發閉環策略和錯誤恢復能力。
然而,構建類比環境需要一系列繁瑣的任務(設計任務、選擇相關且語義上有意義的資產、生成合理的場景佈局和配置、制定獎勵或損失函數等訓練監督)。 即使在類比世界中,也極大限制了機器人技能學習的可擴充性。
利用最先進的基礎模型的生成能力,生成類比可以為類比中各種機器人技能學習所需的所有階段生成資訊。
得益於最新基礎模型中全面的編碼知識,以這種方式生成的場景和任務數據,可能與現實世界場景的分佈非常相似。
此外,這些模型可以進一步提供分解的低級子任務,這些子任務可以通過特定領域的策略學習方法無縫處理,從而產生各種技能和場景的閉環演示。
RoboGen流程
RoboGen是一種全自動流程,可以7x24h地讓機器人學習各種技能,其中包括4個階段:
任務建議;
場景生成;
訓練監督生成;
利用生成的信息進行技能學習。
任務建議
在這一階段,RoboGen能夠提出上層任務,生成相應的環境,將上層目標分解為底層子任務,然後按順序學習子技能。
首先,RoboGen會生成有意義的、多樣化的、高水平的任務,供機器人學習。
研究者使用特定的機器人類型和從池中隨機採樣的物件,來初始化系統。 然後將提供的機器人和採樣對象資訊輸入LLM。
這種採樣過程,就確保了生成任務的多樣性。
比如,四足機器人等腿式機器人能夠獲得多種運動技能,而機械臂操縱器在配對時,有可能執行多種操縱任務與不同的採樣物件。
用於初始化的物件是從預定義的清單中採樣的,包括家庭場景中常見的鉸接式和非鉸接式物件,例如烤箱、微波爐、飲水機、筆記型電腦、洗碗機等。
因為GPT-4接受過大量互聯網數據集的培訓,所以它對這些物件的可供性、如何與它們交互、它們可以與哪些有意義的任務相關聯,都有著豐富的理解。
比如,假設採樣的鈕接物體是微波爐,其中關節0是連接門的旋轉關節,關節1是控制計時器旋鈕的另一個旋轉關節,GPT-4會返回一個任務——「機器人手臂將一碗湯放入微波爐內,關上門並設置微波爐計時器,適當加熱時間a」。
對於鉸接物體,由於PartNetMobility是唯一高品質的鉸接物體數據集,並且已經涵蓋了各種鉸接資產,因此將根據採樣資產生成任務。
通過重複查詢不同的採樣物件和範例,可以生成各種操作和運動任務。
場景生成
給定一個任務,就可以繼續生成相應的模擬場景,以學習完成該任務的技能。
如圖所示,根據任務描述生成場景元件和配置,並檢索或生成對象資產,隨後填充模擬場景。
除了上一步中生成的任務所需的必要對象資產之外,為了增加生成場景的複雜性和多樣性,同時類似於真實場景的物件分佈,研究者還讓GPT-4返回與任務語義相關物件的附加查詢。
比如,對於任務「打開櫃子,將玩具放入其中,然後關上它」,生成的場景還會包括客廳墊子、檯燈、一本書和一把辦公椅。
為了獲得相關技能,就需要對技能學習進行監督。
RoboGen會首先查詢GPT-4,來把長任務規劃和分解為較短範圍的子任務。
一個關鍵假設是,當任務被分解為足夠短的子任務時,每個子任務都可以通過強化學習、運動規劃、軌跡優化等現有演算法可靠地解決。
分解后,RoboGen會查詢GPT-4,選擇合適的演算法來解決每個子任務。
每一種都適合不同的任務,例如基於梯度的軌跡優化更適合學習涉及軟體的細粒度操作任務,比如將麵團塑造成目標形狀。
與運動規劃相結合的動作初始化在解決任務時更加可靠,例如通過無碰撞路徑接近目標物件。
強化學習和進化策略更適合接觸豐富、涉及與其他場景元件持續交互的任務,例如腿部運動,或者當所需的動作不能簡單地通過離散的末端執行器姿勢參數化時,比如轉動一個烤箱的旋鈕。
總之,GPT-4會根據生成的子任務,在線選擇使用哪種演算法。
接下來,就可以為機器人構建模擬場景,讓它們學習技能了。
機器人學會開保險箱
舉個例子,RoboGen會讓機器人去學習調整檯燈方向這種非常精巧的任務。
有趣的是,在這個場景里,地面上竟然還放著像是電腦顯示器這樣的易碎物。
可以說,非常考驗機器人的環境識別能力了。
這裡就涉及到開門,取物,放下,關門等操作,期間還需要盡量避免與傢俱產生碰撞。
實驗結果
- 任務多樣性
如表1所示,與之前的所有基準相比,RoboGen實現了最低的Self-BLEU和嵌入相似度。 也就是說,RoboGen生成任務的多樣性,比人工製作的技能學習基準和數據集還要高!
如圖4所示,取消大小驗證會導致BLIP-2分數急劇下降,這是因為Objaverse和PartNetMobility中的物體尺寸,與現實世界的實際尺寸之間存在著巨大差異。 此外,沒有對象驗證的BLIP-2得分也較低,而且方差更大。
相比之下,RoboGen中的驗證步驟,可以顯著提高對象選擇的有效性。
如圖3所示,機器人在4個長程任務中,基於RoboGen生成的訓練指導(即任務分解和獎勵函數)學習到的技能。
結果表明,機器人成功學習到了完成相應任務的技能。 也就是說,自動生成的訓練指導能有效衍生出有意義且有用的技能。
表2的結果顯示,允許選擇學習演算法有利於提高完成任務的性能。 如果只使用RL,大多數任務的技能學習都會失敗。
如圖1所示,RoboGen可以生成各種任務,用於技能學習,包括剛性/關節物體操作、運動和軟體操作。
而圖3進一步表明,RoboGen能夠以合理的分解方式提供長程操作技能。
作者介紹
此前,他於2020年12月在CMU獲得了計算機科學碩士學位,導師是David Held教授,於2019年7月在北京大學元培學院獲得了數據科學學士學位,導師是Bin Dong教授。
在進入CMU之前,他在新加坡南洋理工大學完成了學士學位,師從Pham Quang Cuong和I-Ming Chen。 並曾在Meta AI、Akshara Rai,以及MIT-IBM AI Lab實習,導師是Chuang Gan。
目前,他的研究重點是為可擴展的機器人學習構建統一的神經策略和模擬基礎設施。
此外,共同一作還有清華姚班的陳楓。
參考資料: