📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
比Siri更懂iPhone!GPT-4V可“操作”手機完成任意指令,無需訓練
原始來源:量子維度
一項研究發現:
無需任何訓練,GPT-4V就能直接像人類一樣與智慧手機進行交互,完成各種指定命令。
比如讓它在50-100美元的預算內購買一個打奶泡的工具。
它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)並打開、點擊搜索欄輸入「奶泡器」、找到篩選功能選擇預算區間、點擊商品並完成下單這一系列共計9個操作。
因此,有人感歎有了它,Siri漸漸就沒有用武之地了(比Siri更懂iPhone)
Siri壓根兒一開始就沒這麼強好嘛。 (狗頭)
GPT-4V零樣本操作iPhone
這項研究來自加州大學聖地牙哥分校、微軟等機構。
它本身是開發了一個MM-Navigator,也就是一種基於GPT-4V的agent,用於開展智慧手機使用者介面的導航任務。
實驗設置
在每一個時間步驟,MM-Navigator都會得到一個螢幕截圖。
作為一個多模態模型,GPT-4V接受圖像和文本作為輸入併產生文本輸出。
在這裡,就是一步步讀螢幕截圖信息,輸出要操作的步驟。
現在的問題就是:
如何讓模型合理地計算出給定螢幕上應該點擊的準確位置座標(GPT-4V只能給出大概位置)。
作者給出的解決辦法非常簡單,通過OCR工具和IconNet檢測每一個給定螢幕上的UI元素,並標記不同的數位。
兩項能力測試
測試率先在iPhone上展開。
要想成功操縱手機涉及到GPT-4V不同類型的螢幕理解能力:
一個是語義推理,包括理解螢幕輸入和闡明完成給定指令所需的動作。
一個是指出每一個動作應執行的精確位置(即該點哪個數位)的能力。
因此,作者開發了兩組測試分別進行區分。
1、預期動作描述
只輸出應該幹啥,不輸出具體座標。
在這個任務中,GPT-4V理解指令並給出操作步驟的準確率為90.9%。
比如在下面這個Safari瀏覽器的截圖中,使用者想要打開一個新標籤頁,但左下角的+號是灰色的,應該怎麼辦?
看圖理解表現得很不錯~更多例子可以翻閱論文。
2、本地化動作執行
當讓GPT-4V把這些「紙上談兵」都化為具體行動時(即第二個測試任務),它的正確率有所下降,來到74.5%。
還是上面的例子,它可以遵循自己給出的指令,給出正確的操作數位,比如點擊數位9關閉一個標籤頁。
比如讓它從下面的圖中開啟隱身模式,直接給了wifi處於的“11”位置,完全不搭嘎。
在這個過程中,我們可以看到GPT-4V事無巨細地列出每一步該幹什麼,以及對應的數位座標。
整體來看,比其他模型比如Llama 2、PaLM 2和ChatGPT表現得明顯要好。
在執行安裝、購物等任務中的總體表現最高得分為52.96%,這些基線模型最高才39.6%。
值得一提的是,網友看完這項研究也提出了兩個點:
一是我們如何定義任務執行的成功與否。
比如我們想讓它買洗手液補充裝,只想要一袋,它卻加購了六袋算成功嗎?
因為,準確率可達95%的Siri都還經常被吐槽很差勁呢。
團隊介紹
本研究一共12位作者,基本都來自微軟。
分別是加州大學聖地牙哥分校的博士生An Yan,以及微軟的高級研究員Zhengyuan Yang,後者本科畢業於中科大,博士畢業於羅賈斯特大學。
參考連結:
[1] [2]