📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
港大阿里「視覺AI任意門」,一鍵向場景中無縫傳送物體
來源:量子位
點兩下鼠標,就能把物體無縫「傳送」到照片場景中,光線角度和透視也能自動適應。
阿里和港大的這個AI版「任意門」,實現了零樣本的圖像嵌入。
有了它,網購衣服也可以直接看上身效果了。
AnyDoor一次能夠傳送多個物體。
零樣本生成逼真效果
相對於已有的類似模型,AnyDoor具有零樣本操作能力,無需針對具體物品調整模型。
實際上,其他的Reference類模型只能做到保持語義一致性。
通俗地說,如果要傳送的物體是一隻貓,其他模型只能保證結果中也有一隻貓,但相似度無法保證。
而對於已有圖像中物體的移動、換位,甚至改變姿態,AnyDoor也能出色完成。
工作原理
不過在將包含目標物體的圖像送入提取器之前,AnyDoor首先會對其進行背景消除。
然後,AnyDoor會進行自監督式的物體提取並轉換成token。
這一步使用的編碼器是以目前最好的自監督模型DINO-V2為基礎設計的。
為了適應角度和光線的變化,除了提取物品的整體特徵,還需要額外提取細節信息。
這一步中,為了避免過度約束,團隊設計了一種用高頻圖表示特徵信息的方式。
同時,AnyDoor利用Hadamard對圖像中的RGB色彩信息進行提取。
結合這些信息和過濾邊緣信息的遮罩,得到了只含高頻細節的HF-Map。
利用獲取到的token,AnyDoor通過文生圖模型對圖像進行合成。
具體來說,AnyDoor使用的是帶有ControlNet的Stable Diffusion。
AnyDoor的工作流程大致就是這樣。而在訓練方面,也有一些特殊的策略。
儘管AnyDoor針對的是靜態圖像,但有一部分用於訓練的數據是從視頻當中提取出來的。
將物體與背景分離後標註配對,就形成了AnyDoor的訓練數據。
不過雖然視頻數據有利於學習,但還存在質量問題需要解決。
於是團隊設計了自適應時間步採樣策略,在不同時刻分別採集變化和細節信息。
通過消融實驗結果可以看出,隨著這些策略的加入,CLIP和DINO評分均逐漸升高。
團隊簡介
論文的第一作者是香港大學博士生陳汐(Xi Chen),他曾經是阿里巴巴集團算法工程師。
陳汐的導師Hengshuang Zhao是本文的通訊作者,研究領域包括機器視覺、機器學習等。
此外,阿里方面還有來自達摩院、菜鳥集團的研究人員也參與了這一項目。
論文地址: