🔥 Gate 動態大使專屬發帖福利任務第三期報名正式開啓!🏆 第二期獲獎名單將於6月3日公布!
👉️ 6月3日 — 6月8日期間每日發帖,根據帖子內容評級瓜分 $300獎池
報名即可參與:https://www.gate.com/zh/questionnaire/6761
報名時間:6月3日10:00 - 6月8日 24:00 UTC+8
🎁 獎勵詳情:
一、S級周度排名獎
S級:每週7日均完成發帖且整體帖子內容質量分數>90分可獲S級,挑選2名優質內容大使每人$50手續費返現券。
二、A/B 等級瓜分獎
根據各位動態大使發帖數量及帖子內容質量獲評等級,按評定等級獲獎:
A級:每週至少5日完成發帖且整體帖子內容質量90>分數>80可獲A級,從A級用戶中選出5名大使每人$20手續費返現券
B級:每週至少3日完成發帖且整體帖子內容質量80>分數>60可獲B級,從B級用戶中選出10名大使每人$10手續費返現券
📍 活動規則:
1.每週至少3日完成發帖才有機會獲獎。
2.根據發帖天數和整體發帖內容質量分數給予等級判定,分爲S/A/B等級,在各等級下選擇幸運大使獲獎。
💡 帖子評分標準:
1.每帖不少於30字。
2.內容需原創、有獨立見解,具備深度和邏輯性。
3.鼓勵發布市場行情、交易知識、幣種研究等主題,使用圖例或視頻可提高評分。
4.禁止發布FUD、抄襲或詆毀內容,違規將取
內測了下阿里的AI 畫圖,帶來了點大廠的震撼
作者:杜偉、澤南
大會一共三天,各家公司機構陸續要亮相30 多個大模型。
這場大模型的盛宴中少不了語言大模型,當然也有屢屢帶給人視覺感官震撼的繪畫大模型。這不,在AI 畫圖領域,又一個國內實力選手入場了。
繼發布大語言模型通義千問三個月後,阿里的AI 繪畫創作大模型也來了,而且是基於自研的組合式生成模型Composer。
7 月7 日的WAIC 大會上,阿里云通義大模型家族揭幕了旗下最新成員「通義萬相」。
它的文本生成圖像效果是這樣的,生成速度很快。
目前,該模型已開啟定向邀測。
在ChatGPT 火起來之前,AI 領域最出圈的話題就是AI 畫圖。擴散模型把生成式AI 向前帶進了一大步,一時間業內出現大量輸入文字、生成各種風格圖像的AI 模型。之後又出現了圖像生成圖像、圖像指定風格轉換的更多玩法,讓人們眼花繚亂的同時感嘆於生成式AI 的神奇。
在WAIC 這個大舞台上,阿里推出了這個既能文生圖又能圖生圖的AI 神器,可見對其生成效果非常有信心。
在拿到體驗資格後,機器之心當然要先試上一把。
通義萬相實測:玩法多樣、一出手就是大作
這個通義家族的新模型究竟有沒有給AI 畫圖領域帶來改變呢?我們用結果來說話。
目前,通義萬相上線了文本生成圖像、相似圖像生成和圖像風格遷移三大功能。
我們先來點不那麼複雜的,選取元曲四大家之一馬致遠《天淨沙・秋思》中的一組文字描述「小橋、流水、人家」,風格則選擇「中國畫」。
結果出來,通義萬相完全向我們展示了一幅幅古韻十足的畫作,細節豐富,還添加了描述中沒有的一些元素,比如遠處的山、水里遊的鴨子等。
這裡突然想讓通義萬相與大名鼎鼎的Stable Diffusion 較量一下。同樣的文字描述翻譯成英文「cat in a spacesuit, space, travel, starry sky」,然後再加上「style of 3D carton」,生成的圖片是下面這樣的。
這波沒想到是通義萬相贏了,Stable Diffusion 生成的貓咪要么太抽象,要么太寫實了,沒有表現出3D 卡通風格。
這次來段更長的「一位日系女孩、棕色直發、白皙肌膚、身穿連衣裙、蕾絲和蝴蝶結、挎著小提包、面帶微笑」,風格選擇「二次元」。想問一下喜歡二次元的小伙伴,這些生成的圖片符合你們心目中的日系女孩嗎?
接下來講通義萬相的相似圖生成功能,用戶只要提供一張參考圖像,就能夠獲得內容、風格相似的AI 畫作。這裡要注意,上傳的圖像大小要在10M 以下,格式則支持常見的JPG、JPEG、PNG、BMP 等。
我們先放進去一張AI 畫圖世界的常客馬斯克,看看通義萬相眼中的馬斯克「分克」長什麼樣子。相較於馬斯克真身,生成的圖片偏老一些,但笑容同樣開朗。
我們首先選擇一張偏寫實的原圖、一張印象派的風格圖。結果來看,偏寫實的原圖完全變換了風格,成了一幅幅印象派畫作。
作為阿里云通義大模型家族的新成員,阿里表示,通義萬相現有的能力只是牛刀小試,其能力仍在不斷進化中。未來也會逐步向行業客戶開放相關能力。
自研Composer 模型:50 億參數、登上頂會
此前很多公司的大模型都在立「多模態」的人設,帶有AI 畫圖能力。相比之下,阿里這個通義萬相有多少技術含量呢?看起來它不是簡單的模仿,而是有自己的獨門能力。
據了解,通義萬相基於阿里自研的組合式生成模型Composer,它擁有50 億參數,並在數十億個文本、圖像對上進行訓練。在業界都在考慮如何提升AI 繪畫模型的可控性這一點上,Composer 給出了它的創新性思路。
通過一個基於擴散模型的「組合式生成」框架,Composer 能夠對配色、佈局、風格等圖像設計元素進行拆解和組合,實現了高度可控性和極大自由度的圖像生成效果。
結果正如你我所見,僅需一個模型就能支持多類圖像生成類任務能力。阿里雲首席技術官周靖人了參與Composer 的研究,相關成果已被國際AI 頂會ICML 2023 收錄。
所謂拆解- 組合,首先將圖像分解為不同的設計元素,比如配色、草圖、佈局、風格、語義、材質等。然後使用AI 模型將這些設計元素重新組合成新的圖像。這裡,拆解- 組合過程中允許對用到的元素自由修改編輯,如此一來可控性大大增強。
不僅如此,Composer 還可以通過「壓榨」拆解- 組合的潛力來實現更廣闊的創作空間。假設有100 張圖片,每張拆成8 種元素,則全部元素的組合方式有100 的8 次方種。這一指數級的數量增長被稱為組合爆炸現象,無疑為AI 模型創造了一個極大的生成空間。同時人類設計師在生成定制化圖片時也被賦予了極大的自由度和定制化能力。
正是基於Composer 框架,通義萬相才能讓我們體驗到相似圖生成和風格遷移這兩種圖生圖功能。一邊用圖像理解模型將圖像拆解為不同元素,一邊用擴散模型將這些元素重新組合成新圖像,雙管齊下,圖生圖水到渠成。
其中對於相似圖生成,保持圖像語義內容不變,僅僅改變圖像中的局部細節,就能生成相似圖片。過程中既可以較好地保持原圖主體一致性,還提升了生成圖的多樣性和質量。
對於風格遷移,一方面保留原圖的基本形態、結構,另一方面將目標風格圖片的風格、色彩、筆觸等個性化信息,最終實現風格遷移。
以大模型為核心,打造生成式AI 的統一底座
看起來,通義萬相超出預期的效果,來自於阿里自己的核心技術。
其實在國內,阿里是較早開始探索生成式AI 的大廠之一,其在2018 年就啟動了大模型技術的研發。 2019 年,達摩院提出的大語言訓練模型StructBERT 超越了谷歌、微軟和Facebook 的研究,登頂了當時NLP 權威基準測試榜單GLUE。
2021 年,阿里發布國內首個百億參數級多模態大模型M6 和被稱為「中文版GPT-3」的語言大模型PLUG。其中,M6 在多次迭代之後,實現了十萬億級別的參數規模,並且M6 和支付寶、淘寶的業務需求相結合。
在去年的WAIC 上,阿里發布通義大模型系列,為業界首次構建一個「基礎模型」,做到了模態表示、任務表示、模型結構統一。而且,相關核心模型向全球開發者開源開放。
有關生成式AI 落地,我們一直面臨著幾個挑戰:算力成本高、構建過程複雜、通用性有限。通義打造了業界首個AI 統一底座,並構建大小模型協同的層次化人工智能體系,其目標就是直面挑戰,讓AI 從感知邁向認知。
可以說,在超大模型、語言及多模態能力、低碳訓練、平台化服務、落地應用等方面,阿里為中文大模型的發展做了一些前沿性、引領性的貢獻。
在通義萬相之前,阿里已陸續發布了面向自然語言處理的「通義千問」和專攻音視頻生產力的「通義聽悟」。至此,AI 的三大主要方向已經全部打通。 面對大模型及生成式AI 的巨大潛在需求,阿里云有著得天獨厚的優勢。
除了大模型技術積澱,強大的雲基礎設施能力至關重要。而在算力層面,阿里雲是亞洲第一、全球第三的雲計算服務商,自家大模型有了堅實的算力體系支撐。例如,阿里雲擁有國內最強的智能算力儲備,阿里雲的智算集群可支持最大十萬卡GPU 規模。
此外阿里國內首先提出「Model as a Service」理念,牽頭建設國內最大AI 模型服務社區「魔搭」,堅持開源開放,推動AI 普惠。此次在阿里雲《MaaS:以模型為中心的AI 開發新範式》主題論壇上,周靖人分享了對MaaS 的願景以及如何進一步賦能產品和合作夥伴。
在AI 2.0 的競爭中,比拼已經進入了新的階段,百模大戰之後必然是大浪淘沙,而阿里雲已經做好了準備。