清華系ChatGLM3現場懟臉演示！多模態直逼GPT-4V，國產Code Interpreter來了

巴比特_

2023-10-28 02:32:42

原文來源：新智元

圖片來源：由無界 AI生成

全自研第三代基座大模型ChatGLM3，今日推出！

這是繼6月份二代模型推出以來，智譜AI團隊又一次對ChatGLM基座模型的優化。

此外，在10月27日的2023中國計算機大會（CNCC）上，智譜AI還開源了ChatGLM3-6B（32k）、多模態CogVLM-17B、以及智慧體AgentLM。

ChatGLM3系列模型發佈后，智譜成為國內唯一一個有對標OpenAI全模型產品線的公司。

生成式AI助手智譜清言，也成為國內首個具備代碼交互能力的大模型產品。

模型全自研，適配國產晶片，性能更強大，開源生態更開放。

作為最早入局大模型研究的企業，智譜AI率先交卷！

而且，智譜AI今年已累計完成超25億人民幣融資，美團、螞蟻、阿裡、騰訊...... 豪華的投資方名單，無不顯出業內對智譜AI的強烈信心。

瞄向GPT-4V的技術升級

當前，多模態視覺模型GPT-4V已經展現出強大的識圖能力。

與此同時，瞄向GPT-4V，智譜AI這次也對ChatGLM3其他的能力，進行了反覆運算升級。其中包括，多模態理解能力的模型CogVLM，能夠試圖理解，刷新了10+個國際標準圖文評測數據集SOTA。目前，CogVLM-17B已開源。

代碼增強模組Code Interpreter能根據使用者需求生成代碼並執行，自動完成數據分析、文件處理等複雜任務。

網路搜索增強WebGLM，通過接入搜索增強，能自動根據問題在互聯網上查找相關資料，並在回答時提供參考相關文獻或文章連結。

另外，ChatGLM3的語義能力與邏輯能力也大大增強。

6B版本直接開源

值得一提的是，ChatGLM3一經發佈，智譜AI直接向社區開源了6B參數的模型。

評測結果顯示，與ChatGLM 2相比，以及國內同尺寸模型相比，ChatGLM3-6B在44個中英文公開數據集測試中，9個榜單中位列第一。

分別在MMLU提升36%、C提升33%、GSM8K提升179%、BBH提升126%。

其開源的32k版本ChatGLM3-6B-32K在LongBench中表現最佳。

另外，正是採用了最新的「高效動態推理+顯存優化技術」，使得當前的推理框架在相同硬體、模型條件下，更加高效。

相較於目前最佳的開源實現，對比伯克利大學推出的vLLM，以及Hugging Face TGI的最新版本，推理速度提升了2-3倍，推理成本降低1倍，每千tokens僅0.5分，成本最低。

自研AgentTuning，智慧體能力啟動

更令人驚喜的是，ChatGLM3也帶了全新的Agent智慧體能力。

智譜AI希望，大模型能夠通過API與外部工具更好交流，甚至通過智慧體實現大模型交互。

通過集成自研的AgentTuning技術，能夠啟動模型智慧代理能力，尤其在智慧規劃和執行方面，相比於ChatGLM 2提升1000%。

在最新的AgentBench上，ChatGLM3-turbo已經和GPT-3.5接近。

與此同時，智慧體AgentLM也向開源社區開放。智譜AI團隊希望的是，讓開源模型達到甚至超過閉源模型的Agent能力。

這意味著，Agent智慧體將開啟國產大模型原生支援「工具調用、代碼執行、遊戲、資料庫操作、知識圖譜搜索與推理、操作系統」等複雜場景。

1.5B/3B同時發佈，手機就能跑

想用手機去跑ChatGLM？可以！

這次ChatGLM3還專門推出了可在手機端部署的端測模型，分別有兩個參數：1.5B和3B。

它能夠支援Vivo、小米、三星在內的多種手機以及車載平臺，甚至支援移動平臺上CPU晶元的推理，速度可達20 tokens/s。

精度方面，1.5B和3B模型在公開基準評測上，性能直逼ChatGLM2-6B模型，快去試試！

新一代「智譜清言」全面上線

正如ChatGPT背後有個強大的GPT-4模型，智譜AI團隊的生成式AI助手「智譜清言」也得到了ChatGLM3的加持。

這個團隊直播演示完，功能直接就上線了，主打的就是一個真誠！

測試位址：

代碼解釋器

作為ChatGPT最受歡迎的外掛程式之一，Advanced Data Analysis（原Code Interpreter）可以根據自然語言輸入，以更加數學的思維分析問題，並同時生成恰當的代碼。

如今，在全新升級的ChatGLM3加持下，「智譜清言」已成為國內首個具備Advanced Data Analysis能力的大模型產品，可支援圖像處理、數學計算、數據分析等使用場景。

理工男的浪漫，或許只有「智譜清言」能懂。

雖然CEO張鵬現場表演畫「紅心」翻車，不過換個一試，結果秒出。

同樣，升級后的ChatGLM3在數據分析方面也十分拿手。

在一番解析之後，即可根據字段的長度，畫出長度分佈的直方圖。

### 搜索增強

隨著WebGLM大模型能力的加入，「智譜清言」現在也具有了搜索增強的能力——可以根據網上的最新資料總結出問題回答，並附上參考連結。

比如，最近iPhone 15迎來了一波降價，具體波動幅度有多大？

「智譜清言」給出的答案，效果還不錯！

### 圖文理解

CogVLM模型則提高了智譜清言的中文圖文理解能力，取得了接近GPT-4V的圖片理解能力。

它可以回答各種類型的視覺問題，並且可以完成複雜的目標檢測，並打上標籤，完成自動數據標註。

舉個栗子，讓CogVLM去識別圖中有幾個人。

加點難度，再給一張三個橘子壘起來的圖，也能準確識別出數量。

內瑪律、梅西、C羅，CogVLM認起來也是毫不含糊。

2隻蘋果和1隻蘋果相加的視覺數學題，CogVLM也能做對。

GLM vs GPT：對標OpenAI全線產品！

從聊天對話應用ChatGPT、生成代碼外掛程式Code Interpreter，到文正圖模型DALL· E 3、再到視覺多模態模型GPT-4V，OpenAI目前擁有一套完整的產品架構。

回看國內，能夠同樣做到產品覆蓋最全面的公司，也就只有智譜AI了。

### 對話：ChatGPT vs. ChatGLM

當紅炸子雞ChatGPT的介紹就不必多說了。

今年年初，智譜AI團隊同樣發佈了千億級的對話大模型ChatGLM。

借鑒了ChatGPT的設計思路，開發者在千億基座模型GLM-130B中注入了代碼預訓練。

其實，早在2022年，智譜AI便向研究界和工業界開放了GLM-130B，這項研究也被ACL 2022和ICLR 2023頂會接收。

ChatGLM-6B和ChatGLM-130B模型，都在包含1T token的中英文語料上進行訓練，使用了有監督微調（SFT）、反饋自助（feedback bootstrap）和人類反饋強化學習（RLHF）等方式。

ChatGLM模型能夠生成符合人類偏好的答案。結合量化技術，用戶可以在消費級顯卡上進行本地部署（INT4量化級別下最低只需6GB顯存），基於GLM模型可以在筆記本上運行自己的ChatGLM。

3月14日，智譜AI向社區開源了ChatGLM-6B，並且在第三方測評的中文自然語言、中文對話、中文問答及推理任務上獲得第一。

與此同時，數百個基於ChatGLM-6B的專案或應用誕生。

為了更進一步促進大模型開源社區的發展，智譜AI在6月份的時候發佈了ChatGLM2，千億基座對話模型全系升級並開源，包括6B、12B、32B、66B、130B不同尺寸，能力提升，豐富場景。

ChatGLM 2的中文榜單上排名領先，截至2023年6月25日，ChatGLM2位居C-榜單Rank 0，ChatGLM2-6B位居Rank 6。相比一代模型，ChatGLM 2在MMLU、C-、GSM8K分別取得了16%、36%、280%的提升。

值得一提的是，在短短幾個月內，ChatGLM-6B與ChatGLM2-6B共同得到廣泛應用。

目前，GitHub上共收攬5萬+ stars。並且，在Hugging Face上有10,000,000+下載量，四周趨勢排行第一。

聊天GLM-6B：

聊天GLM2-6B：

搜索增強：WebGPT vs. WebGLM

針對大模型「幻覺」這個問題，一般的解決思路就是結合搜尋引擎中的知識，讓大模型進行「檢索增強」。

早在2021年，OpenAI就基於GPT-3微調了一個可以將搜尋結果聚合的模型——WebGPT。

WebGPT通過模型人類搜索的行為，在網頁中進行搜索尋找相關答案，並給出引用來源，讓輸出的結果有跡可循。

最重要的是，在開放域長問答上取得了優秀的效果。

在這個思路引導下， ChatGLM「聯網版」模型WebGLM就誕生了，這是一個基於ChatGLM 100億參數微調的模型，主打就是聯網搜索。

論文位址：

比如，當你想知道天空為什麼是藍色的。 WebGLM立刻聯網給出答案，並且附上了連結，增強模型回復的可信度。

從架構上來講，WebGLM搜索增強系統涉及了三個重要的元件：檢索器、產生器、評分器。

在基於LLM的檢索器中分為了兩個階段，一是粗粒度的網路檢索（搜索、獲取、提取），另一個是細粒度蒸餾檢索。

檢索器整個過程中，時間主要消耗在獲取網頁步驟中，因此WebGLM採用了並行異步技術提高了效率。

引導生成器是核心，負責的是從檢索器得到的參考網頁中生成高質量的問題答案。

它利用大模型上下文推理能力，生成高品質的QA數據集，同時設計出校正和選擇策略，來過濾出高品質的子集用於訓練。

最後的評分器，是為了與人類偏好進行對齊，通過RLHF來為WebGLM生成的答案進行評分。

實驗結果顯示，WebGLM可以提供更加精確的結果，並能夠高效完成問答任務。甚至，能夠以100億的參數性能，逼近1750億參數的WebGPT。

目前，這項研究已經被KDD 2023錄用，同時智譜AI團隊還開源了的能力和數據集。

專案位址：

圖文理解：GPT-4V vs. CogVLM

今年9月，OpenAI正式解禁了GPT-4令人驚歎的多模態能力。

而在這背後提供支援的GPT-4V，對圖像有著強大的理解能力，能夠處理任意混合的多模態輸入。

比如，它不能能看出圖裡的這道菜是麻婆豆腐，甚至還能給出製作的配料。

10月，智譜了開源一種新的視覺語言基礎模型CogVLM，可以在不犧牲任何NLP任務性能的情況下，實現視覺語言特徵的深度融合。

不同於常見的淺層融合方法，CogVLM在注意力機制和前饋神經網路層中融入了一個可訓練的視覺專家模組。

這一設計實現了圖像和文本特徵之間的深度對齊，有效地彌補了預訓練語言模型與圖像編碼器之間的差異。

目前，CogVLM-17B是多模態權威學術榜單上綜合成績第一的模型，在14個數據集上取得了SOTA或第二名的成績。

它在10個權威的跨模態基準測試中取得了最佳（SOTA）性能，包括NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz-VQA和TDIUC。

CogVLM之所以能取得效果的提升，最核心的思想是「視覺優先」。

之前的多模態模型通常都是將圖像特徵直接對齊到文本特徵的輸入空間去，並且圖像特徵的編碼器通常規模較小，這種情況下圖像可以看成是文本的「附庸」，效果自然有限。

而CogVLM在多模態模型中將視覺理解放在更優先的位置，使用5B參數的視覺編碼器和6B參數的視覺專家模組，總共11B參數建模圖像特徵，甚至多於文本的7B參數量。

在部分測試中，CogVLM的表現甚至還超越了GPT-4V。

圖中有4個房子，3個是完整可見的，還有1個只有放大才能看到。

CogVLM就能準確識別出這4個房子，而GPT-4V只能識別出3個。

這道題，考的是帶文字的圖片。

CogVLM忠實地描述了場景和相應的文字。

### 文生圖：DALL· E vs. CogView

OpenAI當前最強大的文生圖模型，當屬DALL· E 3了。

與之相對的是，智譜AI團隊推出了基於Transformer的文本到圖像通用預訓練模型——CogView。

論文位址：

CogView的整體思路為，通過拼接文本特徵和圖像token特徵，進行自回歸訓練。最終，實現了只輸入文本token特徵，模型即可連續生成圖像token。

具體來說，首先將文本「一隻可愛的小貓的頭像」轉換成token，這裡用到了SentencePiece模型。

然後輸入一隻貓咪的圖像，將圖像部分通過一個離散化的自動解碼器，轉換成token。

緊接著，將文本和圖像token特徵進行拼接，然後輸入到Transformer架構的GPT模型中學習生成圖像。

最後，訓練完成後，在進行文本到圖像的生成任務時，模型會通過計算一個Caption Score對生成結果進行排序，從而選擇最匹配的結果。

對比了DALL· E和常見GAN的方案，CogView的結果均取得比較大的提升。

2022年，研究人員再次升級了文生圖模型CogView2，效果直接對標DALL· E2。

論文位址：

相比CogView，CogView2的架構採用了分層Transfomer，以及並行自回歸方式進行圖像生成。

論文中，研究者預訓練了一個60億參數的Transformer模型——跨模態通用語言模型（CogLM），並對其進行微調以實現快速超解析度。

實驗結果顯示，與DALL· E 2相比，CogView2生成結果同樣有優勢，並且還可以支援對圖像進行互動式文本引導編輯。

緊接著同年11月，團隊基於CogView2模型打造出了文本到視頻生成模型CogVideo。

模型架構分為兩個模組：第一部分基於CogView2，通過文本生成幾幀圖像。第二部分就是，基於雙向注意力模型對圖像進行插幀，進而生成幀率更高的完整視頻。

目前，以上所有模型全部開源了。清華出來的團隊都這麼直接且真誠嗎？

代碼：Codex vs. CodeGeeX

在代碼生成領域，OpenAI早在2021年8月發佈了全新升級的Codex，精通包括Python、Java、Go、Perl、PHP、Ruby、Swift、Type，甚至Shell等10多種程式設計語言。

論文位址：

使用者只需給出簡單的提示，就可以用自然語言讓Codex自動編寫代碼。

Codex基於GPT-3進行訓練，數據包含數十億行原始程式碼。並且，Codex可以支援比GPT-3長3倍以上的上下文資訊。

作為國內的先行者，智譜在2022年9月開源了130億參數的多程式設計語言代碼生成、翻譯及解釋預訓練模型CodeGeeX，並在之後被KDD 2023（Long Beach）接收。

論文位址：

2023年7月，智譜又發佈了更強，更快，更輕量的CodeGeeX2-6B，可以支持超過100種語言，權重對學術研究完全開放。

專案位址：

CodeGeeX2基於全新的ChatGLM2架構，並專門針對各種與程式設計相關的任務進行了優化，如代碼自動補全、代碼生成、代碼翻譯、跨檔代碼補全等。

得益於ChatGLM2的升級，CodeGeeX2不僅可以更好地支援中英文輸入，以及最大8192序列長度，並且各項性能指標也取得了大幅提升——Python +57%， C++ +71%， Java +54%， Java +83%， Go +56%， Rust +321%。

在Human評測中，CodeGeeX2全面超越了150億參數的StarCoder模型，以及OpenAI的Code-Cushman-001模型（GitHub Copilot曾使用的模型）。

除此之外，CodeGeeX2的推理速度也比一代CodeGeeX-13B更快，量化後僅需6GB顯存即可運行，支援輕量級當地語系化部署。

目前，CodeGeeX外掛程式已經可以在VS Code、 IntelliJ IDEA、PyCharm、GoLand、WebStorm、Android Studio等主流IDE中下載體驗。

國產大模型全自研

大會上，智譜AI CEO張鵬一開始就拋出自己的觀點——大模型元年並不是在ChatGPT引發LLM火爆熱潮的今年，而是在GPT-3出世的2020年。

當時，剛剛成立一年的智譜AI便開始舉全公司之力，ALL in大模型。

作為最早入局大模型研究的公司之一，智譜AI已經積累了充分的企業服務能力; 作為在開源上「第一個吃螃蟹」的公司之一，ChatGLM-6B上線四周，就登上Hugging face趨勢榜第一，獲GitHub 5w+ stars。

ChatGLM3的發佈，讓智譜AI已構建起的全模型產品線更加強大。

在這個大模型行業戰火紛飛的2023年，智譜AI再次站在聚光燈下，用全新升級ChatGLM3佔據了先發優勢。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

清華系ChatGLM3現場懟臉演示！ 多模態直逼GPT-4V，國產Code Interpreter來了

瞄向GPT-4V的技術升級

6B版本直接開源

自研AgentTuning，智慧體能力啟動

1.5B/3B同時發佈，手機就能跑

新一代「智譜清言」全面上線

代碼解釋器

**GLM vs GPT：對標OpenAI全線產品！ **

搜索增強：WebGPT vs. WebGLM

圖文理解：GPT-4V vs. CogVLM

代碼：Codex vs. CodeGeeX

國產大模型全自研

清華系ChatGLM3現場懟臉演示！多模態直逼GPT-4V，國產Code Interpreter來了

GLM vs GPT：對標OpenAI全線產品！