剛剛,百川智慧Baichuan2-192K發佈,上下文視窗全球最長! 一次讀完《三體》,拿下7個SOTA

文章來源:新智元

圖片來源:由無界 AI生成

全球最長上下文視窗來了! 今日,百川智慧發佈Baichuan2-192K大模型,上下文窗口長度高達192K(35萬個漢字),是Claude 2的4.4倍,GPT-4的14倍!

長上下文窗口領域的新標杆,來了!

今天,百川智慧正式發佈全球上下文窗口長度最長的大模型——Baichuan2-192K。

與以往不同的是,此次模型的上下文窗口長度高達192K,相當於約35萬個漢字。

再具體點,Baichuan2-192K能夠處理的漢字是GPT-4(32K上下文,實測約2.5萬字)的14倍,Claude 2(100K上下文,實測約8萬字)的4.4倍,可以一次性讀完一本《三體》。

Claude一直以來保持的上下文窗口記錄,在今天被重新刷新

把三體第一部《地球往事》丟給它,Baichuan2-192K稍加咀嚼,便立刻對整個故事瞭若指掌。

汪淼看到的倒計時里第36張照片上的數位是多少? 答:1194:16:37。 他使用的相機是什麼型號? 答:徠卡M2。 他和大史一共喝過幾次酒? 答:兩次。

再看看第二部《黑暗森林》,Baichuan2-192K不僅一下就答出了地球三體組織建立了兩個紅岸基地,「水滴」是由強互作用力材料製作的。

而且,就連「三體十級學者」都未必能答上來的冷門問題,Baichuan2-192K也是對答如流,信手拈來。

誰的名字出現次數最多? 答:羅輯。

可以說,當上下文窗口擴展到了35萬字,大模型的使用體驗,彷彿忽然打開了一個新世界!

全球最長上下文,全面領先Claude 2

大模型,會被什麼卡脖子?

以ChatGPT為例,雖然能力讓人驚歎,然而這個「萬能」模型卻有一個無法迴避的掣肘——最多只支援32K tokens(2.5萬漢字)的上下文。 而律師、分析師等職業,在大部分的時間里需要處理比這長得多的文本。

更大的上下文視窗,可以讓模型從輸入中獲得更豐富的語義資訊,甚至直接基於全文理解進行問答和信息處理。

由此,模型不僅能更好地捕捉上下文的相關性、消除歧義,進而更加精準地生成內容,緩解「幻覺」問題,提升性能。 而且,也可以在長上下文的加持下,與更多的垂直場景深度結合,真正在人們的工作、生活、學習中發揮作用。

最近,矽谷獨角獸Anthropic先後獲得亞馬遜投資40億、谷歌投資20億。 能獲得兩家巨頭的青睞,當然跟Claude在長上下文能力技術上的領先不無關係。

而這次,百川智慧發佈的Baichuan-192K長視窗大模型,在上下文窗口長度上遠遠超過了Claude 2-100K,而且在文本生成品質、上下文理解、問答能力等多個維度的評測中,也取得了全面領先。

10項權威評測,拿下7個SOTA

Long是由加州大學伯克利分校聯合其他高校發佈的針對長視窗模型評測的榜單,主要衡量模型對長視窗內容的記憶和理解能力。

上下文理解方面,Baichuan2-192K在權威長視窗文本理解評測榜單Long上大幅領先其他模型,視窗長度超過100K后依然能夠保持非常強勁的性能。

相比之下,Claude 2視窗長度超過80K后整體效果下降非常嚴重。

此外,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10項中英文長文本問答、摘要的評測集上表現同樣優異。

其中,有7項取得了SOTA,性能顯著超過其他長視窗模型。

在文本生成品質方面,困惑度是一個非常重要的標準。

可以簡單理解為,將符合人類自然語言習慣的高品質文檔作為測試集時,模型生成測試集中文本的概率越高,模型的困惑度就越小,模型也就越好。

根據DeepMind發佈的「語言建模基準數據集PG-19」的測試結果,Baichuan2-192K的困惑度在初始階段便很優秀,並且隨著窗口長度擴大,Baichuan2-192K的序列建模能力也持續增強。

### 工程演算法聯合優化,長度性能同步提升

雖然長上下文可以有效提升模型性能,但超長的視窗也意味著需要更強的算力,以及更多的顯存。

目前,業界普遍的做法是滑動視窗、降低採樣、縮小模型等等。

然而,這些方式都會在不同程度上,犧牲模型其他方面的性能。

為了解決這一問題,Baichuan2-192K通過演算法和工程的極致優化,實現了窗口長度和模型性能之間的平衡,做到了窗口長度和模型性能的同步提升。

首先,在演算法方面,百川智慧提出了一種針對RoPE和ALiBi動態位置編碼的外推方案——能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態內插,在保證解析度的同時增強了模型對長序列依賴的建模能力。

其次,在工程方面,百川智慧在自主開發的分散式訓練框架基礎上,整合了包括張量並行、流水並行、序列並行、重計算以及Offload等市面上幾乎所有的先進優化技術,獨創出了一套全面的4D並行分散式方案——能夠根據模型具體的負載情況,自動尋找最適合的分散式策略,極大降低了長窗口訓練和推理過程中的顯存佔用。

內測正式開啟,一手體驗出爐

現在,Baichuan2-192K已經正式開啟內測!

百川智慧的核心合作夥伴已經通過 API 調用的方式將Baichuan2-192K 接入到了自己的應用和業務當中,現在已有財經類媒體、律師事務所等機構和百川智慧達成了合作。

可以想像,隨著Baichuan2-192K全球領先的長上下文能力應用到傳媒、金融、法律等具體場景中,無疑會給大模型落地拓展出更廣闊的空間。

通過API,Baichuan2-192K能有效融入更多垂直場景,與之深度結合。

以往,巨量內容的文檔,往往成為我們在工作、學習中難以跨越的大山。

而有了Baichuan2-192K,就能一次性處理和分析數百頁的材料,進行關鍵資訊的提取和分析。

無論是長文檔摘要/審核,長篇文章或報告的編寫,還是複雜的程式設計輔助,Baichuan2-192K都將提供巨大的助力。

對於基金經理,它可以幫忙總結和解釋財務報表,分析公司的風險和機遇。

對於律師,它可以幫助識別多個法律檔中的風險,審核合同和法律檔。

對於開發者,它可以幫忙閱讀數百頁的開發文檔,還能回答技術問題。

而廣大科研人員,從此也有了科研利器,可以快速流覽大量論文,總結最新的前沿進展。

除此之外,更長的上下文還蘊涵著更加巨大的潛力。

Agent、多模態應用,都是當前業內研究的前沿熱點。 而大模型有了更長的上下文能力,就能更好地處理和理解複雜的多模態輸入,實現更好的遷移學習。

上下文長度,兵家必爭之地

可以說,上下文窗口長度,是大模型的核心技術之一。

現在,許多團隊都開始以「長文本輸入」為起點,打造底座大模型的差異化競爭力。 如果說參數量決定了大模型能做多複雜的計算,上下文窗口長度,則決定了大模型有多大「記憶體」。

Sam Altman就曾表示,我們本以為自己想要的是會飛的汽車,而不是140/280個字元,但實際上我們想要的是32000個token。

國內外,對擴大上下文視窗的研究和產品可謂是層出不窮。

今年5月,擁有32K上下文的GPT-4,就曾引發過激烈的討論。

當時,已經解鎖這一版本的網友大讚稱,GPT-4 32K是世界上最好的產品經理。

很快,初創公司Anthropic宣佈,Claude已經能夠支援100K的上下文token長度,也就是大約75,000個單詞。

換句話說就是,一般人用時大約5個小時讀完等量內容后,還得用更多的時間去消化、記憶、分析。 對於Claude,不到1分鐘就搞定。

在開源社區,Meta也提出了一種可以有效擴展上下文能力的方法,能夠讓基礎模型的上下文窗口達到32768個token,並在各種合成上下文探測、語言建模任務上都取得了顯著的性能提升。

結果表明,70B參數量的模型就已經在各種長上下文任務中實現了超越gpt-3.5-turbo-16k的性能。

論文位址:

港中文和MIT團隊研究人員提出的LongLoRA方法,只需兩行代碼、一台8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens。

論文位址:

而來自DeepPavlov、AIRI、倫敦數學科學研究所的研究人員則利用迴圈記憶Transformer(RMT)方法,將BERT的有效上下文長度提升到「前所未有的200萬tokens」,並且保持了很高的記憶檢索準確性。

不過,雖然RMT可以不增加記憶體消耗,能夠擴展到近乎無限的序列長度,但仍然存在RNN中的記憶衰減問題,並且需要更長的推理時間。

論文位址:

目前,LLM的上下文視窗長度主要集中在4,000-100,000個token這個範圍之間,並且還在持續增長。

通過AI產業界和學術界對上下文視窗的多方面研究,足見其對於LLM的重要性。

而這一次,國內的大模型迎來了最長上下文視窗的歷史高光時刻。

刷新行業紀錄的192K上下文窗口,不僅代表著百川智慧這家明星公司在大模型技術上又一次突破,也是大模型發展過程中的又一里程碑式進展。 而這,必然會給產品端形態改革帶來新一輪的震動。

成立於2023年4月的百川智慧,用了僅僅6個月的時間,便接連發佈了Baichuan-7B/13B,Baichuan2-7B/13B四款開源可免費商用大模型,以及Baichuan-53B、Baichuan2-53B兩款閉源大模型。

這麼算來,基本上是一月一更LLM。

現在,隨著Baichuan2-192K的發佈,大模型長上下文窗口技術也將全面走進中文時代!

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)