📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
剛剛,百川智慧Baichuan2-192K發佈,上下文視窗全球最長! 一次讀完《三體》,拿下7個SOTA
文章來源:新智元
長上下文窗口領域的新標杆,來了!
今天,百川智慧正式發佈全球上下文窗口長度最長的大模型——Baichuan2-192K。
與以往不同的是,此次模型的上下文窗口長度高達192K,相當於約35萬個漢字。
再具體點,Baichuan2-192K能夠處理的漢字是GPT-4(32K上下文,實測約2.5萬字)的14倍,Claude 2(100K上下文,實測約8萬字)的4.4倍,可以一次性讀完一本《三體》。
把三體第一部《地球往事》丟給它,Baichuan2-192K稍加咀嚼,便立刻對整個故事瞭若指掌。
而且,就連「三體十級學者」都未必能答上來的冷門問題,Baichuan2-192K也是對答如流,信手拈來。
全球最長上下文,全面領先Claude 2
大模型,會被什麼卡脖子?
以ChatGPT為例,雖然能力讓人驚歎,然而這個「萬能」模型卻有一個無法迴避的掣肘——最多只支援32K tokens(2.5萬漢字)的上下文。 而律師、分析師等職業,在大部分的時間里需要處理比這長得多的文本。
由此,模型不僅能更好地捕捉上下文的相關性、消除歧義,進而更加精準地生成內容,緩解「幻覺」問題,提升性能。 而且,也可以在長上下文的加持下,與更多的垂直場景深度結合,真正在人們的工作、生活、學習中發揮作用。
最近,矽谷獨角獸Anthropic先後獲得亞馬遜投資40億、谷歌投資20億。 能獲得兩家巨頭的青睞,當然跟Claude在長上下文能力技術上的領先不無關係。
而這次,百川智慧發佈的Baichuan-192K長視窗大模型,在上下文窗口長度上遠遠超過了Claude 2-100K,而且在文本生成品質、上下文理解、問答能力等多個維度的評測中,也取得了全面領先。
10項權威評測,拿下7個SOTA
Long是由加州大學伯克利分校聯合其他高校發佈的針對長視窗模型評測的榜單,主要衡量模型對長視窗內容的記憶和理解能力。
上下文理解方面,Baichuan2-192K在權威長視窗文本理解評測榜單Long上大幅領先其他模型,視窗長度超過100K后依然能夠保持非常強勁的性能。
相比之下,Claude 2視窗長度超過80K后整體效果下降非常嚴重。
其中,有7項取得了SOTA,性能顯著超過其他長視窗模型。
可以簡單理解為,將符合人類自然語言習慣的高品質文檔作為測試集時,模型生成測試集中文本的概率越高,模型的困惑度就越小,模型也就越好。
雖然長上下文可以有效提升模型性能,但超長的視窗也意味著需要更強的算力,以及更多的顯存。
目前,業界普遍的做法是滑動視窗、降低採樣、縮小模型等等。
然而,這些方式都會在不同程度上,犧牲模型其他方面的性能。
首先,在演算法方面,百川智慧提出了一種針對RoPE和ALiBi動態位置編碼的外推方案——能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態內插,在保證解析度的同時增強了模型對長序列依賴的建模能力。
其次,在工程方面,百川智慧在自主開發的分散式訓練框架基礎上,整合了包括張量並行、流水並行、序列並行、重計算以及Offload等市面上幾乎所有的先進優化技術,獨創出了一套全面的4D並行分散式方案——能夠根據模型具體的負載情況,自動尋找最適合的分散式策略,極大降低了長窗口訓練和推理過程中的顯存佔用。
內測正式開啟,一手體驗出爐
現在,Baichuan2-192K已經正式開啟內測!
百川智慧的核心合作夥伴已經通過 API 調用的方式將Baichuan2-192K 接入到了自己的應用和業務當中,現在已有財經類媒體、律師事務所等機構和百川智慧達成了合作。
可以想像,隨著Baichuan2-192K全球領先的長上下文能力應用到傳媒、金融、法律等具體場景中,無疑會給大模型落地拓展出更廣闊的空間。
通過API,Baichuan2-192K能有效融入更多垂直場景,與之深度結合。
以往,巨量內容的文檔,往往成為我們在工作、學習中難以跨越的大山。
無論是長文檔摘要/審核,長篇文章或報告的編寫,還是複雜的程式設計輔助,Baichuan2-192K都將提供巨大的助力。
對於基金經理,它可以幫忙總結和解釋財務報表,分析公司的風險和機遇。
對於律師,它可以幫助識別多個法律檔中的風險,審核合同和法律檔。
而廣大科研人員,從此也有了科研利器,可以快速流覽大量論文,總結最新的前沿進展。
Agent、多模態應用,都是當前業內研究的前沿熱點。 而大模型有了更長的上下文能力,就能更好地處理和理解複雜的多模態輸入,實現更好的遷移學習。
上下文長度,兵家必爭之地
可以說,上下文窗口長度,是大模型的核心技術之一。
現在,許多團隊都開始以「長文本輸入」為起點,打造底座大模型的差異化競爭力。 如果說參數量決定了大模型能做多複雜的計算,上下文窗口長度,則決定了大模型有多大「記憶體」。
Sam Altman就曾表示,我們本以為自己想要的是會飛的汽車,而不是140/280個字元,但實際上我們想要的是32000個token。
今年5月,擁有32K上下文的GPT-4,就曾引發過激烈的討論。
當時,已經解鎖這一版本的網友大讚稱,GPT-4 32K是世界上最好的產品經理。
換句話說就是,一般人用時大約5個小時讀完等量內容后,還得用更多的時間去消化、記憶、分析。 對於Claude,不到1分鐘就搞定。
結果表明,70B參數量的模型就已經在各種長上下文任務中實現了超越gpt-3.5-turbo-16k的性能。
港中文和MIT團隊研究人員提出的LongLoRA方法,只需兩行代碼、一台8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens。
而來自DeepPavlov、AIRI、倫敦數學科學研究所的研究人員則利用迴圈記憶Transformer(RMT)方法,將BERT的有效上下文長度提升到「前所未有的200萬tokens」,並且保持了很高的記憶檢索準確性。
不過,雖然RMT可以不增加記憶體消耗,能夠擴展到近乎無限的序列長度,但仍然存在RNN中的記憶衰減問題,並且需要更長的推理時間。
目前,LLM的上下文視窗長度主要集中在4,000-100,000個token這個範圍之間,並且還在持續增長。
而這一次,國內的大模型迎來了最長上下文視窗的歷史高光時刻。
刷新行業紀錄的192K上下文窗口,不僅代表著百川智慧這家明星公司在大模型技術上又一次突破,也是大模型發展過程中的又一里程碑式進展。 而這,必然會給產品端形態改革帶來新一輪的震動。
這麼算來,基本上是一月一更LLM。
現在,隨著Baichuan2-192K的發佈,大模型長上下文窗口技術也將全面走進中文時代!