Mẫu bệ thế hệ thứ ba tự phát triển ChatGLM3 được ra mắt hôm nay!
Đây là một tối ưu hóa khác của mô hình cơ sở ChatGLM của nhóm Zhipu AI kể từ khi ra mắt mô hình thế hệ thứ hai vào tháng Sáu.
Ngoài ra, tại Hội nghị Máy tính Trung Quốc (CNCC) 2023 vào ngày 27/10, Zhipu AI cũng có mã nguồn mở ChatGLM3-6B (32k), CogVLM-17B đa phương thức và đại lý AgentLM.
Sau khi phát hành loạt mô hình ChatGLM3, Zhipu trở thành công ty duy nhất ở Trung Quốc đã đánh giá dòng sản phẩm mô hình đầy đủ của OpenAI.
Trợ lý AI Zhipu Qingyan cũng đã trở thành sản phẩm mô hình quy mô lớn đầu tiên có khả năng tương tác mã ở Trung Quốc.
Mô hình này hoàn toàn tự phát triển, thích ứng với chip trong nước, với hiệu suất mạnh hơn và hệ sinh thái nguồn mở hơn.
Là công ty đầu tiên tham gia nghiên cứu mô hình quy mô lớn, Zhipu AI là công ty đầu tiên nộp bài báo!
Hơn nữa, Zhipu AI đã hoàn thành tổng cộng hơn 2,5 tỷ nhân dân tệ tài trợ trong năm nay, Meituan, Ant, Alibaba, Tencent... Danh sách các nhà đầu tư xa xỉ đều cho thấy sự tin tưởng mạnh mẽ của ngành vào Zhipu AI.
** Nhắm đến nâng cấp kỹ thuật của GPT-4V **
Hiện tại, mô hình tầm nhìn đa phương thức GPT-4V đã cho thấy khả năng nhận dạng hình ảnh mạnh mẽ.
Đồng thời, hướng đến GPT-4V, Zhipu AI cũng đã nâng cấp lặp đi lặp lại các khả năng khác của ChatGLM3 lần này. Trong số đó, mô hình hiểu đa phương thức CogVLM có thể cố gắng hiểu và làm mới 10+ bộ dữ liệu đánh giá văn bản và đồ họa tiêu chuẩn quốc tế SOTA. Hiện tại, CogVLM-17B là mã nguồn mở.
Code Interpreter có thể tạo và thực thi code theo nhu cầu của người dùng, tự động hoàn thành các tác vụ phức tạp như phân tích dữ liệu và xử lý file.
Tìm kiếm trên web tăng cường WebGLM, có thể tự động tìm thông tin liên quan trên Internet theo câu hỏi và cung cấp liên kết để tham khảo tài liệu hoặc bài viết liên quan khi trả lời.
Ngoài ra, khả năng ngữ nghĩa và logic của ChatGLM3 cũng đã được nâng cao rất nhiều.
** Phiên bản 6B Mã nguồn mở trực tiếp **
Điều đáng nói là ngay khi ChatGLM3 được phát hành, Zhipu AI đã trực tiếp mở nguồn mô hình thông số 6B cho cộng đồng.
Kết quả đánh giá cho thấy so với ChatGLM 2 và so với các mô hình trong nước có cùng kích thước, ChatGLM3-6B đứng đầu trong 9 trong số 44 bài kiểm tra bộ dữ liệu công khai của Trung Quốc và tiếng Anh.
MMLU tăng 36%, C tăng 33%, GSM8K tăng 179% và BBH tăng 126%.
Phiên bản 32k mã nguồn mở của nó, ChatGLM3-6B-32K, hoạt động tốt nhất trong LongBench.
Ngoài ra, đây là "công nghệ tối ưu hóa bộ nhớ video + suy luận động hiệu quả" mới nhất làm cho khung suy luận hiện tại hiệu quả hơn trong cùng điều kiện phần cứng và mô hình.
So với việc triển khai mã nguồn mở tốt nhất hiện nay, so với vLLM do Đại học Berkeley đưa ra và phiên bản mới nhất của Hugging Face TGI, tốc độ suy luận được tăng gấp 2-3 lần và chi phí suy luận giảm 1 lần, chỉ với 0,5 điểm trên một nghìn token, đây là chi phí thấp nhất.
** Tự phát triển AgentTuning, kích hoạt khả năng của tổng đài viên**
Điều đáng ngạc nhiên hơn nữa là ChatGLM3 cũng mang đến một khả năng đại lý mới.
Zhipu AI hy vọng rằng các mô hình lớn có thể giao tiếp tốt hơn với các công cụ bên ngoài thông qua API và thậm chí nhận ra sự tương tác mô hình lớn thông qua các tác nhân.
Bằng cách tích hợp công nghệ AgentTuning tự phát triển, khả năng tác nhân thông minh của mô hình có thể được kích hoạt, đặc biệt là về lập kế hoạch và thực hiện thông minh, cao hơn 1000% so với ChatGLM 2.
Trên AgentBench mới nhất, ChatGLM3-turbo gần với GPT-3.5.
Đồng thời, AgentLM cũng mở cho cộng đồng nguồn mở. Những gì nhóm Zhipu AI hy vọng là làm cho mô hình nguồn mở đạt được hoặc thậm chí vượt quá khả năng tác nhân của mô hình nguồn đóng.
Điều này có nghĩa là tác nhân sẽ cho phép hỗ trợ riêng cho các mô hình lớn trong nước cho các tình huống phức tạp như "gọi công cụ, thực thi mã, trò chơi, hoạt động cơ sở dữ liệu, tìm kiếm và suy luận đồ thị tri thức và hệ điều hành".
**1.5B / 3B được phát hành cùng một lúc, điện thoại di động có thể chạy **
Bạn muốn chạy ChatGLM trên điện thoại của mình? OK!
Lần này, ChatGLM3 cũng ra mắt mô hình thử nghiệm thiết bị đầu cuối có thể triển khai trên điện thoại di động, với hai thông số: 1.5B và 3B.
Nó có thể hỗ trợ nhiều loại điện thoại di động bao gồm Vivo, Xiaomi, Samsung và các nền tảng trong xe, và thậm chí hỗ trợ suy luận chip CPU trên nền tảng di động, với tốc độ lên tới 20 mã thông báo / s.
Về độ chính xác, hiệu suất của các mô hình 1.5B và 3B gần với hiệu suất của mô hình ChatGLM2-6B trong đánh giá điểm chuẩn công khai, vì vậy hãy tiếp tục và thử nó!
** Một thế hệ mới của "Zhipu Qingyan" đã được ra mắt hoàn toàn **
Cũng giống như ChatGPT có một mô hình GPT-4 mạnh mẽ đằng sau nó, trợ lý AI tạo ra "Zhipu Qingyan" của nhóm Zhipu AI cũng được ChatGLM3 ban phước.
Sau khi trình diễn phát sóng trực tiếp của đội ngũ này, chức năng đã trực tiếp được đưa ra, và điều chính là một sự chân thành!
Địa chỉ kiểm tra:
Trình thông dịch mã
Là một trong những plugin phổ biến nhất cho ChatGPT, Advanced Data Analysis (trước đây là Code Interpreter) có thể phân tích các vấn đề với tư duy toán học hơn dựa trên đầu vào ngôn ngữ tự nhiên và tạo mã thích hợp cùng một lúc.
Giờ đây, với sự hỗ trợ của ChatGLM3 mới được nâng cấp, "Zhipu Qingyan" đã trở thành sản phẩm mô hình quy mô lớn đầu tiên có khả năng Phân tích dữ liệu nâng cao ở Trung Quốc, có thể hỗ trợ xử lý hình ảnh, tính toán toán học, phân tích dữ liệu và các tình huống sử dụng khác.
Sự lãng mạn của những người đàn ông khoa học và kỹ thuật chỉ có thể được hiểu bởi "Zhipu Qingyan".
Mặc dù CEO Zhang Peng đã thực hiện một màn trình diễn trực tiếp để vẽ một cú lật ngược "trái tim đỏ", nhưng hãy thử lại, và kết quả đã xuất hiện trong vài giây.
Tương tự, ChatGLM3 nâng cấp cũng rất giỏi trong việc phân tích dữ liệu.
Sau một số phân tích, một biểu đồ phân bố chiều dài có thể được vẽ dựa trên độ dài của trường.
### ** Cải tiến tìm kiếm**
Với việc bổ sung các khả năng mô hình lớn WebGLM, "Zhipu Qingyan" giờ đây cũng có khả năng tìm kiếm nâng cao - nó có thể tóm tắt câu trả lời cho các câu hỏi dựa trên thông tin mới nhất trên Internet và đính kèm các liên kết tham khảo.
Ví dụ, iPhone 15 gần đây đã mở ra một làn sóng giảm giá, biến động cụ thể lớn như thế nào?
Câu trả lời mà "Zhipu Qingyan" đưa ra không tệ!
### Hiểu đồ họa
Mô hình CogVLM cải thiện khả năng hiểu văn bản và hình ảnh Trung Quốc của Zhipu Qingyan, và có được khả năng hiểu hình ảnh gần với GPT-4V.
Nó có thể trả lời các loại câu hỏi trực quan khác nhau và có thể hoàn thành việc phát hiện đối tượng phức tạp, ghi nhãn và chú thích dữ liệu tự động hoàn chỉnh.
Ví dụ: hãy để CogVLM xác định có bao nhiêu người trong ảnh.
Thêm một chút khó khăn, và sau đó đưa ra một hình ảnh của ba quả cam với nhau, và bạn cũng có thể xác định chính xác số lượng.
Neymar, Messi, Ronaldo, CogVLM cũng không rõ ràng.
Đối với các bài toán trực quan trong đó 2 quả táo và 1 quả táo được thêm vào, CogVLM cũng có thể làm đúng.
**GLM vs GPT: Điểm chuẩn toàn bộ dòng sản phẩm của OpenAI! **
Từ ChatGPT, một ứng dụng trò chuyện và hội thoại, Trình thông dịch mã, một plugin tạo mã, đến DALL· E 3, và sau đó đến mô hình đa phương thức trực quan GPT-4V, OpenAI hiện có một bộ kiến trúc sản phẩm hoàn chỉnh.
Nhìn lại Trung Quốc, công ty duy nhất có thể đạt được độ phủ sản phẩm toàn diện nhất là Zhipu AI.
### Cuộc trò chuyện: ChatGPT so với Trò chuyệnGLM
Không cần phải nói thêm về sự ra đời của gà rán phổ biến ChatGPT.
Vào đầu năm nay, nhóm Zhipu AI cũng đã phát hành ChatGLM, một mô hình đối thoại cấp 100 tỷ.
Dựa trên ý tưởng thiết kế của ChatGPT, các nhà phát triển đã tiêm mã đào tạo trước vào mô hình cơ sở 100 tỷ GLM-130B.
Trên thực tế, ngay từ năm 2022, Zhipu AI đã mở GLM-130B cho cộng đồng nghiên cứu và ngành công nghiệp, và nghiên cứu này cũng đã được ACL 2022 và ICLR 2023 chấp nhận.
Cả hai mẫu ChatGLM-6B và ChatGLM-130B đều được đào tạo về kho dữ liệu tiếng Trung và tiếng Anh có chứa mã thông báo 1T, sử dụng tinh chỉnh có giám sát (SFT), bootstrap phản hồi và học tăng cường phản hồi của con người (RLHF).
Mô hình ChatGLM có khả năng tạo ra các câu trả lời phù hợp với sở thích của con người. Kết hợp với công nghệ lượng tử hóa, người dùng có thể triển khai cục bộ trên các card đồ họa cấp tiêu dùng (chỉ cần 6GB bộ nhớ video ở mức lượng tử hóa INT4) và chạy ChatGLM của riêng họ trên máy tính xách tay dựa trên mô hình GLM.
Vào ngày 14 tháng 3, Zhipu AI đã mở nguồn ChatGLM-6B cho cộng đồng và giành vị trí đầu tiên trong đánh giá của bên thứ ba về ngôn ngữ tự nhiên Trung Quốc, đối thoại tiếng Trung, Hỏi & Đáp tiếng Trung và các nhiệm vụ lý luận.
Đồng thời, hàng trăm dự án hay ứng dụng dựa trên ChatGLM-6B ra đời.
Để thúc đẩy hơn nữa sự phát triển của cộng đồng nguồn mở mô hình lớn, Zhipu AI đã phát hành ChatGLM2 vào tháng 6 và mô hình đối thoại cơ sở 100 tỷ đã được nâng cấp và mã nguồn mở, bao gồm các kích thước khác nhau 6B, 12B, 32B, 66B và 130B, cải thiện khả năng và làm phong phú thêm các kịch bản.
ChatGLM 2 đứng đầu trong danh sách của Trung Quốc, tính đến ngày 25 tháng 6 năm 2023, ChatGLM2 xếp hạng trong danh sách C Xếp hạng 0 và ChatGLM2-6B xếp hạng ở Hạng 6. So với mô hình thế hệ đầu tiên, ChatGLM 2 đã đạt được những cải tiến lần lượt là 16%, 36% và 280% trong MMLU, C- và GSM8K.
Điều đáng nói là chỉ trong vài tháng, ChatGLM-6B và ChatGLM2-6B đã được sử dụng rộng rãi.
Hiện tại, tổng cộng 50.000+ sao đã được thu thập trên GitHub. Ngoài ra, có 10.000.000+ lượt tải xuống trên Hugging Face, đứng đầu trong xu hướng bốn tuần.
ChatGLM-6B:
ChatGLM2-6B:
** Cải tiến tìm kiếm: WebGPT so với WebGLM**
Để giải quyết vấn đề "ảo ảnh" của các mô hình lớn, giải pháp chung là kết hợp kiến thức trong công cụ tìm kiếm và để mô hình lớn thực hiện "tăng cường truy xuất".
Ngay từ năm 2021, OpenAI đã tinh chỉnh một mô hình có thể tổng hợp kết quả tìm kiếm dựa trên GPT-3 - WebGPT.
WebGPT mô hình hóa hành vi tìm kiếm của con người, tìm kiếm trong các trang web để tìm câu trả lời có liên quan và cung cấp các nguồn trích dẫn, để có thể truy tìm kết quả đầu ra.
Quan trọng nhất, nó đã đạt được kết quả tuyệt vời trong phần Hỏi && Đáp dài về miền mở.
Dưới sự hướng dẫn của ý tưởng này, WebGLM, mô hình "phiên bản nối mạng" của ChatGLM, đã ra đời, là mô hình dựa trên tinh chỉnh tham số 10 tỷ của ChatGLM và trọng tâm chính là tìm kiếm mạng.
Địa chỉ:
Ví dụ, khi bạn muốn biết tại sao bầu trời có màu xanh. WebGLM ngay lập tức đưa ra câu trả lời trực tuyến và bao gồm một liên kết để nâng cao độ tin cậy của phản hồi của mô hình.
Về mặt kiến trúc, hệ thống tăng cường tìm kiếm WebGLM bao gồm ba thành phần quan trọng: chó tha mồi, máy phát điện và bộ ghi bàn.
Retriever dựa trên LLM được chia thành hai giai đoạn, một là truy xuất mạng hạt thô (tìm kiếm, mua lại, khai thác) và giai đoạn còn lại là truy xuất chưng cất hạt mịn.
Trong toàn bộ quá trình của retriever, thời gian chủ yếu được tiêu tốn trong quá trình tìm nạp trang web, vì vậy WebGLM sử dụng công nghệ không đồng bộ song song để nâng cao hiệu quả.
Trình tạo bootstrap là cốt lõi và chịu trách nhiệm tạo ra câu trả lời chất lượng cao cho các câu hỏi từ các trang tham khảo thu được từ chó truy xuất.
Nó sử dụng khả năng suy luận theo ngữ cảnh của các mô hình lớn để tạo ra các bộ dữ liệu QA chất lượng cao và thiết kế các chiến lược hiệu chỉnh và lựa chọn để lọc ra các tập hợp con chất lượng cao để đào tạo.
Người đánh giá cuối cùng được sử dụng để chấm điểm các câu trả lời do WebGLM tạo thông qua RLHF để phù hợp với sở thích của con người.
Kết quả thử nghiệm cho thấy WebGLM có thể cung cấp kết quả chính xác hơn và hoàn thành các nhiệm vụ Hỏi &Đáp một cách hiệu quả. Thậm chí, nó có thể tiếp cận WebGPT với 175 tỷ thông số với hiệu suất 10 tỷ thông số.
Hiện tại, nghiên cứu này đã được KDD 2023 chấp nhận và nhóm Zhipu AI cũng đã mở nguồn các khả năng và bộ dữ liệu.
Địa chỉ dự án:
Hiểu hình ảnh và văn bản: GPT-4V so với CogVLM
Vào tháng 9 năm nay, OpenAI đã chính thức dỡ bỏ lệnh cấm đối với khả năng đa phương thức tuyệt vời của GPT-4.
GPT-4V, được hỗ trợ bởi điều này, có khả năng hiểu hình ảnh mạnh mẽ và có thể xử lý các đầu vào đa phương thức hỗn hợp tùy ý.
Ví dụ, nó không thể nói rằng món ăn trong hình là đậu phụ mapo, và nó thậm chí có thể cung cấp các thành phần để làm nó.
Vào tháng Mười, Zhipu đã mở nguồn một mô hình cơ bản ngôn ngữ hình ảnh mới, CogVLM, có thể nhận ra sự tích hợp sâu sắc của các tính năng ngôn ngữ hình ảnh mà không phải hy sinh hiệu suất của bất kỳ tác vụ NLP nào.
Khác với các phương pháp hợp nhất nông thông thường, CogVLM kết hợp một mô-đun chuyên gia thị giác có thể đào tạo vào cơ chế chú ý và lớp mạng nơ-ron chuyển tiếp.
Thiết kế này đạt được sự liên kết sâu sắc giữa các tính năng hình ảnh và văn bản, bù đắp hiệu quả cho sự khác biệt giữa mô hình ngôn ngữ được đào tạo trước và bộ mã hóa hình ảnh.
Hiện tại, CogVLM-17B là mô hình có điểm toàn diện đầu tiên trong danh sách học thuật có thẩm quyền đa phương thức và đã đạt được kết quả SOTA hoặc vị trí thứ hai trên 14 bộ dữ liệu.
Nó đạt được hiệu suất tốt nhất (SOTA) trên 10 điểm chuẩn đa phương thức có thẩm quyền, bao gồm NoCaps, phụ đề Flicker30k, RefCOCO, RefCOCO +, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA và TDIUC.
Ý tưởng cốt lõi của CogVLM là "trực quan đầu tiên".
Các mô hình đa phương thức trước đây thường căn chỉnh các tính năng hình ảnh trực tiếp với không gian đầu vào của các tính năng văn bản và bộ mã hóa các tính năng hình ảnh thường nhỏ, trong trường hợp này, hình ảnh có thể được coi là "chư hầu" của văn bản và hiệu ứng bị hạn chế một cách tự nhiên.
Mặt khác, CogVLM ưu tiên sự hiểu biết trực quan trong mô hình đa phương thức, sử dụng bộ mã hóa tầm nhìn tham số 5B và mô-đun chuyên gia thị giác tham số 6B để mô hình hóa các tính năng hình ảnh với tổng số thông số 11B, thậm chí nhiều hơn lượng văn bản tham số 7B.
Trong một số thử nghiệm, CogVLM thậm chí còn vượt trội hơn GPT-4V.
Có 4 ngôi nhà trong hình, 3 ngôi nhà có thể nhìn thấy đầy đủ và 1 chỉ có thể được nhìn thấy nếu bạn phóng to.
CogVLM có thể xác định chính xác 4 ngôi nhà này, trong khi GPT-4V chỉ có thể xác định 3.
Trong câu hỏi này, hình ảnh với văn bản được kiểm tra.
CogVLM mô tả trung thực cảnh và văn bản tương ứng.
### Sơ đồ Wensheng: DALL· E so với CogView
Mô hình đồ thị Wensheng mạnh nhất của OpenAI là DALL· E 3 cũng vậy.
Ngược lại, nhóm Zhipu AI đã ra mắt CogView, một mô hình được đào tạo trước toàn cầu chuyển văn bản thành hình ảnh dựa trên Transformer.
Địa chỉ:
Ý tưởng tổng thể của CogView là thực hiện đào tạo tự hồi quy bằng cách nối các tính năng văn bản và các tính năng mã thông báo hình ảnh. Cuối cùng, chỉ có tính năng mã thông báo văn bản được nhập và mô hình có thể liên tục tạo mã thông báo hình ảnh.
Cụ thể, văn bản "Hình đại diện của một chú mèo con dễ thương" lần đầu tiên được chuyển đổi thành mã thông báo và mô hình SentencePiece được sử dụng ở đây.
Sau đó, một hình ảnh của một con mèo được đưa vào và phần hình ảnh được chuyển đổi thành mã thông báo thông qua bộ giải mã tự động rời rạc.
Sau đó, các tính năng mã thông báo văn bản và hình ảnh được ghép lại với nhau, sau đó nhập vào mô hình GPT của kiến trúc Transformer để tìm hiểu cách tạo hình ảnh.
Cuối cùng, sau khi đào tạo xong, mô hình sẽ sắp xếp các kết quả được tạo bằng cách tính Điểm phụ đề để chọn kết quả phù hợp nhất trong tác vụ tạo văn bản thành hình ảnh.
So sánh DALL· E và các sơ đồ GAN phổ biến, kết quả của CogView đã được cải thiện rất nhiều.
Vào năm 2022, các nhà nghiên cứu đã nâng cấp mô hình đồ thị Wensheng CogView2 một lần nữa và hiệu quả được so sánh trực tiếp với DALL · Tập 2。
Địa chỉ:
So với CogView, kiến trúc của CogView2 áp dụng transfomer phân cấp và chế độ tự hồi quy song song để tạo hình ảnh.
Trong bài báo, các nhà nghiên cứu đã đào tạo trước một mô hình Biến áp 6 tỷ tham số, Mô hình ngôn ngữ chung đa phương thức (CogLM) và tinh chỉnh nó để đạt được độ phân giải siêu nhanh.
KẾT QUẢ THÍ NGHIỆM CHO THẤY MỐI QUAN HỆ VỚI DALL· E2 cũng có lợi thế là tạo ra kết quả với CogView2 và cũng có thể hỗ trợ chỉnh sửa hình ảnh có hướng dẫn bằng văn bản tương tác.
Vào tháng 11 cùng năm, nhóm đã xây dựng một mô hình tạo văn bản thành video, CogVideo, dựa trên mô hình CogView2.
Kiến trúc mô hình được chia thành hai mô-đun: phần đầu tiên dựa trên CogView2 và tạo ra một số khung hình ảnh từ văn bản. Phần thứ hai là nội suy hình ảnh dựa trên mô hình chú ý hai chiều để tạo ra một video hoàn chỉnh với tốc độ khung hình cao hơn.
Hiện tại, tất cả các mô hình trên đều là mã nguồn mở. Các đội đến từ Thanh Hoa có thẳng thắn và chân thành như vậy không?
Mã: Codex so với Mã GeeX
Trong lĩnh vực tạo mã, OpenAI đã phát hành Codex mới và nâng cấp vào đầu tháng 8/2021 và thành thạo hơn 10 ngôn ngữ lập trình bao gồm Python, Java, Go, Perl, PHP, Ruby, Swift, Type và thậm chí cả Shell.
Địa chỉ:
Người dùng có thể chỉ cần đưa ra một lời nhắc đơn giản và yêu cầu Codex viết mã tự động bằng ngôn ngữ tự nhiên.
Codex được đào tạo trên GPT-3 và dữ liệu chứa hàng tỷ dòng mã nguồn. Ngoài ra, Codex có thể hỗ trợ thông tin theo ngữ cảnh dài hơn 3 lần so với GPT-3.
Là công ty tiên phong ở Trung Quốc, Zhipu mã nguồn mở CodeGeeX, một mô hình được đào tạo trước để tạo, dịch và giải thích các ngôn ngữ lập trình đa ngôn ngữ với 13 tỷ tham số, vào tháng 9/2022 và sau đó được KDD 2023 (Long Beach) chấp nhận.
Địa chỉ:
Vào tháng 7 năm 2023, Zhipu đã phát hành CodeGeeX2-6B mạnh hơn, nhanh hơn và nhẹ hơn, có thể hỗ trợ hơn 100 ngôn ngữ và trọng lượng hoàn toàn mở cho nghiên cứu học thuật.
Địa chỉ dự án:
CodeGeeX2 dựa trên kiến trúc ChatGLM2 mới và được tối ưu hóa cho nhiều tác vụ liên quan đến lập trình, chẳng hạn như tự động hoàn thành mã, tạo mã, dịch mã, hoàn thành mã tệp chéo và hơn thế nữa.
Nhờ nâng cấp ChatGLM2, CodeGeeX2 không chỉ có thể hỗ trợ tốt hơn đầu vào tiếng Trung và tiếng Anh, cũng như độ dài chuỗi tối đa là 8192 mà còn cải thiện đáng kể các chỉ số hiệu suất khác nhau - Python + 57%, C ++ + 71%, Java + 54%, Java + 83%, Go + 56%, Rust + 321%.
Trong bài đánh giá của con người, CodeGeeX2 đã vượt qua toàn diện mô hình StarCoder tham số 15 tỷ, cũng như mô hình Code-Cushman-001 của OpenAI (mô hình được sử dụng bởi GitHub Copilot).
Ngoài ra, tốc độ suy luận của CodeGeeX2 cũng nhanh hơn so với CodeGeeX-13B thế hệ đầu tiên, chỉ cần 6GB bộ nhớ video để chạy sau khi lượng tử hóa và hỗ trợ triển khai cục bộ hóa nhẹ.
Hiện tại, plugin CodeGeeX có thể được tải xuống và trải nghiệm trong các IDE chính thống như VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm và Android Studio.
**Mô hình lớn trong nước hoàn toàn tự phát triển **
Tại hội nghị, Zhang Peng, Giám đốc điều hành của Zhipu AI, đã đưa ra ý kiến của riêng mình ngay từ đầu - năm đầu tiên của mô hình lớn không phải là năm ChatGPT kích hoạt sự bùng nổ LLM, mà là vào năm 2020, khi GPT-3 ra đời.
Vào thời điểm đó, Zhipu AI, mới được thành lập được một năm, bắt đầu sử dụng sức mạnh của toàn công ty để TẤT CẢ trong các mô hình lớn.
Là một trong những công ty đầu tiên tham gia nghiên cứu mô hình quy mô lớn, Zhipu AI đã tích lũy đủ khả năng dịch vụ doanh nghiệp; Là một trong những "công ty đầu tiên ăn cua" trên mã nguồn mở, ChatGLM-6B đứng đầu danh sách xu hướng ôm mặt trong vòng bốn tuần kể từ khi ra mắt và giành được 5w + sao trên GitHub.
Việc phát hành ChatGLM3 giúp dòng sản phẩm full-model mà Zhipu AI đã xây dựng mạnh mẽ hơn.
Vào năm 2023, khi cuộc chiến đang hoành hành trong ngành công nghiệp mô hình lớn, Zhipu AI một lần nữa đứng trong ánh đèn sân khấu và chiếm lợi thế người đi đầu với ChatGLM3 mới được nâng cấp.
Tài nguyên:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Thanh Hoa Sở ChatGLM3 trình diễn khuôn mặt trực tiếp! Đa phương thức gần với GPT-4V và Trình thông dịch mã trong nước sắp ra mắt
Nguồn gốc: New Zhiyuan
Mẫu bệ thế hệ thứ ba tự phát triển ChatGLM3 được ra mắt hôm nay!
Đây là một tối ưu hóa khác của mô hình cơ sở ChatGLM của nhóm Zhipu AI kể từ khi ra mắt mô hình thế hệ thứ hai vào tháng Sáu.
Ngoài ra, tại Hội nghị Máy tính Trung Quốc (CNCC) 2023 vào ngày 27/10, Zhipu AI cũng có mã nguồn mở ChatGLM3-6B (32k), CogVLM-17B đa phương thức và đại lý AgentLM.
Sau khi phát hành loạt mô hình ChatGLM3, Zhipu trở thành công ty duy nhất ở Trung Quốc đã đánh giá dòng sản phẩm mô hình đầy đủ của OpenAI.
Mô hình này hoàn toàn tự phát triển, thích ứng với chip trong nước, với hiệu suất mạnh hơn và hệ sinh thái nguồn mở hơn.
Là công ty đầu tiên tham gia nghiên cứu mô hình quy mô lớn, Zhipu AI là công ty đầu tiên nộp bài báo!
Hơn nữa, Zhipu AI đã hoàn thành tổng cộng hơn 2,5 tỷ nhân dân tệ tài trợ trong năm nay, Meituan, Ant, Alibaba, Tencent... Danh sách các nhà đầu tư xa xỉ đều cho thấy sự tin tưởng mạnh mẽ của ngành vào Zhipu AI.
** Nhắm đến nâng cấp kỹ thuật của GPT-4V **
Hiện tại, mô hình tầm nhìn đa phương thức GPT-4V đã cho thấy khả năng nhận dạng hình ảnh mạnh mẽ.
Đồng thời, hướng đến GPT-4V, Zhipu AI cũng đã nâng cấp lặp đi lặp lại các khả năng khác của ChatGLM3 lần này. Trong số đó, mô hình hiểu đa phương thức CogVLM có thể cố gắng hiểu và làm mới 10+ bộ dữ liệu đánh giá văn bản và đồ họa tiêu chuẩn quốc tế SOTA. Hiện tại, CogVLM-17B là mã nguồn mở.
Code Interpreter có thể tạo và thực thi code theo nhu cầu của người dùng, tự động hoàn thành các tác vụ phức tạp như phân tích dữ liệu và xử lý file.
Tìm kiếm trên web tăng cường WebGLM, có thể tự động tìm thông tin liên quan trên Internet theo câu hỏi và cung cấp liên kết để tham khảo tài liệu hoặc bài viết liên quan khi trả lời.
Ngoài ra, khả năng ngữ nghĩa và logic của ChatGLM3 cũng đã được nâng cao rất nhiều.
** Phiên bản 6B Mã nguồn mở trực tiếp **
Điều đáng nói là ngay khi ChatGLM3 được phát hành, Zhipu AI đã trực tiếp mở nguồn mô hình thông số 6B cho cộng đồng.
Kết quả đánh giá cho thấy so với ChatGLM 2 và so với các mô hình trong nước có cùng kích thước, ChatGLM3-6B đứng đầu trong 9 trong số 44 bài kiểm tra bộ dữ liệu công khai của Trung Quốc và tiếng Anh.
MMLU tăng 36%, C tăng 33%, GSM8K tăng 179% và BBH tăng 126%.
Phiên bản 32k mã nguồn mở của nó, ChatGLM3-6B-32K, hoạt động tốt nhất trong LongBench.
Ngoài ra, đây là "công nghệ tối ưu hóa bộ nhớ video + suy luận động hiệu quả" mới nhất làm cho khung suy luận hiện tại hiệu quả hơn trong cùng điều kiện phần cứng và mô hình.
So với việc triển khai mã nguồn mở tốt nhất hiện nay, so với vLLM do Đại học Berkeley đưa ra và phiên bản mới nhất của Hugging Face TGI, tốc độ suy luận được tăng gấp 2-3 lần và chi phí suy luận giảm 1 lần, chỉ với 0,5 điểm trên một nghìn token, đây là chi phí thấp nhất.
** Tự phát triển AgentTuning, kích hoạt khả năng của tổng đài viên**
Điều đáng ngạc nhiên hơn nữa là ChatGLM3 cũng mang đến một khả năng đại lý mới.
Zhipu AI hy vọng rằng các mô hình lớn có thể giao tiếp tốt hơn với các công cụ bên ngoài thông qua API và thậm chí nhận ra sự tương tác mô hình lớn thông qua các tác nhân.
Bằng cách tích hợp công nghệ AgentTuning tự phát triển, khả năng tác nhân thông minh của mô hình có thể được kích hoạt, đặc biệt là về lập kế hoạch và thực hiện thông minh, cao hơn 1000% so với ChatGLM 2.
Trên AgentBench mới nhất, ChatGLM3-turbo gần với GPT-3.5.
Đồng thời, AgentLM cũng mở cho cộng đồng nguồn mở. Những gì nhóm Zhipu AI hy vọng là làm cho mô hình nguồn mở đạt được hoặc thậm chí vượt quá khả năng tác nhân của mô hình nguồn đóng.
Điều này có nghĩa là tác nhân sẽ cho phép hỗ trợ riêng cho các mô hình lớn trong nước cho các tình huống phức tạp như "gọi công cụ, thực thi mã, trò chơi, hoạt động cơ sở dữ liệu, tìm kiếm và suy luận đồ thị tri thức và hệ điều hành".
**1.5B / 3B được phát hành cùng một lúc, điện thoại di động có thể chạy **
Bạn muốn chạy ChatGLM trên điện thoại của mình? OK!
Lần này, ChatGLM3 cũng ra mắt mô hình thử nghiệm thiết bị đầu cuối có thể triển khai trên điện thoại di động, với hai thông số: 1.5B và 3B.
Nó có thể hỗ trợ nhiều loại điện thoại di động bao gồm Vivo, Xiaomi, Samsung và các nền tảng trong xe, và thậm chí hỗ trợ suy luận chip CPU trên nền tảng di động, với tốc độ lên tới 20 mã thông báo / s.
Về độ chính xác, hiệu suất của các mô hình 1.5B và 3B gần với hiệu suất của mô hình ChatGLM2-6B trong đánh giá điểm chuẩn công khai, vì vậy hãy tiếp tục và thử nó!
** Một thế hệ mới của "Zhipu Qingyan" đã được ra mắt hoàn toàn **
Cũng giống như ChatGPT có một mô hình GPT-4 mạnh mẽ đằng sau nó, trợ lý AI tạo ra "Zhipu Qingyan" của nhóm Zhipu AI cũng được ChatGLM3 ban phước.
Sau khi trình diễn phát sóng trực tiếp của đội ngũ này, chức năng đã trực tiếp được đưa ra, và điều chính là một sự chân thành!
Địa chỉ kiểm tra:
Trình thông dịch mã
Là một trong những plugin phổ biến nhất cho ChatGPT, Advanced Data Analysis (trước đây là Code Interpreter) có thể phân tích các vấn đề với tư duy toán học hơn dựa trên đầu vào ngôn ngữ tự nhiên và tạo mã thích hợp cùng một lúc.
Giờ đây, với sự hỗ trợ của ChatGLM3 mới được nâng cấp, "Zhipu Qingyan" đã trở thành sản phẩm mô hình quy mô lớn đầu tiên có khả năng Phân tích dữ liệu nâng cao ở Trung Quốc, có thể hỗ trợ xử lý hình ảnh, tính toán toán học, phân tích dữ liệu và các tình huống sử dụng khác.
Sự lãng mạn của những người đàn ông khoa học và kỹ thuật chỉ có thể được hiểu bởi "Zhipu Qingyan".
Mặc dù CEO Zhang Peng đã thực hiện một màn trình diễn trực tiếp để vẽ một cú lật ngược "trái tim đỏ", nhưng hãy thử lại, và kết quả đã xuất hiện trong vài giây.
Với việc bổ sung các khả năng mô hình lớn WebGLM, "Zhipu Qingyan" giờ đây cũng có khả năng tìm kiếm nâng cao - nó có thể tóm tắt câu trả lời cho các câu hỏi dựa trên thông tin mới nhất trên Internet và đính kèm các liên kết tham khảo.
Ví dụ, iPhone 15 gần đây đã mở ra một làn sóng giảm giá, biến động cụ thể lớn như thế nào?
Câu trả lời mà "Zhipu Qingyan" đưa ra không tệ!
Mô hình CogVLM cải thiện khả năng hiểu văn bản và hình ảnh Trung Quốc của Zhipu Qingyan, và có được khả năng hiểu hình ảnh gần với GPT-4V.
Nó có thể trả lời các loại câu hỏi trực quan khác nhau và có thể hoàn thành việc phát hiện đối tượng phức tạp, ghi nhãn và chú thích dữ liệu tự động hoàn chỉnh.
Ví dụ: hãy để CogVLM xác định có bao nhiêu người trong ảnh.
**GLM vs GPT: Điểm chuẩn toàn bộ dòng sản phẩm của OpenAI! **
Từ ChatGPT, một ứng dụng trò chuyện và hội thoại, Trình thông dịch mã, một plugin tạo mã, đến DALL· E 3, và sau đó đến mô hình đa phương thức trực quan GPT-4V, OpenAI hiện có một bộ kiến trúc sản phẩm hoàn chỉnh.
Nhìn lại Trung Quốc, công ty duy nhất có thể đạt được độ phủ sản phẩm toàn diện nhất là Zhipu AI.
Không cần phải nói thêm về sự ra đời của gà rán phổ biến ChatGPT.
Vào đầu năm nay, nhóm Zhipu AI cũng đã phát hành ChatGLM, một mô hình đối thoại cấp 100 tỷ.
Dựa trên ý tưởng thiết kế của ChatGPT, các nhà phát triển đã tiêm mã đào tạo trước vào mô hình cơ sở 100 tỷ GLM-130B.
Trên thực tế, ngay từ năm 2022, Zhipu AI đã mở GLM-130B cho cộng đồng nghiên cứu và ngành công nghiệp, và nghiên cứu này cũng đã được ACL 2022 và ICLR 2023 chấp nhận.
Cả hai mẫu ChatGLM-6B và ChatGLM-130B đều được đào tạo về kho dữ liệu tiếng Trung và tiếng Anh có chứa mã thông báo 1T, sử dụng tinh chỉnh có giám sát (SFT), bootstrap phản hồi và học tăng cường phản hồi của con người (RLHF).
Vào ngày 14 tháng 3, Zhipu AI đã mở nguồn ChatGLM-6B cho cộng đồng và giành vị trí đầu tiên trong đánh giá của bên thứ ba về ngôn ngữ tự nhiên Trung Quốc, đối thoại tiếng Trung, Hỏi & Đáp tiếng Trung và các nhiệm vụ lý luận.
Đồng thời, hàng trăm dự án hay ứng dụng dựa trên ChatGLM-6B ra đời.
Để thúc đẩy hơn nữa sự phát triển của cộng đồng nguồn mở mô hình lớn, Zhipu AI đã phát hành ChatGLM2 vào tháng 6 và mô hình đối thoại cơ sở 100 tỷ đã được nâng cấp và mã nguồn mở, bao gồm các kích thước khác nhau 6B, 12B, 32B, 66B và 130B, cải thiện khả năng và làm phong phú thêm các kịch bản.
Điều đáng nói là chỉ trong vài tháng, ChatGLM-6B và ChatGLM2-6B đã được sử dụng rộng rãi.
Hiện tại, tổng cộng 50.000+ sao đã được thu thập trên GitHub. Ngoài ra, có 10.000.000+ lượt tải xuống trên Hugging Face, đứng đầu trong xu hướng bốn tuần.
** Cải tiến tìm kiếm: WebGPT so với WebGLM**
Để giải quyết vấn đề "ảo ảnh" của các mô hình lớn, giải pháp chung là kết hợp kiến thức trong công cụ tìm kiếm và để mô hình lớn thực hiện "tăng cường truy xuất".
Ngay từ năm 2021, OpenAI đã tinh chỉnh một mô hình có thể tổng hợp kết quả tìm kiếm dựa trên GPT-3 - WebGPT.
WebGPT mô hình hóa hành vi tìm kiếm của con người, tìm kiếm trong các trang web để tìm câu trả lời có liên quan và cung cấp các nguồn trích dẫn, để có thể truy tìm kết quả đầu ra.
Quan trọng nhất, nó đã đạt được kết quả tuyệt vời trong phần Hỏi && Đáp dài về miền mở.
Dưới sự hướng dẫn của ý tưởng này, WebGLM, mô hình "phiên bản nối mạng" của ChatGLM, đã ra đời, là mô hình dựa trên tinh chỉnh tham số 10 tỷ của ChatGLM và trọng tâm chính là tìm kiếm mạng.
Ví dụ, khi bạn muốn biết tại sao bầu trời có màu xanh. WebGLM ngay lập tức đưa ra câu trả lời trực tuyến và bao gồm một liên kết để nâng cao độ tin cậy của phản hồi của mô hình.
Retriever dựa trên LLM được chia thành hai giai đoạn, một là truy xuất mạng hạt thô (tìm kiếm, mua lại, khai thác) và giai đoạn còn lại là truy xuất chưng cất hạt mịn.
Trong toàn bộ quá trình của retriever, thời gian chủ yếu được tiêu tốn trong quá trình tìm nạp trang web, vì vậy WebGLM sử dụng công nghệ không đồng bộ song song để nâng cao hiệu quả.
Trình tạo bootstrap là cốt lõi và chịu trách nhiệm tạo ra câu trả lời chất lượng cao cho các câu hỏi từ các trang tham khảo thu được từ chó truy xuất.
Nó sử dụng khả năng suy luận theo ngữ cảnh của các mô hình lớn để tạo ra các bộ dữ liệu QA chất lượng cao và thiết kế các chiến lược hiệu chỉnh và lựa chọn để lọc ra các tập hợp con chất lượng cao để đào tạo.
Kết quả thử nghiệm cho thấy WebGLM có thể cung cấp kết quả chính xác hơn và hoàn thành các nhiệm vụ Hỏi &Đáp một cách hiệu quả. Thậm chí, nó có thể tiếp cận WebGPT với 175 tỷ thông số với hiệu suất 10 tỷ thông số.
Hiểu hình ảnh và văn bản: GPT-4V so với CogVLM
Vào tháng 9 năm nay, OpenAI đã chính thức dỡ bỏ lệnh cấm đối với khả năng đa phương thức tuyệt vời của GPT-4.
GPT-4V, được hỗ trợ bởi điều này, có khả năng hiểu hình ảnh mạnh mẽ và có thể xử lý các đầu vào đa phương thức hỗn hợp tùy ý.
Ví dụ, nó không thể nói rằng món ăn trong hình là đậu phụ mapo, và nó thậm chí có thể cung cấp các thành phần để làm nó.
Khác với các phương pháp hợp nhất nông thông thường, CogVLM kết hợp một mô-đun chuyên gia thị giác có thể đào tạo vào cơ chế chú ý và lớp mạng nơ-ron chuyển tiếp.
Thiết kế này đạt được sự liên kết sâu sắc giữa các tính năng hình ảnh và văn bản, bù đắp hiệu quả cho sự khác biệt giữa mô hình ngôn ngữ được đào tạo trước và bộ mã hóa hình ảnh.
Hiện tại, CogVLM-17B là mô hình có điểm toàn diện đầu tiên trong danh sách học thuật có thẩm quyền đa phương thức và đã đạt được kết quả SOTA hoặc vị trí thứ hai trên 14 bộ dữ liệu.
Nó đạt được hiệu suất tốt nhất (SOTA) trên 10 điểm chuẩn đa phương thức có thẩm quyền, bao gồm NoCaps, phụ đề Flicker30k, RefCOCO, RefCOCO +, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA và TDIUC.
Các mô hình đa phương thức trước đây thường căn chỉnh các tính năng hình ảnh trực tiếp với không gian đầu vào của các tính năng văn bản và bộ mã hóa các tính năng hình ảnh thường nhỏ, trong trường hợp này, hình ảnh có thể được coi là "chư hầu" của văn bản và hiệu ứng bị hạn chế một cách tự nhiên.
Mặt khác, CogVLM ưu tiên sự hiểu biết trực quan trong mô hình đa phương thức, sử dụng bộ mã hóa tầm nhìn tham số 5B và mô-đun chuyên gia thị giác tham số 6B để mô hình hóa các tính năng hình ảnh với tổng số thông số 11B, thậm chí nhiều hơn lượng văn bản tham số 7B.
Trong một số thử nghiệm, CogVLM thậm chí còn vượt trội hơn GPT-4V.
CogVLM có thể xác định chính xác 4 ngôi nhà này, trong khi GPT-4V chỉ có thể xác định 3.
Trong câu hỏi này, hình ảnh với văn bản được kiểm tra.
Mô hình đồ thị Wensheng mạnh nhất của OpenAI là DALL· E 3 cũng vậy.
Ý tưởng tổng thể của CogView là thực hiện đào tạo tự hồi quy bằng cách nối các tính năng văn bản và các tính năng mã thông báo hình ảnh. Cuối cùng, chỉ có tính năng mã thông báo văn bản được nhập và mô hình có thể liên tục tạo mã thông báo hình ảnh.
Cụ thể, văn bản "Hình đại diện của một chú mèo con dễ thương" lần đầu tiên được chuyển đổi thành mã thông báo và mô hình SentencePiece được sử dụng ở đây.
Sau đó, một hình ảnh của một con mèo được đưa vào và phần hình ảnh được chuyển đổi thành mã thông báo thông qua bộ giải mã tự động rời rạc.
Sau đó, các tính năng mã thông báo văn bản và hình ảnh được ghép lại với nhau, sau đó nhập vào mô hình GPT của kiến trúc Transformer để tìm hiểu cách tạo hình ảnh.
So sánh DALL· E và các sơ đồ GAN phổ biến, kết quả của CogView đã được cải thiện rất nhiều.
Vào năm 2022, các nhà nghiên cứu đã nâng cấp mô hình đồ thị Wensheng CogView2 một lần nữa và hiệu quả được so sánh trực tiếp với DALL · Tập 2。
So với CogView, kiến trúc của CogView2 áp dụng transfomer phân cấp và chế độ tự hồi quy song song để tạo hình ảnh.
Trong bài báo, các nhà nghiên cứu đã đào tạo trước một mô hình Biến áp 6 tỷ tham số, Mô hình ngôn ngữ chung đa phương thức (CogLM) và tinh chỉnh nó để đạt được độ phân giải siêu nhanh.
Vào tháng 11 cùng năm, nhóm đã xây dựng một mô hình tạo văn bản thành video, CogVideo, dựa trên mô hình CogView2.
Kiến trúc mô hình được chia thành hai mô-đun: phần đầu tiên dựa trên CogView2 và tạo ra một số khung hình ảnh từ văn bản. Phần thứ hai là nội suy hình ảnh dựa trên mô hình chú ý hai chiều để tạo ra một video hoàn chỉnh với tốc độ khung hình cao hơn.
Mã: Codex so với Mã GeeX
Trong lĩnh vực tạo mã, OpenAI đã phát hành Codex mới và nâng cấp vào đầu tháng 8/2021 và thành thạo hơn 10 ngôn ngữ lập trình bao gồm Python, Java, Go, Perl, PHP, Ruby, Swift, Type và thậm chí cả Shell.
Người dùng có thể chỉ cần đưa ra một lời nhắc đơn giản và yêu cầu Codex viết mã tự động bằng ngôn ngữ tự nhiên.
Codex được đào tạo trên GPT-3 và dữ liệu chứa hàng tỷ dòng mã nguồn. Ngoài ra, Codex có thể hỗ trợ thông tin theo ngữ cảnh dài hơn 3 lần so với GPT-3.
Vào tháng 7 năm 2023, Zhipu đã phát hành CodeGeeX2-6B mạnh hơn, nhanh hơn và nhẹ hơn, có thể hỗ trợ hơn 100 ngôn ngữ và trọng lượng hoàn toàn mở cho nghiên cứu học thuật.
CodeGeeX2 dựa trên kiến trúc ChatGLM2 mới và được tối ưu hóa cho nhiều tác vụ liên quan đến lập trình, chẳng hạn như tự động hoàn thành mã, tạo mã, dịch mã, hoàn thành mã tệp chéo và hơn thế nữa.
Nhờ nâng cấp ChatGLM2, CodeGeeX2 không chỉ có thể hỗ trợ tốt hơn đầu vào tiếng Trung và tiếng Anh, cũng như độ dài chuỗi tối đa là 8192 mà còn cải thiện đáng kể các chỉ số hiệu suất khác nhau - Python + 57%, C ++ + 71%, Java + 54%, Java + 83%, Go + 56%, Rust + 321%.
Trong bài đánh giá của con người, CodeGeeX2 đã vượt qua toàn diện mô hình StarCoder tham số 15 tỷ, cũng như mô hình Code-Cushman-001 của OpenAI (mô hình được sử dụng bởi GitHub Copilot).
Ngoài ra, tốc độ suy luận của CodeGeeX2 cũng nhanh hơn so với CodeGeeX-13B thế hệ đầu tiên, chỉ cần 6GB bộ nhớ video để chạy sau khi lượng tử hóa và hỗ trợ triển khai cục bộ hóa nhẹ.
Hiện tại, plugin CodeGeeX có thể được tải xuống và trải nghiệm trong các IDE chính thống như VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm và Android Studio.
**Mô hình lớn trong nước hoàn toàn tự phát triển **
Tại hội nghị, Zhang Peng, Giám đốc điều hành của Zhipu AI, đã đưa ra ý kiến của riêng mình ngay từ đầu - năm đầu tiên của mô hình lớn không phải là năm ChatGPT kích hoạt sự bùng nổ LLM, mà là vào năm 2020, khi GPT-3 ra đời.
Vào thời điểm đó, Zhipu AI, mới được thành lập được một năm, bắt đầu sử dụng sức mạnh của toàn công ty để TẤT CẢ trong các mô hình lớn.
Là một trong những công ty đầu tiên tham gia nghiên cứu mô hình quy mô lớn, Zhipu AI đã tích lũy đủ khả năng dịch vụ doanh nghiệp; Là một trong những "công ty đầu tiên ăn cua" trên mã nguồn mở, ChatGLM-6B đứng đầu danh sách xu hướng ôm mặt trong vòng bốn tuần kể từ khi ra mắt và giành được 5w + sao trên GitHub.
Vào năm 2023, khi cuộc chiến đang hoành hành trong ngành công nghiệp mô hình lớn, Zhipu AI một lần nữa đứng trong ánh đèn sân khấu và chiếm lợi thế người đi đầu với ChatGLM3 mới được nâng cấp.
Tài nguyên: