Власноруч розроблена модель на п'єдесталі третього покоління ChatGLM3 представлена вже сьогодні!
Це ще одна оптимізація базової моделі ChatGLM командою Zhipu AI з моменту запуску моделі другого покоління в червні.
Крім того, на Китайській комп'ютерній конференції (CNCC) 2023 року 27 жовтня Zhipu AI також відкрила вихідний код ChatGLM3-6B (32k), мультимодальний CogVLM-17B та агент AgentLM.
Після випуску серії моделей ChatGLM3 Zhipu стала єдиною компанією в Китаї, яка провела бенчмарк повної лінійки моделей OpenAI.
Помічник генеративного ШІ Zhipu Qingyan також став першим великомасштабним модельним продуктом з можливостями взаємодії коду в Китаї.
Модель повністю розроблена самостійно, адаптується до вітчизняних чіпів, з більш високою продуктивністю та більш відкритою екосистемою.
Як перша компанія, яка взяла участь у масштабному дослідженні моделей, Zhipu AI є першою, хто представив статтю!
Крім того, цього року Zhipu AI завершила фінансування на загальну суму понад 2,5 мільярда юанів, Meituan, Ant, Alibaba, Tencent... Розкішний список інвесторів свідчить про сильну довіру галузі до Zhipu AI.
Націлений на технічне оновлення GPT-4V
В даний час мультимодальна модель зору GPT-4V показала потужні можливості розпізнавання зображень.
У той же час, націлившись на GPT-4V, Zhipu AI цього разу також ітеративно оновив інші можливості ChatGLM3. Серед них мультимодальна модель розуміння CogVLM може спробувати зрозуміти та оновити 10+ міжнародних стандартних графічних та текстових наборів даних SOTA. В даний час CogVLM-17B має відкритий вихідний код.
Code Interpreter може генерувати та виконувати код відповідно до потреб користувача, автоматично виконуючи складні завдання, такі як аналіз даних та обробка файлів.
Веб-пошук покращує WebGLM, який може автоматично знаходити в Інтернеті відповідну інформацію відповідно до запитання та надавати посилання на літературу або статті, пов'язані з посиланнями, під час відповіді.
Крім того, семантичні та логічні можливості ChatGLM3 також були значно покращені.
Версія 6B з прямим відкритим вихідним кодом
Варто згадати, що після випуску ChatGLM3 Zhipu AI безпосередньо відкрив вихідний код моделі параметрів 6B для спільноти.
Результати оцінки показують, що в порівнянні з ChatGLM 2 і в порівнянні з вітчизняними моделями такого ж розміру, ChatGLM3-6B посів перше місце в 9 з 44 тестів загальнодоступних наборів даних Китаю та Англії.
MMLU зріс на 36%, C – на 33%, GSM8K – на 179%, BBH – на 126%.
Його версія з відкритим вихідним кодом 32k, ChatGLM3-6B-32K, найкраще працює в LongBench.
Крім того, це новітня «ефективна технологія динамічного висновування + оптимізація відеопам'яті», яка робить поточну структуру логічного висновку більш ефективною в тих же апаратних і модельних умовах.
У порівнянні з поточною найкращою реалізацією з відкритим вихідним кодом, у порівнянні з vLLM, запущеним Університетом Берклі, та останньою версією Hugging Face TGI, швидкість виведення збільшується в 2-3 рази, а вартість виведення знижується в 1 раз, лише 0,5 бала за тисячу токенів, що є найнижчою вартістю.
Самостійно розроблений AgentTuning, активація агентських здібностей
Що ще більш дивно, так це те, що ChatGLM3 також приносить нову агентську здатність.
Zhipu AI сподівається, що великі моделі зможуть краще взаємодіяти із зовнішніми інструментами через API і навіть реалізувати взаємодію великих моделей за допомогою агентів.
Інтегруючи власноруч розроблену технологію AgentTuning, можна активувати інтелектуальні агентні можливості моделі, особливо з точки зору інтелектуального планування та виконання, які на 1000% вищі, ніж у ChatGLM 2.
На останньому AgentBench ChatGLM3-turbo близький до GPT-3.5.
У той же час, AgentLM також відкритий для спільноти з відкритим вихідним кодом. Команда Zhipu AI сподівається досягти або навіть перевищити агентські можливості моделі із закритим вихідним кодом.
Це означає, що агент забезпечить вбудовану підтримку вітчизняних великих моделей для складних сценаріїв, таких як «виклик інструментів, виконання коду, ігри, операції з базами даних, пошук і висновок у графах знань, а також операційні системи».
1.5B/3B випущений одночасно, мобільний телефон може працювати
Хочете запустити ChatGLM на своєму телефоні? ГАРАЗД!
Цього разу ChatGLM3 також запустив тестову модель терміналу, яку можна розгорнути на мобільних телефонах, з двома параметрами: 1,5B та 3B.
Він може підтримувати різноманітні мобільні телефони, включаючи Vivo, Xiaomi, Samsung і автомобільні платформи, і навіть підтримує виведення чіпів ЦП на мобільних платформах зі швидкістю до 20 токенів/с.
З точки зору точності, продуктивність моделей 1.5B і 3B близька до продуктивності моделі ChatGLM2-6B в публічній оцінці бенчмарку, так що вперед і спробуйте!
Нове покоління "Zhipu Qingyan" повністю запущено
Подібно до того, як за ChatGPT стоїть потужна модель GPT-4, генеративний помічник штучного інтелекту «Чжипу Цінянь» команди Zhipu AI також благословенний ChatGLM3.
Після прямої трансляції демонстрації цієї команди безпосередньо запустили функцію, а головне – щирість!
Адреса тесту:
Інтерпретатор коду
Як один із найпопулярніших плагінів для ChatGPT, Advanced Data Analysis (раніше Code Interpreter) може аналізувати проблеми з більшим математичним мисленням на основі введення природної мови та одночасно генерувати відповідний код.
Тепер, за підтримки нещодавно оновленого ChatGLM3, «Zhipu Qingyan» став першим великомасштабним модельним продуктом з можливостями розширеного аналізу даних у Китаї, який може підтримувати обробку зображень, математичні обчислення, аналіз даних та інші сценарії використання.
Романтику людей науки та інженера може зрозуміти лише «Чжипу Цінянь».
Хоча генеральний директор Чжан Пен виконав живий виступ, щоб намалювати переворот «червоного серця», але спробуйте ще раз, і результат вийшов за лічені секунди.
Так само оновлений ChatGLM3 також дуже добре справляється з аналізом даних.
Після деякого аналізу можна побудувати гістограму розподілу довжин на основі довжини поля.
### Покращення пошуку
З додаванням можливостей великої моделі WebGLM, «Чжіпу Цінянь» тепер також має можливість розширеного пошуку - він може узагальнювати відповіді на питання на основі останньої інформації в Інтернеті, і прикріплювати довідкові посилання.
Наприклад, iPhone 15 нещодавно започаткував хвилю зниження цін, наскільки велике конкретне коливання?
Відповідь, яку дає «Чжипу Цінянь», непогана!
### Графічне розуміння
Модель CogVLM покращує здатність Чжіпу Ціняня розуміти китайські зображення та текст і отримує здатність до розуміння зображення, близьку до GPT-4V.
Він може відповідати на різні типи візуальних запитань, а також може виконувати складне виявлення об'єктів, маркування та повну автоматичну анотацію даних.
Як приклад, нехай CogVLM визначить, скільки людей на малюнку.
Додайте трохи складності, а потім дайте картинку трьох апельсинів разом, і ви також зможете точно визначити кількість.
Неймар, Мессі, Роналду, КогВЛМ також однозначні.
Для візуальних математичних задач, де додається 2 яблука і 1 яблуко, CogVLM також може зробити це правильно.
**GLM проти GPT: Бенчмаркінг повної лінійки продуктів OpenAI! **
Від ChatGPT, програми для чату та розмов, Code Interpreter, плагіна для генерації коду, до DALL· E 3, а потім до візуальної мультимодальної моделі GPT-4V, OpenAI наразі має повний набір архітектури продукту.
Озираючись назад на Китай, єдиною компанією, яка може досягти найповнішого охоплення продукту, є Zhipu AI.
### Розмова: ChatGPT проти ЧатGLM
Більше про впровадження популярного смаженої курки ChatGPT говорити не доводиться.
На початку цього року команда Zhipu AI також випустила ChatGLM — модель діалогу на 100-мільярдний рівень.
Спираючись на дизайнерські ідеї ChatGPT, розробники впровадили попереднє навчання коду в 100-мільярдну базову модель GLM-130B.
Фактично, ще у 2022 році Zhipu AI відкрив GLM-130B для дослідницької спільноти та промисловості, і це дослідження також було прийнято ACL 2022 та ICLR 2023.
Обидві моделі ChatGLM-6B і ChatGLM-130B були навчені на китайських та англійських корпусах, що містять токени 1T, з використанням контрольованого тонкого налаштування (SFT), початкового завантаження зворотного зв'язку та навчання з підкріпленням зворотного зв'язку людини (RLHF).
Модель ChatGLM здатна генерувати відповіді, які відповідають уподобанням людини. У поєднанні з технологією квантування користувачі можуть розгортати локально на відеокартах споживчого класу (на рівні квантування INT4 потрібно лише 6 ГБ відеопам'яті), а також запускати власний ChatGLM на ноутбуках на базі моделі GLM.
14 березня Zhipu AI відкрив вихідний код ChatGLM-6B для спільноти та посів перше місце в незалежній оцінці китайської природної мови, китайського діалогу, китайських запитань і відповідей та завдань на міркування.
Тоді ж на світ з'явилися сотні проектів або додатків на базі ChatGLM-6B.
Щоб ще більше сприяти розвитку великої спільноти моделей з відкритим вихідним кодом, Zhipu AI випустив ChatGLM2 у червні, і 100-мільярдна базова діалогова модель була оновлена та з відкритим вихідним кодом, включаючи 6B, 12B, 32B, 66B та 130B різних розмірів, покращуючи можливості та збагачуючи сценарії.
ChatGLM 2 посідає перше місце в китайському списку, станом на 25 червня 2023 року ChatGLM2 посідає місце в C-списку Rank 0, а ChatGLM2-6B – у 6 ранзі. У порівнянні з моделлю першого покоління, ChatGLM 2 досяг 16%, 36% і 280% поліпшень в MMLU, C- і GSM8K відповідно.
Варто згадати, що всього за кілька місяців ChatGLM-6B і ChatGLM2-6B отримали широке застосування.
На даний момент на GitHub зібрано 50 000+ зірок. Крім того, на Hugging Face є 10 000 000+ завантажень, що займає перше місце в чотиритижневому тренді.
ChatGLM-6B:
ChatGLM2-6B:
Покращення пошуку: WebGPT проти WebGLM
Для того, щоб вирішити проблему «ілюзії» великих моделей, загальне рішення полягає в тому, щоб об'єднати знання в пошуковій системі і дозволити великій моделі здійснювати «пошукове поліпшення».
Ще у 2021 році OpenAI доопрацювала модель, яка може агрегувати результати пошуку на основі GPT-3 – WebGPT.
WebGPT моделює поведінку людини в пошуку, шукає на веб-сторінках, щоб знайти релевантні відповіді, і надає джерела цитування, щоб можна було відстежити вихідні результати.
Найголовніше, що він досяг чудових результатів у довгих питаннях і відповідях у відкритому домені.
Під керівництвом цієї ідеї народилася WebGLM, модель «мережевої версії» ChatGLM, яка є моделлю, заснованою на тонкому налаштуванні параметрів ChatGLM у 10 мільярдів, а основним напрямком є мережевий пошук.
Адреса:
Наприклад, коли ви хочете дізнатися, чому небо блакитне. WebGLM негайно дає відповідь в Інтернеті та містить посилання для підвищення довіри до відповіді моделі.
З архітектурної точки зору, система покращення пошуку WebGLM включає три важливі компоненти: ретривера, генератор і бомбардир.
Ретривер на основі LLM ділиться на два етапи, один - грубозернистий мережевий пошук (пошук, придбання, вилучення), а інший - дрібнозернистий дистиляційний пошук.
У всьому процесі роботи ретривера час в основному витрачається на процес отримання веб-сторінки, тому WebGLM використовує паралельну асинхронну технологію для підвищення ефективності.
Генератор початкового завантаження є ядром і відповідає за генерацію високоякісних відповідей на запитання з довідкових сторінок, отриманих від ретривера.
Він використовує можливості контекстного висновування великих моделей для створення високоякісних наборів даних QA, а також розробляє стратегії корекції та відбору для фільтрації високоякісних підмножин для навчання.
Остаточне оцінювання використовується для оцінки відповідей, згенерованих WebGLM, за допомогою RLHF, щоб узгодити їх з уподобаннями людини.
Експериментальні результати показують, що WebGLM може надавати більш точні результати та ефективно виконувати завдання запитань і відповідей. Навіть він може наблизитися до WebGPT зі 175 мільярдами параметрів при продуктивності 10 мільярдів параметрів.
Наразі це дослідження було прийнято KDD 2023, і команда Zhipu AI також відкрила вихідний код можливостей і наборів даних.
Адреса проекту:
Розуміння зображень і тексту: GPT-4V проти CogVLM
У вересні цього року OpenAI офіційно зняла заборону на дивовижні мультимодальні можливості GPT-4.
GPT-4V, який підтримується цим, має сильну здатність розуміти зображення та здатний обробляти довільно змішані мультимодальні вхідні дані.
Наприклад, він не може сказати, що страва на малюнку - це мапо тофу, і навіть може дати інгредієнти для його приготування.
У жовтні Zhipu відкрив вихідний код нової базової моделі візуальної мови, CogVLM, яка може реалізувати глибоку інтеграцію функцій візуальної мови без шкоди для продуктивності будь-яких завдань НЛП.
На відміну від поширених методів неглибокого злиття, CogVLM включає модуль експерта з зору, що навчається, в механізм уваги та рівень нейронної мережі прямого зв'язку.
Цей дизайн забезпечує глибоке вирівнювання між функціями зображення та тексту, ефективно компенсуючи відмінності між попередньо навченою мовною моделлю та кодувальником зображення.
В даний час CogVLM-17B є моделлю з першим комплексним балом в мультимодальному авторитетному академічному списку, і досягла результатів SOTA або другого місця в 14 наборах даних.
Він досягає найкращої продуктивності (SOTA) у 10 авторитетних крос-модальних тестах, включаючи NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA та TDIUC.
Основна ідея CogVLM – «візуал перш за все».
Попередні мультимодальні моделі зазвичай вирівнювали об'єкти зображення безпосередньо з вхідним простором текстових об'єктів, а кодер ознак зображення зазвичай невеликий, у цьому випадку зображення можна розглядати як «васала» тексту, і ефект, природно, обмежений.
CogVLM, з іншого боку, надає пріоритет візуальному розумінню в мультимодальній моделі, використовуючи 5B-параметричний кодер зору та 6B-параметричний експертний модуль зору для моделювання характеристик зображення із загальною кількістю параметрів 11B, що навіть більше, ніж кількість тексту 7B-параметрів.
У деяких тестах CogVLM навіть перевершив GPT-4V.
На знімку 4 будинки, 3 видно повністю, а 1 можна побачити, тільки якщо наблизити масштаб.
CogVLM може точно ідентифікувати ці 4 будинки, тоді як GPT-4V може ідентифікувати лише 3.
У цьому питанні тестуються картинки з текстом.
CogVLM достовірно описує сцену і відповідний текст.
### Діаграма Веньшена: DALL· Е проти CogView
Найпотужнішою графічною моделлю Wensheng від OpenAI є DALL· Е 3 теж.
На противагу цьому, команда Zhipu AI запустила CogView, універсальну попередньо навчену модель перетворення тексту в зображення.
Адреса:
Загальна ідея CogView полягає у виконанні авторегресійного навчання шляхом зрощування функцій тексту та функцій токенів зображення. Нарешті, вводиться лише функція текстового токена, і модель може безперервно генерувати токени зображень.
Зокрема, текст «Аватар милого кошеняти» спочатку конвертується в токен, і тут використовується модель SentencePiece.
Потім подається зображення кота, а частина зображення перетворюється в токен через дискретний автоматичний декодер.
Потім функції токена тексту та зображення зшиваються разом, а потім вводяться в модель GPT архітектури Transformer, щоб навчитися генерувати зображення.
Нарешті, після завершення навчання модель відсортує згенеровані результати, обчисливши оцінку підпису, щоб вибрати найбільш відповідні результати під час завдання зі створення тексту в зображення.
Порівняння DALL· E і поширені схеми GAN, результати CogView були значно покращені.
У 2022 році дослідники знову оновили графову модель Веньшена CogView2, і ефект безпосередньо порівняли з DALL· E2。
Адреса:
У порівнянні з CogView, архітектура CogView2 використовує ієрархічний трансфомер і паралельний авторегресійний режим для генерації зображень.
У статті дослідники попередньо навчили модель трансформера з 6 мільярдами параметрів, крос-модальну загальну мовну модель (CogLM), і точно налаштували її для досягнення швидкої супер-роздільної здатності.
РЕЗУЛЬТАТИ ЕКСПЕРИМЕНТУ ПОКАЗАЛИ, ЩО ЗВ'ЯЗОК З ДАЛЛОМ· E2 також має перевагу генерації результатів за допомогою CogView2, а також може підтримувати інтерактивне редагування зображень за допомогою тексту.
У листопаді того ж року команда побудувала модель генерації тексту у відео CogVideo, засновану на моделі CogView2.
Архітектура моделі розділена на два модулі: перша частина базується на CogView2 і генерує кілька кадрів зображень з тексту. Друга частина полягає в інтерполяції зображення на основі моделі двосторонньої уваги, щоб згенерувати повноцінне відео з більш високою частотою кадрів.
В даний час всі перераховані вище моделі мають відкритий вихідний код. Чи такі прямолінійні та щирі команди з Цінхуа?
Код: Кодекс проти Код Німеччини (CodeGeeX)
У сфері генерації коду OpenAI випустила новий і оновлений Codex ще в серпні 2021 року і володіє більш ніж 10 мовами програмування, включаючи Python, Java, Go, Perl, PHP, Ruby, Swift, Type і навіть Shell.
Адреса:
Користувачі можуть просто дати просту підказку і змусити Кодекс автоматично писати код природною мовою.
Codex навчений на GPT-3, а дані містять мільярди рядків вихідного коду. Крім того, Codex може підтримувати контекстну інформацію, яка більш ніж у 3 рази довша, ніж GPT-3.
Будучи піонером у Китаї, у вересні 2022 року Zhipu відкрив вихідний код CodeGeeX, попередньо підготовлену модель для генерації, перекладу та інтерпретації мультипрограмних мов із 13 мільярдами параметрів, а пізніше був прийнятий KDD 2023 (Лонг-Біч).
Адреса:
У липні 2023 року Zhipu випустила потужніший, швидший і легший CodeGeeX2-6B, який може підтримувати понад 100 мов, а вага повністю відкрита для академічних досліджень.
Адреса проекту:
CodeGeeX2 заснований на новій архітектурі ChatGLM2 і оптимізований для різноманітних завдань, пов'язаних з програмуванням, таких як автодоповнення коду, генерація коду, переклад коду, перехресне доповнення коду тощо.
Завдяки оновленню ChatGLM2, CodeGeeX2 може не тільки краще підтримувати китайське та англійське введення, а також максимальну довжину послідовності 8192, але і значно поліпшити різні показники продуктивності - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
В огляді Human CodeGeeX2 всебічно перевершив модель StarCoder з 15 мільярдами параметрів, а також модель Code-Cushman-001 від OpenAI (модель, яка використовується GitHub Copilot).
Крім того, швидкість висновків CodeGeeX2 також вища, ніж у CodeGeeX-13B першого покоління, якому потрібно лише 6 ГБ відеопам'яті для запуску після квантування, і він підтримує легке локалізоване розгортання.
В даний час плагін CodeGeeX можна завантажити та випробувати в основних IDE, таких як VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm та Android Studio.
Вітчизняна велика модель повністю розроблена самостійно
На конференції генеральний директор Zhipu AI Чжан Пен на початку викинув власну думку – перший рік великої моделі припав не на рік, коли ChatGPT спровокував бум LLM, а на 2020-й, коли на світ з'явився GPT-3.
У той час Zhipu AI, який тільки був створений на один рік, почав використовувати потужність всієї компанії, щоб ВСЕ у великих моделях.
Будучи однією з перших компаній, яка взяла участь у широкомасштабному дослідженні моделей, Zhipu AI накопичила достатні можливості корпоративного обслуговування; Будучи однією з «перших компаній, які їли крабів» з відкритим вихідним кодом, ChatGLM-6B очолив список трендів Hugging face протягом чотирьох тижнів після запуску та отримав 5w+ зірок на GitHub.
Випуск ChatGLM3 робить повноцінну лінійку продуктів, створену Zhipu AI, потужнішою.
У 2023 році, коли у великій модельній індустрії вирує війна, Zhipu AI знову опиняється в центрі уваги та займає перевагу першопрохідця з нещодавно оновленим ChatGLM3.
Ресурси:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Жива демонстрація обличчя ChatGLM3 департаменту Цінхуа! Мультимодальність близька до GPT-4V, і на підході вітчизняний інтерпретатор коду
Першоджерело: Новий Чжиюань
Власноруч розроблена модель на п'єдесталі третього покоління ChatGLM3 представлена вже сьогодні!
Це ще одна оптимізація базової моделі ChatGLM командою Zhipu AI з моменту запуску моделі другого покоління в червні.
Крім того, на Китайській комп'ютерній конференції (CNCC) 2023 року 27 жовтня Zhipu AI також відкрила вихідний код ChatGLM3-6B (32k), мультимодальний CogVLM-17B та агент AgentLM.
Після випуску серії моделей ChatGLM3 Zhipu стала єдиною компанією в Китаї, яка провела бенчмарк повної лінійки моделей OpenAI.
Модель повністю розроблена самостійно, адаптується до вітчизняних чіпів, з більш високою продуктивністю та більш відкритою екосистемою.
Як перша компанія, яка взяла участь у масштабному дослідженні моделей, Zhipu AI є першою, хто представив статтю!
Крім того, цього року Zhipu AI завершила фінансування на загальну суму понад 2,5 мільярда юанів, Meituan, Ant, Alibaba, Tencent... Розкішний список інвесторів свідчить про сильну довіру галузі до Zhipu AI.
Націлений на технічне оновлення GPT-4V
В даний час мультимодальна модель зору GPT-4V показала потужні можливості розпізнавання зображень.
У той же час, націлившись на GPT-4V, Zhipu AI цього разу також ітеративно оновив інші можливості ChatGLM3. Серед них мультимодальна модель розуміння CogVLM може спробувати зрозуміти та оновити 10+ міжнародних стандартних графічних та текстових наборів даних SOTA. В даний час CogVLM-17B має відкритий вихідний код.
Code Interpreter може генерувати та виконувати код відповідно до потреб користувача, автоматично виконуючи складні завдання, такі як аналіз даних та обробка файлів.
Веб-пошук покращує WebGLM, який може автоматично знаходити в Інтернеті відповідну інформацію відповідно до запитання та надавати посилання на літературу або статті, пов'язані з посиланнями, під час відповіді.
Крім того, семантичні та логічні можливості ChatGLM3 також були значно покращені.
Версія 6B з прямим відкритим вихідним кодом
Варто згадати, що після випуску ChatGLM3 Zhipu AI безпосередньо відкрив вихідний код моделі параметрів 6B для спільноти.
Результати оцінки показують, що в порівнянні з ChatGLM 2 і в порівнянні з вітчизняними моделями такого ж розміру, ChatGLM3-6B посів перше місце в 9 з 44 тестів загальнодоступних наборів даних Китаю та Англії.
MMLU зріс на 36%, C – на 33%, GSM8K – на 179%, BBH – на 126%.
Його версія з відкритим вихідним кодом 32k, ChatGLM3-6B-32K, найкраще працює в LongBench.
Крім того, це новітня «ефективна технологія динамічного висновування + оптимізація відеопам'яті», яка робить поточну структуру логічного висновку більш ефективною в тих же апаратних і модельних умовах.
У порівнянні з поточною найкращою реалізацією з відкритим вихідним кодом, у порівнянні з vLLM, запущеним Університетом Берклі, та останньою версією Hugging Face TGI, швидкість виведення збільшується в 2-3 рази, а вартість виведення знижується в 1 раз, лише 0,5 бала за тисячу токенів, що є найнижчою вартістю.
Самостійно розроблений AgentTuning, активація агентських здібностей
Що ще більш дивно, так це те, що ChatGLM3 також приносить нову агентську здатність.
Zhipu AI сподівається, що великі моделі зможуть краще взаємодіяти із зовнішніми інструментами через API і навіть реалізувати взаємодію великих моделей за допомогою агентів.
Інтегруючи власноруч розроблену технологію AgentTuning, можна активувати інтелектуальні агентні можливості моделі, особливо з точки зору інтелектуального планування та виконання, які на 1000% вищі, ніж у ChatGLM 2.
На останньому AgentBench ChatGLM3-turbo близький до GPT-3.5.
У той же час, AgentLM також відкритий для спільноти з відкритим вихідним кодом. Команда Zhipu AI сподівається досягти або навіть перевищити агентські можливості моделі із закритим вихідним кодом.
Це означає, що агент забезпечить вбудовану підтримку вітчизняних великих моделей для складних сценаріїв, таких як «виклик інструментів, виконання коду, ігри, операції з базами даних, пошук і висновок у графах знань, а також операційні системи».
1.5B/3B випущений одночасно, мобільний телефон може працювати
Хочете запустити ChatGLM на своєму телефоні? ГАРАЗД!
Цього разу ChatGLM3 також запустив тестову модель терміналу, яку можна розгорнути на мобільних телефонах, з двома параметрами: 1,5B та 3B.
Він може підтримувати різноманітні мобільні телефони, включаючи Vivo, Xiaomi, Samsung і автомобільні платформи, і навіть підтримує виведення чіпів ЦП на мобільних платформах зі швидкістю до 20 токенів/с.
З точки зору точності, продуктивність моделей 1.5B і 3B близька до продуктивності моделі ChatGLM2-6B в публічній оцінці бенчмарку, так що вперед і спробуйте!
Нове покоління "Zhipu Qingyan" повністю запущено
Подібно до того, як за ChatGPT стоїть потужна модель GPT-4, генеративний помічник штучного інтелекту «Чжипу Цінянь» команди Zhipu AI також благословенний ChatGLM3.
Після прямої трансляції демонстрації цієї команди безпосередньо запустили функцію, а головне – щирість!
Адреса тесту:
Інтерпретатор коду
Як один із найпопулярніших плагінів для ChatGPT, Advanced Data Analysis (раніше Code Interpreter) може аналізувати проблеми з більшим математичним мисленням на основі введення природної мови та одночасно генерувати відповідний код.
Тепер, за підтримки нещодавно оновленого ChatGLM3, «Zhipu Qingyan» став першим великомасштабним модельним продуктом з можливостями розширеного аналізу даних у Китаї, який може підтримувати обробку зображень, математичні обчислення, аналіз даних та інші сценарії використання.
Романтику людей науки та інженера може зрозуміти лише «Чжипу Цінянь».
Хоча генеральний директор Чжан Пен виконав живий виступ, щоб намалювати переворот «червоного серця», але спробуйте ще раз, і результат вийшов за лічені секунди.
З додаванням можливостей великої моделі WebGLM, «Чжіпу Цінянь» тепер також має можливість розширеного пошуку - він може узагальнювати відповіді на питання на основі останньої інформації в Інтернеті, і прикріплювати довідкові посилання.
Наприклад, iPhone 15 нещодавно започаткував хвилю зниження цін, наскільки велике конкретне коливання?
Відповідь, яку дає «Чжипу Цінянь», непогана!
Модель CogVLM покращує здатність Чжіпу Ціняня розуміти китайські зображення та текст і отримує здатність до розуміння зображення, близьку до GPT-4V.
Він може відповідати на різні типи візуальних запитань, а також може виконувати складне виявлення об'єктів, маркування та повну автоматичну анотацію даних.
Як приклад, нехай CogVLM визначить, скільки людей на малюнку.
**GLM проти GPT: Бенчмаркінг повної лінійки продуктів OpenAI! **
Від ChatGPT, програми для чату та розмов, Code Interpreter, плагіна для генерації коду, до DALL· E 3, а потім до візуальної мультимодальної моделі GPT-4V, OpenAI наразі має повний набір архітектури продукту.
Озираючись назад на Китай, єдиною компанією, яка може досягти найповнішого охоплення продукту, є Zhipu AI.
Більше про впровадження популярного смаженої курки ChatGPT говорити не доводиться.
На початку цього року команда Zhipu AI також випустила ChatGLM — модель діалогу на 100-мільярдний рівень.
Спираючись на дизайнерські ідеї ChatGPT, розробники впровадили попереднє навчання коду в 100-мільярдну базову модель GLM-130B.
Фактично, ще у 2022 році Zhipu AI відкрив GLM-130B для дослідницької спільноти та промисловості, і це дослідження також було прийнято ACL 2022 та ICLR 2023.
Обидві моделі ChatGLM-6B і ChatGLM-130B були навчені на китайських та англійських корпусах, що містять токени 1T, з використанням контрольованого тонкого налаштування (SFT), початкового завантаження зворотного зв'язку та навчання з підкріпленням зворотного зв'язку людини (RLHF).
14 березня Zhipu AI відкрив вихідний код ChatGLM-6B для спільноти та посів перше місце в незалежній оцінці китайської природної мови, китайського діалогу, китайських запитань і відповідей та завдань на міркування.
Тоді ж на світ з'явилися сотні проектів або додатків на базі ChatGLM-6B.
Щоб ще більше сприяти розвитку великої спільноти моделей з відкритим вихідним кодом, Zhipu AI випустив ChatGLM2 у червні, і 100-мільярдна базова діалогова модель була оновлена та з відкритим вихідним кодом, включаючи 6B, 12B, 32B, 66B та 130B різних розмірів, покращуючи можливості та збагачуючи сценарії.
Варто згадати, що всього за кілька місяців ChatGLM-6B і ChatGLM2-6B отримали широке застосування.
На даний момент на GitHub зібрано 50 000+ зірок. Крім того, на Hugging Face є 10 000 000+ завантажень, що займає перше місце в чотиритижневому тренді.
Покращення пошуку: WebGPT проти WebGLM
Для того, щоб вирішити проблему «ілюзії» великих моделей, загальне рішення полягає в тому, щоб об'єднати знання в пошуковій системі і дозволити великій моделі здійснювати «пошукове поліпшення».
Ще у 2021 році OpenAI доопрацювала модель, яка може агрегувати результати пошуку на основі GPT-3 – WebGPT.
WebGPT моделює поведінку людини в пошуку, шукає на веб-сторінках, щоб знайти релевантні відповіді, і надає джерела цитування, щоб можна було відстежити вихідні результати.
Найголовніше, що він досяг чудових результатів у довгих питаннях і відповідях у відкритому домені.
Під керівництвом цієї ідеї народилася WebGLM, модель «мережевої версії» ChatGLM, яка є моделлю, заснованою на тонкому налаштуванні параметрів ChatGLM у 10 мільярдів, а основним напрямком є мережевий пошук.
Наприклад, коли ви хочете дізнатися, чому небо блакитне. WebGLM негайно дає відповідь в Інтернеті та містить посилання для підвищення довіри до відповіді моделі.
Ретривер на основі LLM ділиться на два етапи, один - грубозернистий мережевий пошук (пошук, придбання, вилучення), а інший - дрібнозернистий дистиляційний пошук.
У всьому процесі роботи ретривера час в основному витрачається на процес отримання веб-сторінки, тому WebGLM використовує паралельну асинхронну технологію для підвищення ефективності.
Генератор початкового завантаження є ядром і відповідає за генерацію високоякісних відповідей на запитання з довідкових сторінок, отриманих від ретривера.
Він використовує можливості контекстного висновування великих моделей для створення високоякісних наборів даних QA, а також розробляє стратегії корекції та відбору для фільтрації високоякісних підмножин для навчання.
Експериментальні результати показують, що WebGLM може надавати більш точні результати та ефективно виконувати завдання запитань і відповідей. Навіть він може наблизитися до WebGPT зі 175 мільярдами параметрів при продуктивності 10 мільярдів параметрів.
Розуміння зображень і тексту: GPT-4V проти CogVLM
У вересні цього року OpenAI офіційно зняла заборону на дивовижні мультимодальні можливості GPT-4.
GPT-4V, який підтримується цим, має сильну здатність розуміти зображення та здатний обробляти довільно змішані мультимодальні вхідні дані.
Наприклад, він не може сказати, що страва на малюнку - це мапо тофу, і навіть може дати інгредієнти для його приготування.
На відміну від поширених методів неглибокого злиття, CogVLM включає модуль експерта з зору, що навчається, в механізм уваги та рівень нейронної мережі прямого зв'язку.
Цей дизайн забезпечує глибоке вирівнювання між функціями зображення та тексту, ефективно компенсуючи відмінності між попередньо навченою мовною моделлю та кодувальником зображення.
В даний час CogVLM-17B є моделлю з першим комплексним балом в мультимодальному авторитетному академічному списку, і досягла результатів SOTA або другого місця в 14 наборах даних.
Він досягає найкращої продуктивності (SOTA) у 10 авторитетних крос-модальних тестах, включаючи NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA та TDIUC.
Попередні мультимодальні моделі зазвичай вирівнювали об'єкти зображення безпосередньо з вхідним простором текстових об'єктів, а кодер ознак зображення зазвичай невеликий, у цьому випадку зображення можна розглядати як «васала» тексту, і ефект, природно, обмежений.
CogVLM, з іншого боку, надає пріоритет візуальному розумінню в мультимодальній моделі, використовуючи 5B-параметричний кодер зору та 6B-параметричний експертний модуль зору для моделювання характеристик зображення із загальною кількістю параметрів 11B, що навіть більше, ніж кількість тексту 7B-параметрів.
У деяких тестах CogVLM навіть перевершив GPT-4V.
CogVLM може точно ідентифікувати ці 4 будинки, тоді як GPT-4V може ідентифікувати лише 3.
У цьому питанні тестуються картинки з текстом.
Найпотужнішою графічною моделлю Wensheng від OpenAI є DALL· Е 3 теж.
Загальна ідея CogView полягає у виконанні авторегресійного навчання шляхом зрощування функцій тексту та функцій токенів зображення. Нарешті, вводиться лише функція текстового токена, і модель може безперервно генерувати токени зображень.
Зокрема, текст «Аватар милого кошеняти» спочатку конвертується в токен, і тут використовується модель SentencePiece.
Потім подається зображення кота, а частина зображення перетворюється в токен через дискретний автоматичний декодер.
Потім функції токена тексту та зображення зшиваються разом, а потім вводяться в модель GPT архітектури Transformer, щоб навчитися генерувати зображення.
Порівняння DALL· E і поширені схеми GAN, результати CogView були значно покращені.
У 2022 році дослідники знову оновили графову модель Веньшена CogView2, і ефект безпосередньо порівняли з DALL· E2。
У порівнянні з CogView, архітектура CogView2 використовує ієрархічний трансфомер і паралельний авторегресійний режим для генерації зображень.
У статті дослідники попередньо навчили модель трансформера з 6 мільярдами параметрів, крос-модальну загальну мовну модель (CogLM), і точно налаштували її для досягнення швидкої супер-роздільної здатності.
У листопаді того ж року команда побудувала модель генерації тексту у відео CogVideo, засновану на моделі CogView2.
Архітектура моделі розділена на два модулі: перша частина базується на CogView2 і генерує кілька кадрів зображень з тексту. Друга частина полягає в інтерполяції зображення на основі моделі двосторонньої уваги, щоб згенерувати повноцінне відео з більш високою частотою кадрів.
Код: Кодекс проти Код Німеччини (CodeGeeX)
У сфері генерації коду OpenAI випустила новий і оновлений Codex ще в серпні 2021 року і володіє більш ніж 10 мовами програмування, включаючи Python, Java, Go, Perl, PHP, Ruby, Swift, Type і навіть Shell.
Користувачі можуть просто дати просту підказку і змусити Кодекс автоматично писати код природною мовою.
Codex навчений на GPT-3, а дані містять мільярди рядків вихідного коду. Крім того, Codex може підтримувати контекстну інформацію, яка більш ніж у 3 рази довша, ніж GPT-3.
У липні 2023 року Zhipu випустила потужніший, швидший і легший CodeGeeX2-6B, який може підтримувати понад 100 мов, а вага повністю відкрита для академічних досліджень.
CodeGeeX2 заснований на новій архітектурі ChatGLM2 і оптимізований для різноманітних завдань, пов'язаних з програмуванням, таких як автодоповнення коду, генерація коду, переклад коду, перехресне доповнення коду тощо.
Завдяки оновленню ChatGLM2, CodeGeeX2 може не тільки краще підтримувати китайське та англійське введення, а також максимальну довжину послідовності 8192, але і значно поліпшити різні показники продуктивності - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
В огляді Human CodeGeeX2 всебічно перевершив модель StarCoder з 15 мільярдами параметрів, а також модель Code-Cushman-001 від OpenAI (модель, яка використовується GitHub Copilot).
Крім того, швидкість висновків CodeGeeX2 також вища, ніж у CodeGeeX-13B першого покоління, якому потрібно лише 6 ГБ відеопам'яті для запуску після квантування, і він підтримує легке локалізоване розгортання.
В даний час плагін CodeGeeX можна завантажити та випробувати в основних IDE, таких як VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm та Android Studio.
Вітчизняна велика модель повністю розроблена самостійно
На конференції генеральний директор Zhipu AI Чжан Пен на початку викинув власну думку – перший рік великої моделі припав не на рік, коли ChatGPT спровокував бум LLM, а на 2020-й, коли на світ з'явився GPT-3.
У той час Zhipu AI, який тільки був створений на один рік, почав використовувати потужність всієї компанії, щоб ВСЕ у великих моделях.
Будучи однією з перших компаній, яка взяла участь у широкомасштабному дослідженні моделей, Zhipu AI накопичила достатні можливості корпоративного обслуговування; Будучи однією з «перших компаній, які їли крабів» з відкритим вихідним кодом, ChatGLM-6B очолив список трендів Hugging face протягом чотирьох тижнів після запуску та отримав 5w+ зірок на GitHub.
У 2023 році, коли у великій модельній індустрії вирує війна, Zhipu AI знову опиняється в центрі уваги та займає перевагу першопрохідця з нещодавно оновленим ChatGLM3.
Ресурси: