Департамент Цинхуа ChatGLM3 живая демонстрация лица! Мультимодальность близка к GPT-4V, а отечественный интерпретатор кода уже на подходе

Первоисточник: New Zhiyuan

Источник изображения: Generated by Unbounded AI

Модель пьедестала собственной разработки третьего поколения ChatGLM3 запущена сегодня!

Это очередная оптимизация базовой модели ChatGLM командой Zhipu AI с момента запуска модели второго поколения в июне.

Кроме того, на Китайской компьютерной конференции 2023 года (CNCC) 27 октября Zhipu AI также представила ChatGLM3-6B (32k), мультимодальный CogVLM-17B и агент AgentLM.

После выпуска серии моделей ChatGLM3 Zhipu стала единственной компанией в Китае, которая провела сравнительный анализ всей линейки моделей OpenAI.

Генеративный ИИ-помощник Zhipu Qingyan также стал первым крупномасштабным модельным продуктом с возможностями взаимодействия с кодом в Китае.

Модель полностью самостоятельно разработана, адаптируется к отечественным чипам, с более высокой производительностью и более открытой экосистемой.

Как первая компания, вступившая в крупномасштабное модельное исследование, Zhipu AI первой представила свою работу!

Кроме того, в этом году Zhipu AI завершила финансирование на общую сумму более 2,5 млрд юаней, Meituan, Ant, Alibaba, Tencent... Роскошный список инвесторов свидетельствует о твердом доверии отрасли к Zhipu AI.

Нацеливаемся на техническое обновление GPT-4V

В настоящее время мультимодальная модель машинного зрения GPT-4V показала сильные возможности распознавания изображений.

В то же время, нацелившись на GPT-4V, Zhipu AI на этот раз также итеративно обновил другие возможности ChatGLM3. Среди них мультимодальная модель понимания CogVLM может попытаться понять и освежить 10+ международных стандартных графических и текстовых наборов данных SOTA. В настоящее время CogVLM-17B имеет открытый исходный код.

Code Interpreter может генерировать и выполнять код в соответствии с потребностями пользователя, автоматически выполняя сложные задачи, такие как анализ данных и обработка файлов.

Веб-поиск расширяет возможности WebGLM, который может автоматически находить соответствующую информацию в Интернете в соответствии с вопросом и предоставлять ссылки на справочную литературу или статьи при ответе.

Кроме того, семантические и логические возможности ChatGLM3 также были значительно расширены.

Версия 6B с открытым исходным кодом

Стоит отметить, что как только ChatGLM3 был выпущен, Zhipu AI напрямую открыла исходный код модели параметров 6B для сообщества.

Результаты оценки показывают, что по сравнению с ChatGLM 2 и по сравнению с отечественными моделями того же размера, ChatGLM3-6B занял первое место в 9 из 44 тестов китайского и английского публичных наборов данных.

MMLU вырос на 36%, C на 33%, GSM8K на 179% и BBH на 126%.

Его версия с открытым исходным кодом 32k, ChatGLM3-6B-32K, лучше всего работает в LongBench.

Кроме того, это новейшая «технология эффективного динамического вывода + оптимизации видеопамяти», которая делает текущую инфраструктуру вывода более эффективной при тех же аппаратных и модельных условиях.

По сравнению с лучшей на данный момент реализацией с открытым исходным кодом, по сравнению с vLLM, запущенной Университетом Беркли и последней версией Hugging Face TGI, скорость инференса увеличена в 2-3 раза, а стоимость инференса снижена в 1 раз, при этом всего 0,5 балла на тысячу токенов, что является самой низкой стоимостью.

Самостоятельно разработанный AgentTuning, активация способностей агента

Что еще более удивительно, так это то, что в ChatGLM3 также появилась новая способность агента.

Zhipu AI надеется, что большие модели смогут лучше взаимодействовать с внешними инструментами через API и даже реализовывать взаимодействие с большими моделями через агентов.

Благодаря интеграции технологии собственной разработки AgentTuning, можно активировать интеллектуальные агентские возможности модели, особенно с точки зрения интеллектуального планирования и исполнения, что на 1000% выше, чем у ChatGLM 2.

На новейшем AgentBench ChatGLM3-turbo близок к GPT-3.5.

В то же время AgentLM также открыт для сообщества разработчиков ПО с открытым исходным кодом. Команда Zhipu AI надеется, что модель с открытым исходным кодом достигнет или даже превзойдет возможности агента модели с закрытым исходным кодом.

Это означает, что агент обеспечит встроенную поддержку отечественных больших моделей для сложных сценариев, таких как «вызов инструментов, выполнение кода, игры, операции с базами данных, поиск и вывод в графе знаний, а также операционные системы».

1.5B/3B выпущен в то же время, мобильный телефон может работать

Хотите запустить ChatGLM на своем телефоне? ХОРОШО!

На этот раз ChatGLM3 также запустил тестовую модель терминала, которую можно развернуть на мобильных телефонах, с двумя параметрами: 1.5B и 3B.

Он может поддерживать различные мобильные телефоны, включая Vivo, Xiaomi, Samsung, и автомобильные платформы, и даже поддерживает вывод чипов процессора на мобильных платформах со скоростью до 20 токенов в секунду.

С точки зрения точности, производительность моделей 1.5B и 3B близка к производительности модели ChatGLM2-6B в публичном бенчмарке, так что смело пробуйте!

Новое поколение "Zhipu Qingyan" полностью запущено

Точно так же, как ChatGPT имеет за собой мощную модель GPT-4, помощник генеративного искусственного интеллекта «Zhipu Qingyan» из команды Zhipu AI также благословлен ChatGLM3.

После демонстрации этой команды в прямом эфире функция была запущена напрямую, а главное – искренность!

Адрес теста:

Интерпретатор кода

Как один из самых популярных плагинов для ChatGPT, Advanced Data Analysis (ранее Code Interpreter) может анализировать задачи с более математическим мышлением на основе ввода естественного языка и в то же время генерировать соответствующий код.

Теперь, благодаря поддержке недавно обновленного ChatGLM3, «Zhipu Qingyan» стал первым крупномасштабным модельным продуктом с расширенными возможностями анализа данных в Китае, который может поддерживать обработку изображений, математические вычисления, анализ данных и другие сценарии использования.

Романтика ученых и инженеров может быть понята только «Чжипу Цинъянь».

Хотя генеральный директор Чжан Пэн исполнил живое выступление, чтобы нарисовать «красное сердце», но попробуйте еще раз, и результат получился за считанные секунды.

Точно так же обновленный ChatGLM3 также очень хорош в анализе данных.

После некоторого анализа можно построить гистограмму распределения длины на основе длины поля.

### Улучшения поиска

С добавлением возможностей WebGLM для больших моделей, «Zhipu Qingyan» теперь также имеет возможность поиска улучшенных — он может обобщать ответы на вопросы на основе последней информации в интернете, а также прикреплять справочные ссылки.

Например, iPhone 15 недавно вызвал волну снижения цен, насколько велики конкретные колебания?

Ответ, данный «Чжипу Цинъянь», неплох!

### Понимание графики

Модель CogVLM улучшает способность Zhipu Qingyan к пониманию изображений и текста на китайском языке и обеспечивает способность к пониманию изображений, близкую к GPT-4V.

Он может отвечать на различные типы визуальных вопросов, а также выполнять сложное обнаружение объектов, маркировку и автоматическое аннотирование данных.

В качестве примера пусть CogVLM определяет, сколько людей находится на картинке.

Добавьте немного сложности, а затем дайте картинку из трех апельсинов вместе, и вы также сможете точно определить количество.

Неймар, Месси, Роналду, CogVLM тоже однозначны.

Для задач визуальной математики, в которых сложено 2 яблока и 1 яблоко, CogVLM также может сделать это правильно.

**GLM vs GPT: бенчмаркинг всей линейки продуктов OpenAI! **

От ChatGPT, приложения для чата и разговора, Code Interpreter, плагина для генерации кода, до DALL· E 3, а затем к визуальной мультимодальной модели GPT-4V, OpenAI в настоящее время имеет полный набор архитектуры продукта.

Оглядываясь назад на Китай, единственная компания, которая может достичь наиболее полного охвата продукта, — это Zhipu AI.

### Беседа: ChatGPT vs. ЧатGLM

Нет необходимости говорить больше о внедрении популярной жареной курицы ChatGPT.

В начале этого года команда Zhipu AI также выпустила ChatGLM — 100-миллиардную модель диалога.

Опираясь на дизайнерские идеи ChatGPT, разработчики внедрили предварительное обучение кода в 100-миллиардную базовую модель GLM-130B.

Фактически, еще в 2022 году Zhipu AI открыла GLM-130B для исследовательского сообщества и промышленности, и это исследование также было принято ACL 2022 и ICLR 2023.

Модели ChatGLM-6B и ChatGLM-130B были обучены на китайских и английских корпусах, содержащих токены 1T, с использованием контролируемой тонкой настройки (SFT), начальной загрузки обратной связи и обучения с подкреплением обратной связи от человека (RLHF).

Модель ChatGLM способна генерировать ответы, соответствующие предпочтениям человека. В сочетании с технологией квантования пользователи могут выполнять локальное развертывание на видеокартах потребительского класса (на уровне квантования INT4 требуется всего 6 ГБ видеопамяти) и запускать собственный ChatGLM на ноутбуках на основе модели GLM.

14 марта компания Zhipu AI открыла исходный код ChatGLM-6B для сообщества и заняла первое место в независимой оценке китайского естественного языка, китайского диалога, китайских вопросов и ответов и заданий на рассуждение.

В то же время на свет появились сотни проектов или приложений на базе ChatGLM-6B.

Чтобы еще больше способствовать развитию большого сообщества моделей с открытым исходным кодом, Zhipu AI выпустила ChatGLM2 в июне, и 100-миллиардная базовая диалоговая модель была обновлена и открыта, включая 6B, 12B, 32B, 66B и 130B различных размеров, улучшая возможности и обогащая сценарии.

ChatGLM 2 занимает первое место в китайском списке, по состоянию на 25 июня 2023 года ChatGLM2 занимает место в C-list Rank 0, а ChatGLM2-6B занимает 6 место. По сравнению с моделью первого поколения, ChatGLM 2 достиг улучшений на 16%, 36% и 280% в MMLU, C- и GSM8K соответственно.

Стоит отметить, что всего за несколько месяцев ChatGLM-6B и ChatGLM2-6B получили широкое распространение.

В настоящее время на GitHub собрано в общей сложности 50 000+ звезд. Кроме того, на Hugging Face 10 000 000+ загрузок, что занимает первое место в четырехнедельном тренде.

ChatGLM-6B:

ЧатГЛМ2-6Б:

Улучшения поиска: WebGPT vs. Веб-GLM

Для того, чтобы решить проблему «иллюзии» больших моделей, общее решение состоит в том, чтобы объединить знания в поисковой системе и позволить большой модели выполнить «извлечение».

Еще в 2021 году компания OpenAI доработала модель, которая может агрегировать результаты поиска на основе GPT-3 — WebGPT.

WebGPT моделирует поисковое поведение человека, выполняет поиск на веб-страницах, чтобы найти релевантные ответы, и предоставляет источники цитирования, чтобы выходные результаты можно было отследить.

Самое главное, что он достиг отличных результатов в длинных вопросах и ответах в открытом домене.

Под руководством этой идеи родилась WebGLM, модель «сетевой версии» ChatGLM, которая представляет собой модель, основанную на тонкой настройке 10 миллиардов параметров ChatGLM, а основным направлением является сетевой поиск.

Адрес:

Например, когда вы хотите узнать, почему небо голубое. WebGLM немедленно выдает ответ в режиме онлайн и включает ссылку, чтобы повысить доверие к ответу модели.

С архитектурной точки зрения система улучшения поиска WebGLM включает в себя три важных компонента: ретривер, генератор и скорер.

Ретривер на основе LLM разделен на два этапа, один из которых - это крупнозернистая сетевая выделка (поиск, приобретение, извлечение), а другой - мелкозернистая дистилляция.

Во всем процессе ретривера время в основном затрачивается на получение веб-страницы, поэтому WebGLM использует параллельную асинхронную технологию для повышения эффективности.

Генератор бутстрапа является ядром и отвечает за генерацию качественных ответов на вопросы со справочных страниц, полученных от ретривера.

Он использует возможности контекстного вывода больших моделей для создания высококачественных наборов данных контроля качества, а также разрабатывает стратегии коррекции и отбора для фильтрации высококачественных подмножеств для обучения.

Окончательный оценщик используется для оценки ответов, сгенерированных WebGLM, через RLHF, чтобы соответствовать предпочтениям человека.

Экспериментальные результаты показывают, что WebGLM может предоставлять более точные результаты и эффективно выполнять задачи вопросов и ответов. Даже он может приблизиться к WebGPT со 175 миллиардами параметров с производительностью в 10 миллиардов параметров.

В настоящее время это исследование было принято KDD 2023, и команда Zhipu AI также открыла исходный код возможностей и наборов данных.

Адрес проекта:

Понимание изображений и текста: GPT-4V vs. КогВЛМ

В сентябре этого года OpenAI официально сняла запрет на удивительные мультимодальные возможности GPT-4.

GPT-4V, который поддерживается этим, обладает сильной способностью понимать изображения и способен обрабатывать произвольно смешанные мультимодальные входные данные.

Например, он не может сказать, что блюдо на картинке — мапо тофу, и даже может дать ингредиенты для его приготовления.

В октябре компания Zhipu открыла исходный код новой базовой модели визуального языка, CogVLM, которая может реализовать глубокую интеграцию функций визуального языка без ущерба для производительности каких-либо задач NLP.

В отличие от обычных методов поверхностного слияния, CogVLM включает в себя обучаемый модуль эксперта по машинному зрению в механизме внимания и уровне нейронной сети прямого распространения.

Такая конструкция обеспечивает глубокое выравнивание между графическими и текстовыми функциями, эффективно компенсируя различия между предварительно обученной языковой моделью и кодировщиком изображений.

В настоящее время CogVLM-17B является моделью, получившей первый комплексный балл в мультимодальном авторитетном академическом списке, и получила результаты SOTA или второе место по 14 наборам данных.

Он достигает наилучшей производительности (SOTA) в 10 авторитетных кросс-модальных бенчмарках, включая NoCaps, субтитры Flicker30k, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA и TDIUC.

Основная идея CogVLM — «сначала визуальный».

Предыдущие мультимодальные модели обычно выравнивали признаки изображения непосредственно во входном пространстве текстовых признаков, а кодировщик признаков изображения обычно невелик, в этом случае изображение можно рассматривать как «вассала» текста, и эффект естественно ограничен.

CogVLM, с другой стороны, отдает приоритет визуальному пониманию в мультимодальной модели, используя 5B-параметрический видеоэнкодер и 6B-параметрический экспертный модуль машинного зрения для моделирования характеристик изображения с общим количеством 11B параметров, что даже больше, чем количество текста с 7B-параметрами.

В некоторых тестах CogVLM даже превзошел GPT-4V.

На снимке 4 дома, 3 полностью видны, а 1 можно увидеть только при увеличении.

CogVLM может точно идентифицировать эти 4 дома, в то время как GPT-4V может идентифицировать только 3.

В этом вопросе тестируются картинки с текстом.

CogVLM точно описывает сцену и соответствующий текст.

### Диаграмма Вэньшэна: DALL· E против Система CogView

Самой мощной графовой моделью Wensheng от OpenAI является DALL· Е 3 тоже.

В отличие от этого, команда Zhipu AI запустила CogView, универсальную предварительно обученную модель преобразования текста в изображение на основе Transformer.

Адрес:

Общая идея CogView заключается в том, чтобы выполнять авторегрессионное обучение путем объединения текстовых объектов и функций маркеров изображений. Наконец, вводится только функция текстового маркера, и модель может непрерывно создавать маркеры изображений.

В частности, текст «Аватар милого котенка» сначала преобразуется в токен, и здесь используется модель SentencePiece.

Затем вводится изображение кошки, а часть изображения преобразуется в токен через дискретный автоматический декодер.

Затем функции текстового и графического маркеров объединяются, а затем вводятся в GPT-модель архитектуры Transformer, чтобы научиться генерировать изображения.

Наконец, после завершения обучения модель отсортирует сгенерированные результаты, вычислив оценку подписей, чтобы выбрать наиболее подходящие результаты во время задачи преобразования текста в изображение.

Сравнение DALL· E и распространенных схем GAN, результаты CogView были значительно улучшены.

В 2022 году исследователи снова обновили модель графа Wensheng CogView2, и эффект был напрямую сравнен с DALL· E2。

Адрес:

По сравнению с CogView, архитектура CogView2 использует иерархический трансфомер и параллельный авторегрессионный режим для генерации изображений.

В статье исследователи предварительно обучили модель трансформатора с 6 миллиардами параметров, кросс-модальную общую языковую модель (CogLM), и настроили ее для достижения быстрого сверхразрешения.

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТА ПОКАЗАЛИ, ЧТО СВЯЗЬ С DALL· Преимущество E2 также заключается в том, что он генерирует результаты с помощью CogView2, а также может поддерживать интерактивное текстовое редактирование изображений.

В ноябре того же года команда создала модель генерации текста в видео CogVideo, основанную на модели CogView2.

Архитектура модели разделена на два модуля: первая часть основана на CogView2 и генерирует несколько кадров изображений из текста. Вторая часть заключается в интерполяции изображения на основе модели двустороннего внимания для создания полноценного видео с более высокой частотой кадров.

В настоящее время все вышеперечисленные модели имеют открытый исходный код. Команды из Цинхуа такие прямые и искренние?

Код: Кодекс vs. КодGeeX

В области генерации кода OpenAI выпустила новый и обновленный Codex еще в августе 2021 года и владеет более чем 10 языками программирования, включая Python, Java, Go, Perl, PHP, Ruby, Swift, Type и даже Shell.

Адрес:

Пользователи могут просто дать простую подсказку, и Codex автоматически напишет код на естественном языке.

Codex обучен на GPT-3, а данные содержат миллиарды строк исходного кода. Кроме того, Codex может поддерживать контекстную информацию, которая более чем в 3 раза длиннее, чем GPT-3.

Будучи пионером в Китае, в сентябре 2022 года компания Zhipu открыла исходный код CodeGeeX, предварительно обученную модель для генерации кода, перевода и интерпретации мультипрограммных языков с 13 миллиардами параметров, а затем была принята KDD 2023 (Лонг-Бич).

Адрес:

В июле 2023 года Zhipu выпустила более мощный, быстрый и легкий CodeGeeX2-6B, который может поддерживать более 100 языков, а вес полностью открыт для академических исследований.

Адрес проекта:

CodeGeeX2 основан на новой архитектуре ChatGLM2 и оптимизирован для различных задач, связанных с программированием, таких как автодополнение кода, генерация кода, перевод кода, кросс-файловое завершение кода и многое другое.

Благодаря обновлению ChatGLM2, CodeGeeX2 может не только лучше поддерживать китайский и английский ввод, а также максимальную длину последовательности 8192, но и значительно улучшить различные показатели производительности - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.

В обзоре Human CodeGeeX2 полностью превзошел модель StarCoder с 15 миллиардами параметров, а также модель OpenAI Code-Cushman-001 (модель, используемую GitHub Copilot).

Кроме того, скорость логического вывода CodeGeeX2 также выше, чем у CodeGeeX-13B первого поколения, которому требуется всего 6 ГБ видеопамяти для работы после квантования, и который поддерживает легкое локализованное развертывание.

В настоящее время плагин CodeGeeX можно загрузить и опробовать в основных IDE, таких как VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm и Android Studio.

Отечественная большая модель полностью разработана самостоятельно

На конференции генеральный директор Zhipu AI Чжан Пэн в начале высказал собственное мнение — первый год большой модели пришелся не на год, когда ChatGPT вызвал бум LLM, а на 2020 год, когда родился GPT-3.

В то время Zhipu AI, которая была создана всего один год назад, начала использовать мощь всей компании для ВСЕХ в больших моделях.

Будучи одной из первых компаний, вступивших в крупномасштабные модельные исследования, Zhipu AI накопила достаточные возможности корпоративных сервисов; Будучи одной из «первых компаний, которые ели крабов» на открытом исходном коде, ChatGLM-6B возглавила список трендов Hugging face в течение четырех недель после запуска и получила 5w+ звезд на GitHub.

Выпуск ChatGLM3 делает линейку полномодельных продуктов, которую построил Zhipu AI, более мощной.

В 2023 году, когда в индустрии больших моделей бушует война, Zhipu AI снова оказывается в центре внимания и занимает преимущество первопроходца с недавно обновленным ChatGLM3.

Ресурсы:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить