¡Demostración de cara en vivo ChatGLM3 del departamento de Tsinghua! La multimodalidad está cerca de GPT-4V, y el intérprete de código doméstico está llegando
¡El modelo de pedestal de tercera generación de desarrollo propio ChatGLM3 se lanza hoy!
Esta es otra optimización del modelo base de ChatGLM por parte del equipo de IA de Zhipu desde el lanzamiento del modelo de segunda generación en junio.
Además, en la Conferencia de Informática de China (CNCC) de 2023 el 27 de octubre, Zhipu AI también abrió el código ChatGLM3-6B (32k), el CogVLM-17B multimodal y el agente AgentLM.
Tras el lanzamiento de la serie de modelos ChatGLM3, Zhipu se convirtió en la única empresa de China que ha evaluado la línea completa de productos de modelos de OpenAI.
El asistente de IA generativa Zhipu Qingyan también se ha convertido en el primer producto modelo a gran escala con capacidades de interacción de código en China.
El modelo es totalmente autodesarrollado, adaptándose a los chips domésticos, con un rendimiento más fuerte y un ecosistema de código más abierto.
Como la primera empresa en participar en la investigación de modelos a gran escala, Zhipu AI es la primera en presentar el artículo.
Además, Zhipu AI ha completado un total de más de 2.500 millones de yuanes en financiación este año, Meituan, Ant, Alibaba, Tencent... La lujosa lista de inversores muestra la fuerte confianza de la industria en Zhipu AI.
Apuntando a la actualización técnica de GPT-4V
En la actualidad, el modelo de visión multimodal GPT-4V ha demostrado una gran capacidad de reconocimiento de imágenes.
Al mismo tiempo, con el objetivo de GPT-4V, Zhipu AI también ha actualizado iterativamente otras capacidades de ChatGLM3 esta vez. Entre ellos, el modelo de comprensión multimodal CogVLM puede intentar comprender y refrescar 10+ conjuntos de datos de evaluación gráfica y textual estándar internacional SOTA. Actualmente, CogVLM-17B es de código abierto.
Code Interpreter puede generar y ejecutar código de acuerdo con las necesidades del usuario, completando automáticamente tareas complejas como el análisis de datos y el procesamiento de archivos.
La búsqueda en la web mejora WebGLM, que puede encontrar automáticamente información relevante en Internet de acuerdo con la pregunta y proporcionar enlaces a la literatura o artículos relacionados de referencia al responder.
Además, las capacidades semánticas y lógicas de ChatGLM3 también se han mejorado considerablemente.
Versión 6B de código abierto directo
Vale la pena mencionar que una vez que se lanzó ChatGLM3, Zhipu AI abrió directamente el modelo de parámetros 6B a la comunidad.
Los resultados de la evaluación muestran que, en comparación con ChatGLM 2 y en comparación con modelos domésticos del mismo tamaño, ChatGLM3-6B ocupó el primer lugar en 9 de las 44 pruebas de conjuntos de datos públicos chinos e ingleses.
MMLU aumentó en un 36%, C en un 33%, GSM8K en un 179% y BBH en un 126%.
Su versión de código abierto de 32k, ChatGLM3-6B-32K, funciona mejor en LongBench.
Además, es la última "tecnología eficiente de inferencia dinámica + optimización de memoria de video" que hace que el marco de inferencia actual sea más eficiente bajo las mismas condiciones de hardware y modelo.
En comparación con la mejor implementación de código abierto actual, en comparación con el vLLM lanzado por la Universidad de Berkeley y la última versión de Hugging Face TGI, la velocidad de inferencia aumenta 2-3 veces y el costo de inferencia se reduce 1 vez, con solo 0.5 puntos por mil tokens, que es el costo más bajo.
AgentTuning de desarrollo propio, activación de habilidades de agentes
Lo que es aún más sorprendente es que ChatGLM3 también trae una nueva habilidad de agente.
Zhipu AI espera que los modelos grandes puedan comunicarse mejor con herramientas externas a través de las API, e incluso realizar la interacción de modelos grandes a través de agentes.
Al integrar la tecnología AgentTuning de desarrollo propio, se puede activar la capacidad de agente inteligente del modelo, especialmente en términos de planificación y ejecución inteligente, que es un 1000% superior a la de ChatGLM 2.
En el último AgentBench, ChatGLM3-turbo está cerca de GPT-3.5.
Al mismo tiempo, AgentLM también está abierto a la comunidad de código abierto. Lo que el equipo de IA de Zhipu espera es hacer que el modelo de código abierto alcance o incluso supere la capacidad de agente del modelo de código cerrado.
Esto significa que el agente habilitará el soporte nativo de modelos domésticos de gran tamaño para escenarios complejos como "llamada a herramientas, ejecución de código, juegos, operaciones de bases de datos, búsqueda e inferencia de gráficos de conocimiento y sistemas operativos".
1.5B/3B lanzado al mismo tiempo, el teléfono móvil puede funcionar
¿Quieres ejecutar ChatGLM en tu teléfono? ¡De acuerdo!
Esta vez, ChatGLM3 también lanzó un modelo de prueba de terminal que se puede implementar en teléfonos móviles, con dos parámetros: 1.5B y 3B.
Puede admitir una variedad de teléfonos móviles, incluidos Vivo, Xiaomi, Samsung y plataformas en vehículos, e incluso admite la inferencia de chips de CPU en plataformas móviles, con una velocidad de hasta 20 tokens/s.
En términos de precisión, el rendimiento de los modelos 1.5B y 3B es similar al del modelo ChatGLM2-6B en la evaluación de referencia pública, ¡así que anímate y pruébalo!
Se lanza por completo una nueva generación de "Zhipu Qingyan"
Al igual que ChatGPT tiene un potente modelo GPT-4 detrás, el asistente de IA generativa "Zhipu Qingyan" del equipo de IA de Zhipu también está bendecido por ChatGLM3.
Después de la demostración de transmisión en vivo de este equipo, la función se lanzó directamente, ¡y lo principal es la sinceridad!
Dirección de prueba:
Intérprete de códigos
Como uno de los complementos más populares para ChatGPT, Advanced Data Analysis (anteriormente Code Interpreter) puede analizar problemas con un pensamiento más matemático basado en la entrada de lenguaje natural y generar el código apropiado al mismo tiempo.
Ahora, con el apoyo de la recientemente actualizada ChatGLM3, "Zhipu Qingyan" se ha convertido en el primer producto de modelo a gran escala con capacidades avanzadas de análisis de datos en China, que puede admitir el procesamiento de imágenes, la computación matemática, el análisis de datos y otros escenarios de uso.
El romance de los hombres de ciencia e ingeniería solo puede ser entendido por "Zhipu Qingyan".
Aunque el CEO Zhang Peng realizó una actuación en vivo para dibujar un vuelco de "corazón rojo", inténtalo de nuevo y el resultado salió en segundos.
Del mismo modo, el ChatGLM3 actualizado también es muy bueno en el análisis de datos.
Después de algunos análisis, se puede dibujar un histograma de la distribución de longitud en función de la longitud del campo.
### Mejoras de búsqueda
Con la adición de las capacidades de modelo grande de WebGLM, "Zhipu Qingyan" ahora también tiene la capacidad de buscar mejorado: puede resumir las respuestas a las preguntas basadas en la información más reciente en Internet y adjuntar enlaces de referencia.
Por ejemplo, el iPhone 15 ha marcado recientemente el comienzo de una ola de recortes de precios, ¿qué tan grande es la fluctuación específica?
¡La respuesta dada por "Zhipu Qingyan" no está mal!
### Comprensión gráfica
El modelo CogVLM mejora la capacidad de comprensión de imágenes y textos chinos de Zhipu Qingyan y obtiene una capacidad de comprensión de imágenes cercana a GPT-4V.
Puede responder a varios tipos de preguntas visuales y puede completar la detección de objetos complejos, el etiquetado y la anotación automática completa de datos.
Por ejemplo, deje que CogVLM identifique cuántas personas hay en la imagen.
Agregue un poco de dificultad y luego dé una imagen de tres naranjas juntas, y también podrá identificar con precisión la cantidad.
Neymar, Messi, Ronaldo, CogVLM también es inequívoco.
Para problemas de matemáticas visuales en los que se añaden 2 manzanas y 1 manzana, CogVLM también puede hacerlo bien.
**GLM vs GPT: ¡Evaluación comparativa de la línea completa de productos de OpenAI! **
Desde ChatGPT, una aplicación de chat y conversación, Code Interpreter, un plugin de generación de código, hasta DALL· E 3, y luego al modelo visual multimodal GPT-4V, OpenAI cuenta actualmente con un conjunto completo de arquitectura de producto.
Mirando hacia atrás en China, la única empresa que puede lograr la cobertura de productos más completa es Zhipu AI.
### Conversación: ChatGPT vs. ChatGLM
No hace falta decir más sobre la introducción del popular pollo frito ChatGPT.
A principios de este año, el equipo de IA de Zhipu también lanzó ChatGLM, un modelo de diálogo de 100 mil millones de niveles.
Basándose en las ideas de diseño de ChatGPT, los desarrolladores inyectaron código de entrenamiento previo en el modelo base GLM-130B de 100 mil millones.
De hecho, ya en 2022, Zhipu AI abrió el GLM-130B a la comunidad investigadora y a la industria, y esta investigación también fue aceptada por ACL 2022 e ICLR 2023.
Tanto el modelo ChatGLM-6B como el ChatGLM-130B se entrenaron en corpus chinos e ingleses que contenían tokens 1T, utilizando el ajuste fino supervisado (SFT), el bootstrap de retroalimentación y el aprendizaje de refuerzo de retroalimentación humana (RLHF).
El modelo ChatGLM es capaz de generar respuestas que se ajusten a las preferencias humanas. Combinado con la tecnología de cuantificación, los usuarios pueden implementar localmente en tarjetas gráficas de nivel de consumidor (solo se requieren 6 GB de memoria de video en el nivel de cuantificación INT4) y ejecutar su propio ChatGLM en computadoras portátiles basadas en el modelo GLM.
El 14 de marzo, Zhipu AI abrió el código ChatGLM-6B a la comunidad y ganó el primer lugar en la evaluación de terceros del lenguaje natural chino, el diálogo chino, las preguntas y respuestas en chino y las tareas de razonamiento.
Al mismo tiempo, nacieron cientos de proyectos o aplicaciones basadas en ChatGLM-6B.
Con el fin de promover aún más el desarrollo de la comunidad de código abierto de modelos grandes, Zhipu AI lanzó ChatGLM2 en junio, y el modelo de diálogo base de 100 mil millones se ha actualizado y es de código abierto, incluidos los tamaños diferentes 6B, 12B, 32B, 66B y 130B, mejorando las capacidades y enriqueciendo los escenarios.
ChatGLM 2 ocupa el primer lugar en la lista china, a partir del 25 de junio de 2023, ChatGLM2 ocupa el puesto 0 de la lista C y ChatGLM2-6B ocupa el puesto 6. En comparación con el modelo de primera generación, ChatGLM 2 ha logrado mejoras del 16%, 36% y 280% en MMLU, C- y GSM8K, respectivamente.
Cabe mencionar que en tan solo unos meses, ChatGLM-6B y ChatGLM2-6B han sido ampliamente utilizados.
En la actualidad, se han recogido un total de 50.000+ estrellas en GitHub. Además, hay 10,000,000+ descargas en Hugging Face, ocupando el primer lugar en la tendencia de cuatro semanas.
ChatGLM-6B:
ChatGLM2-6B:
Mejoras de búsqueda: WebGPT vs. WebGLM
Para resolver el problema de la "ilusión" de los modelos grandes, la solución general es combinar el conocimiento en el motor de búsqueda y dejar que el modelo grande lleve a cabo la "mejora de la recuperación".
Ya en 2021, OpenAI afinó un modelo que puede agregar resultados de búsqueda basados en GPT-3: WebGPT.
WebGPT modela el comportamiento de búsqueda humano, busca en páginas web para encontrar respuestas relevantes y proporciona fuentes de citas, de modo que se puedan rastrear los resultados de salida.
Lo más importante es que ha logrado excelentes resultados en preguntas y respuestas largas de dominio abierto.
Bajo la guía de esta idea, nació WebGLM, el modelo de "versión en red" de ChatGLM, que es un modelo basado en el ajuste fino de 10 mil millones de parámetros de ChatGLM, y el enfoque principal es la búsqueda en red.
Dirección:
Por ejemplo, cuando quieres saber por qué el cielo es azul. WebGLM da inmediatamente la respuesta en línea e incluye un enlace para mejorar la credibilidad de la respuesta del modelo.
Desde el punto de vista arquitectónico, el sistema de mejora de búsqueda WebGLM consta de tres componentes importantes: un recuperador, un generador y un anotador.
El recuperador basado en LLM se divide en dos etapas, una es la recuperación de red de grano grueso (búsqueda, adquisición, extracción) y la otra es la recuperación de destilación de grano fino.
En todo el proceso del recuperador, el tiempo se consume principalmente en el proceso de búsqueda de la página web, por lo que WebGLM utiliza tecnología asíncrona paralela para mejorar la eficiencia.
El generador de arranque es el núcleo y se encarga de generar respuestas de alta calidad a las preguntas de las páginas de referencia obtenidas del retriever.
Utiliza las capacidades de inferencia contextual de modelos grandes para generar conjuntos de datos de control de calidad de alta calidad y diseña estrategias de corrección y selección para filtrar subconjuntos de alta calidad para el entrenamiento.
El evaluador final se utiliza para puntuar las respuestas generadas por WebGLM a través de RLHF con el fin de alinearlas con las preferencias humanas.
Los resultados experimentales muestran que WebGLM puede proporcionar resultados más precisos y completar tareas de preguntas y respuestas de manera eficiente. Incluso, puede acercarse a WebGPT con 175 mil millones de parámetros con un rendimiento de 10 mil millones de parámetros.
En la actualidad, esta investigación ha sido aceptada por KDD 2023, y el equipo de IA de Zhipu también ha abierto el código de las capacidades y los conjuntos de datos.
Dirección del proyecto:
Comprensión de imágenes y textos: GPT-4V vs. CogVLM
En septiembre de este año, OpenAI levantó oficialmente la prohibición de las increíbles capacidades multimodales de GPT-4.
GPT-4V, que es compatible con esto, tiene una gran capacidad para comprender imágenes y es capaz de procesar entradas multimodales mezcladas arbitrariamente.
Por ejemplo, no puede decir que el plato de la imagen es mapo tofu, e incluso puede dar los ingredientes para prepararlo.
En octubre, Zhipu abrió el código de un nuevo modelo básico de lenguaje visual, CogVLM, que puede realizar la integración profunda de las características del lenguaje visual sin sacrificar el rendimiento de ninguna tarea de NLP.
A diferencia de los métodos comunes de fusión superficial, CogVLM incorpora un módulo experto en visión entrenable en el mecanismo de atención y la capa de red neuronal feedforward.
Este diseño logra una alineación profunda entre las características de la imagen y el texto, lo que compensa de manera efectiva las diferencias entre el modelo de lenguaje previamente entrenado y el codificador de imágenes.
En la actualidad, CogVLM-17B es el modelo con la primera puntuación completa en la lista académica autorizada multimodal, y ha logrado resultados SOTA o segundo lugar en 14 conjuntos de datos.
Logra el mejor rendimiento (SOTA) en 10 puntos de referencia intermodales autorizados, incluidos NoCaps, subtítulos Flicker30k, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA y TDIUC.
La idea central de CogVLM es "lo visual primero".
Los modelos multimodales anteriores suelen alinear las entidades de imagen directamente con el espacio de entrada de las entidades de texto, y el codificador de entidades de imagen suele ser pequeño, en este caso, la imagen puede considerarse como un "vasallo" del texto y el efecto es naturalmente limitado.
CogVLM, por otro lado, prioriza la comprensión visual en el modelo multimodal, utilizando un codificador de visión de parámetros 5B y un módulo experto en visión de parámetros 6B para modelar características de imagen con un total de 11B parámetros, que es incluso más que la cantidad de texto del parámetro 7B.
En algunas pruebas, CogVLM incluso superó a GPT-4V.
Hay 4 casas en la imagen, 3 son completamente visibles y 1 solo se puede ver si se acerca.
CogVLM puede identificar con precisión estas 4 casas, mientras que GPT-4V solo puede identificar 3.
En esta pregunta, se prueban imágenes con texto.
CogVLM describe fielmente la escena y el texto correspondiente.
### Diagrama de Wensheng: DALL· E vs. CogView
El modelo de grafos Wensheng más potente de OpenAI es DALL· E 3 también.
Por el contrario, el equipo de IA de Zhipu ha lanzado CogView, un modelo universal preentrenado de texto a imagen basado en Transformer.
Dirección:
La idea general de CogView es realizar un entrenamiento autorregresivo mediante el empalme de entidades de texto y entidades de token de imagen. Por último, solo se introduce la característica de token de texto y el modelo puede generar continuamente tokens de imagen.
Específicamente, el texto "El avatar de un lindo gatito" se convierte primero en un token, y aquí se usa el modelo SentencePiece.
A continuación, se introduce una imagen de un gato y la parte de la imagen se convierte en un token a través de un discreto decodificador automático.
A continuación, se unen las entidades de token de texto e imagen y, a continuación, se introducen en el modelo GPT de la arquitectura Transformer para aprender a generar imágenes.
Por último, una vez completado el entrenamiento, el modelo ordenará los resultados generados calculando una puntuación de subtítulos para seleccionar los resultados más coincidentes durante la tarea de generación de texto a imagen.
Comparación de DALL· E y esquemas GAN comunes, los resultados de CogView se han mejorado considerablemente.
En 2022, los investigadores actualizaron de nuevo el modelo de grafos de Wensheng CogView2, y el efecto se comparó directamente con DALL· E2。
Dirección:
En comparación con CogView, la arquitectura de CogView2 adopta un transformador jerárquico y un modo autorregresivo paralelo para la generación de imágenes.
En el artículo, los investigadores entrenaron previamente un modelo de transformador de 6.000 millones de parámetros, el Modelo de Lenguaje General Intermodal (CogLM), y lo ajustaron para lograr una superresolución rápida.
LOS RESULTADOS EXPERIMENTALES MOSTRARON QUE LA RELACIÓN CON DALL· E2 también tiene la ventaja de generar resultados con CogView2 y también puede admitir la edición interactiva guiada por texto de imágenes.
En noviembre del mismo año, el equipo creó un modelo de generación de texto a vídeo, CogVideo, basado en el modelo CogView2.
La arquitectura del modelo se divide en dos módulos: la primera parte se basa en CogView2 y genera varios fotogramas de imágenes a partir de texto. La segunda parte consiste en interpolar la imagen en base al modelo de atención bidireccional para generar un vídeo completo con una mayor velocidad de fotogramas.
En la actualidad, todos los modelos anteriores son de código abierto. ¿Son los equipos de Tsinghua tan directos y sinceros?
Código: Codex vs. CodeGeeX
En el campo de la generación de código, OpenAI lanzó un Codex nuevo y actualizado ya en agosto de 2021, y domina más de 10 lenguajes de programación, incluidos Python, Java, Go, Perl, PHP, Ruby, Swift, Type e incluso Shell.
Dirección:
Los usuarios pueden simplemente dar un simple aviso y hacer que Codex escriba el código automáticamente en lenguaje natural.
Codex está entrenado en GPT-3, y los datos contienen miles de millones de líneas de código fuente. Además, Codex puede admitir información contextual que es más de 3 veces más larga que GPT-3.
Como pionero en China, Zhipu abrió CodeGeeX, un modelo preentrenado para la generación, traducción e interpretación de código de lenguajes de programación múltiple con 13 mil millones de parámetros, en septiembre de 2022, y luego fue aceptado por KDD 2023 (Long Beach).
Dirección:
En julio de 2023, Zhipu lanzó un CodeGeeX2-6B más fuerte, rápido y ligero, que puede admitir más de 100 idiomas, y el peso está completamente abierto a la investigación académica.
Dirección del proyecto:
CodeGeeX2 se basa en la nueva arquitectura ChatGLM2 y está optimizado para una variedad de tareas relacionadas con la programación, como el autocompletado de código, la generación de código, la traducción de código, la finalización de código entre archivos y más.
Gracias a la actualización de ChatGLM2, CodeGeeX2 no solo puede admitir mejor la entrada en chino e inglés, así como una longitud máxima de secuencia de 8192, sino que también puede mejorar en gran medida varios indicadores de rendimiento: Python +57%, C ++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
En la revisión de Human, CodeGeeX2 superó ampliamente el modelo StarCoder de 15 mil millones de parámetros, así como el modelo Code-Cushman-001 de OpenAI (el modelo utilizado por GitHub Copilot).
Además, la velocidad de inferencia de CodeGeeX2 también es más rápida que la del CodeGeeX-13B de primera generación, que solo necesita 6 GB de memoria de video para ejecutarse después de la cuantificación y admite una implementación localizada ligera.
En la actualidad, el complemento CodeGeeX se puede descargar y experimentar en IDE convencionales como VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm y Android Studio.
El modelo doméstico grande es totalmente autodesarrollado
En la conferencia, Zhang Peng, CEO de Zhipu AI, expuso su propia opinión al principio: el primer año del gran modelo no fue en el año en que ChatGPT desencadenó el auge de LLM, sino en 2020, cuando nació GPT-3.
En ese momento, Zhipu AI, que acababa de establecerse por un año, comenzó a usar el poder de toda la empresa para TODO en modelos grandes.
Como una de las primeras empresas en entrar en la investigación de modelos a gran escala, Zhipu AI ha acumulado suficientes capacidades de servicio empresarial; Como una de las "primeras empresas en comer cangrejos" en código abierto, ChatGLM-6B encabezó la lista de tendencias de la cara de abrazo a las cuatro semanas de su lanzamiento, y ganó 5w+ estrellas en GitHub.
El lanzamiento de ChatGLM3 hace que la línea de productos de modelo completo que Zhipu AI ha construido sea más poderosa.
En 2023, cuando la guerra está en su apogeo en la industria de los grandes modelos, Zhipu AI vuelve a estar en el punto de mira y ocupa la ventaja de ser el primero en moverse con el ChatGLM3 recientemente actualizado.
Recursos:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Demostración de cara en vivo ChatGLM3 del departamento de Tsinghua! La multimodalidad está cerca de GPT-4V, y el intérprete de código doméstico está llegando
Fuente original: New Zhiyuan
¡El modelo de pedestal de tercera generación de desarrollo propio ChatGLM3 se lanza hoy!
Esta es otra optimización del modelo base de ChatGLM por parte del equipo de IA de Zhipu desde el lanzamiento del modelo de segunda generación en junio.
Además, en la Conferencia de Informática de China (CNCC) de 2023 el 27 de octubre, Zhipu AI también abrió el código ChatGLM3-6B (32k), el CogVLM-17B multimodal y el agente AgentLM.
Tras el lanzamiento de la serie de modelos ChatGLM3, Zhipu se convirtió en la única empresa de China que ha evaluado la línea completa de productos de modelos de OpenAI.
El modelo es totalmente autodesarrollado, adaptándose a los chips domésticos, con un rendimiento más fuerte y un ecosistema de código más abierto.
Como la primera empresa en participar en la investigación de modelos a gran escala, Zhipu AI es la primera en presentar el artículo.
Además, Zhipu AI ha completado un total de más de 2.500 millones de yuanes en financiación este año, Meituan, Ant, Alibaba, Tencent... La lujosa lista de inversores muestra la fuerte confianza de la industria en Zhipu AI.
Apuntando a la actualización técnica de GPT-4V
En la actualidad, el modelo de visión multimodal GPT-4V ha demostrado una gran capacidad de reconocimiento de imágenes.
Al mismo tiempo, con el objetivo de GPT-4V, Zhipu AI también ha actualizado iterativamente otras capacidades de ChatGLM3 esta vez. Entre ellos, el modelo de comprensión multimodal CogVLM puede intentar comprender y refrescar 10+ conjuntos de datos de evaluación gráfica y textual estándar internacional SOTA. Actualmente, CogVLM-17B es de código abierto.
Code Interpreter puede generar y ejecutar código de acuerdo con las necesidades del usuario, completando automáticamente tareas complejas como el análisis de datos y el procesamiento de archivos.
La búsqueda en la web mejora WebGLM, que puede encontrar automáticamente información relevante en Internet de acuerdo con la pregunta y proporcionar enlaces a la literatura o artículos relacionados de referencia al responder.
Además, las capacidades semánticas y lógicas de ChatGLM3 también se han mejorado considerablemente.
Versión 6B de código abierto directo
Vale la pena mencionar que una vez que se lanzó ChatGLM3, Zhipu AI abrió directamente el modelo de parámetros 6B a la comunidad.
Los resultados de la evaluación muestran que, en comparación con ChatGLM 2 y en comparación con modelos domésticos del mismo tamaño, ChatGLM3-6B ocupó el primer lugar en 9 de las 44 pruebas de conjuntos de datos públicos chinos e ingleses.
MMLU aumentó en un 36%, C en un 33%, GSM8K en un 179% y BBH en un 126%.
Su versión de código abierto de 32k, ChatGLM3-6B-32K, funciona mejor en LongBench.
Además, es la última "tecnología eficiente de inferencia dinámica + optimización de memoria de video" que hace que el marco de inferencia actual sea más eficiente bajo las mismas condiciones de hardware y modelo.
En comparación con la mejor implementación de código abierto actual, en comparación con el vLLM lanzado por la Universidad de Berkeley y la última versión de Hugging Face TGI, la velocidad de inferencia aumenta 2-3 veces y el costo de inferencia se reduce 1 vez, con solo 0.5 puntos por mil tokens, que es el costo más bajo.
AgentTuning de desarrollo propio, activación de habilidades de agentes
Lo que es aún más sorprendente es que ChatGLM3 también trae una nueva habilidad de agente.
Zhipu AI espera que los modelos grandes puedan comunicarse mejor con herramientas externas a través de las API, e incluso realizar la interacción de modelos grandes a través de agentes.
Al integrar la tecnología AgentTuning de desarrollo propio, se puede activar la capacidad de agente inteligente del modelo, especialmente en términos de planificación y ejecución inteligente, que es un 1000% superior a la de ChatGLM 2.
En el último AgentBench, ChatGLM3-turbo está cerca de GPT-3.5.
Al mismo tiempo, AgentLM también está abierto a la comunidad de código abierto. Lo que el equipo de IA de Zhipu espera es hacer que el modelo de código abierto alcance o incluso supere la capacidad de agente del modelo de código cerrado.
Esto significa que el agente habilitará el soporte nativo de modelos domésticos de gran tamaño para escenarios complejos como "llamada a herramientas, ejecución de código, juegos, operaciones de bases de datos, búsqueda e inferencia de gráficos de conocimiento y sistemas operativos".
1.5B/3B lanzado al mismo tiempo, el teléfono móvil puede funcionar
¿Quieres ejecutar ChatGLM en tu teléfono? ¡De acuerdo!
Esta vez, ChatGLM3 también lanzó un modelo de prueba de terminal que se puede implementar en teléfonos móviles, con dos parámetros: 1.5B y 3B.
Puede admitir una variedad de teléfonos móviles, incluidos Vivo, Xiaomi, Samsung y plataformas en vehículos, e incluso admite la inferencia de chips de CPU en plataformas móviles, con una velocidad de hasta 20 tokens/s.
En términos de precisión, el rendimiento de los modelos 1.5B y 3B es similar al del modelo ChatGLM2-6B en la evaluación de referencia pública, ¡así que anímate y pruébalo!
Se lanza por completo una nueva generación de "Zhipu Qingyan"
Al igual que ChatGPT tiene un potente modelo GPT-4 detrás, el asistente de IA generativa "Zhipu Qingyan" del equipo de IA de Zhipu también está bendecido por ChatGLM3.
Después de la demostración de transmisión en vivo de este equipo, la función se lanzó directamente, ¡y lo principal es la sinceridad!
Dirección de prueba:
Intérprete de códigos
Como uno de los complementos más populares para ChatGPT, Advanced Data Analysis (anteriormente Code Interpreter) puede analizar problemas con un pensamiento más matemático basado en la entrada de lenguaje natural y generar el código apropiado al mismo tiempo.
Ahora, con el apoyo de la recientemente actualizada ChatGLM3, "Zhipu Qingyan" se ha convertido en el primer producto de modelo a gran escala con capacidades avanzadas de análisis de datos en China, que puede admitir el procesamiento de imágenes, la computación matemática, el análisis de datos y otros escenarios de uso.
El romance de los hombres de ciencia e ingeniería solo puede ser entendido por "Zhipu Qingyan".
Aunque el CEO Zhang Peng realizó una actuación en vivo para dibujar un vuelco de "corazón rojo", inténtalo de nuevo y el resultado salió en segundos.
Con la adición de las capacidades de modelo grande de WebGLM, "Zhipu Qingyan" ahora también tiene la capacidad de buscar mejorado: puede resumir las respuestas a las preguntas basadas en la información más reciente en Internet y adjuntar enlaces de referencia.
Por ejemplo, el iPhone 15 ha marcado recientemente el comienzo de una ola de recortes de precios, ¿qué tan grande es la fluctuación específica?
¡La respuesta dada por "Zhipu Qingyan" no está mal!
El modelo CogVLM mejora la capacidad de comprensión de imágenes y textos chinos de Zhipu Qingyan y obtiene una capacidad de comprensión de imágenes cercana a GPT-4V.
Puede responder a varios tipos de preguntas visuales y puede completar la detección de objetos complejos, el etiquetado y la anotación automática completa de datos.
Por ejemplo, deje que CogVLM identifique cuántas personas hay en la imagen.
**GLM vs GPT: ¡Evaluación comparativa de la línea completa de productos de OpenAI! **
Desde ChatGPT, una aplicación de chat y conversación, Code Interpreter, un plugin de generación de código, hasta DALL· E 3, y luego al modelo visual multimodal GPT-4V, OpenAI cuenta actualmente con un conjunto completo de arquitectura de producto.
Mirando hacia atrás en China, la única empresa que puede lograr la cobertura de productos más completa es Zhipu AI.
No hace falta decir más sobre la introducción del popular pollo frito ChatGPT.
A principios de este año, el equipo de IA de Zhipu también lanzó ChatGLM, un modelo de diálogo de 100 mil millones de niveles.
Basándose en las ideas de diseño de ChatGPT, los desarrolladores inyectaron código de entrenamiento previo en el modelo base GLM-130B de 100 mil millones.
De hecho, ya en 2022, Zhipu AI abrió el GLM-130B a la comunidad investigadora y a la industria, y esta investigación también fue aceptada por ACL 2022 e ICLR 2023.
Tanto el modelo ChatGLM-6B como el ChatGLM-130B se entrenaron en corpus chinos e ingleses que contenían tokens 1T, utilizando el ajuste fino supervisado (SFT), el bootstrap de retroalimentación y el aprendizaje de refuerzo de retroalimentación humana (RLHF).
El 14 de marzo, Zhipu AI abrió el código ChatGLM-6B a la comunidad y ganó el primer lugar en la evaluación de terceros del lenguaje natural chino, el diálogo chino, las preguntas y respuestas en chino y las tareas de razonamiento.
Al mismo tiempo, nacieron cientos de proyectos o aplicaciones basadas en ChatGLM-6B.
Con el fin de promover aún más el desarrollo de la comunidad de código abierto de modelos grandes, Zhipu AI lanzó ChatGLM2 en junio, y el modelo de diálogo base de 100 mil millones se ha actualizado y es de código abierto, incluidos los tamaños diferentes 6B, 12B, 32B, 66B y 130B, mejorando las capacidades y enriqueciendo los escenarios.
Cabe mencionar que en tan solo unos meses, ChatGLM-6B y ChatGLM2-6B han sido ampliamente utilizados.
En la actualidad, se han recogido un total de 50.000+ estrellas en GitHub. Además, hay 10,000,000+ descargas en Hugging Face, ocupando el primer lugar en la tendencia de cuatro semanas.
Mejoras de búsqueda: WebGPT vs. WebGLM
Para resolver el problema de la "ilusión" de los modelos grandes, la solución general es combinar el conocimiento en el motor de búsqueda y dejar que el modelo grande lleve a cabo la "mejora de la recuperación".
Ya en 2021, OpenAI afinó un modelo que puede agregar resultados de búsqueda basados en GPT-3: WebGPT.
WebGPT modela el comportamiento de búsqueda humano, busca en páginas web para encontrar respuestas relevantes y proporciona fuentes de citas, de modo que se puedan rastrear los resultados de salida.
Lo más importante es que ha logrado excelentes resultados en preguntas y respuestas largas de dominio abierto.
Bajo la guía de esta idea, nació WebGLM, el modelo de "versión en red" de ChatGLM, que es un modelo basado en el ajuste fino de 10 mil millones de parámetros de ChatGLM, y el enfoque principal es la búsqueda en red.
Por ejemplo, cuando quieres saber por qué el cielo es azul. WebGLM da inmediatamente la respuesta en línea e incluye un enlace para mejorar la credibilidad de la respuesta del modelo.
El recuperador basado en LLM se divide en dos etapas, una es la recuperación de red de grano grueso (búsqueda, adquisición, extracción) y la otra es la recuperación de destilación de grano fino.
En todo el proceso del recuperador, el tiempo se consume principalmente en el proceso de búsqueda de la página web, por lo que WebGLM utiliza tecnología asíncrona paralela para mejorar la eficiencia.
El generador de arranque es el núcleo y se encarga de generar respuestas de alta calidad a las preguntas de las páginas de referencia obtenidas del retriever.
Utiliza las capacidades de inferencia contextual de modelos grandes para generar conjuntos de datos de control de calidad de alta calidad y diseña estrategias de corrección y selección para filtrar subconjuntos de alta calidad para el entrenamiento.
Los resultados experimentales muestran que WebGLM puede proporcionar resultados más precisos y completar tareas de preguntas y respuestas de manera eficiente. Incluso, puede acercarse a WebGPT con 175 mil millones de parámetros con un rendimiento de 10 mil millones de parámetros.
Comprensión de imágenes y textos: GPT-4V vs. CogVLM
En septiembre de este año, OpenAI levantó oficialmente la prohibición de las increíbles capacidades multimodales de GPT-4.
GPT-4V, que es compatible con esto, tiene una gran capacidad para comprender imágenes y es capaz de procesar entradas multimodales mezcladas arbitrariamente.
Por ejemplo, no puede decir que el plato de la imagen es mapo tofu, e incluso puede dar los ingredientes para prepararlo.
A diferencia de los métodos comunes de fusión superficial, CogVLM incorpora un módulo experto en visión entrenable en el mecanismo de atención y la capa de red neuronal feedforward.
Este diseño logra una alineación profunda entre las características de la imagen y el texto, lo que compensa de manera efectiva las diferencias entre el modelo de lenguaje previamente entrenado y el codificador de imágenes.
En la actualidad, CogVLM-17B es el modelo con la primera puntuación completa en la lista académica autorizada multimodal, y ha logrado resultados SOTA o segundo lugar en 14 conjuntos de datos.
Logra el mejor rendimiento (SOTA) en 10 puntos de referencia intermodales autorizados, incluidos NoCaps, subtítulos Flicker30k, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA y TDIUC.
Los modelos multimodales anteriores suelen alinear las entidades de imagen directamente con el espacio de entrada de las entidades de texto, y el codificador de entidades de imagen suele ser pequeño, en este caso, la imagen puede considerarse como un "vasallo" del texto y el efecto es naturalmente limitado.
CogVLM, por otro lado, prioriza la comprensión visual en el modelo multimodal, utilizando un codificador de visión de parámetros 5B y un módulo experto en visión de parámetros 6B para modelar características de imagen con un total de 11B parámetros, que es incluso más que la cantidad de texto del parámetro 7B.
En algunas pruebas, CogVLM incluso superó a GPT-4V.
CogVLM puede identificar con precisión estas 4 casas, mientras que GPT-4V solo puede identificar 3.
En esta pregunta, se prueban imágenes con texto.
El modelo de grafos Wensheng más potente de OpenAI es DALL· E 3 también.
La idea general de CogView es realizar un entrenamiento autorregresivo mediante el empalme de entidades de texto y entidades de token de imagen. Por último, solo se introduce la característica de token de texto y el modelo puede generar continuamente tokens de imagen.
Específicamente, el texto "El avatar de un lindo gatito" se convierte primero en un token, y aquí se usa el modelo SentencePiece.
A continuación, se introduce una imagen de un gato y la parte de la imagen se convierte en un token a través de un discreto decodificador automático.
A continuación, se unen las entidades de token de texto e imagen y, a continuación, se introducen en el modelo GPT de la arquitectura Transformer para aprender a generar imágenes.
Comparación de DALL· E y esquemas GAN comunes, los resultados de CogView se han mejorado considerablemente.
En 2022, los investigadores actualizaron de nuevo el modelo de grafos de Wensheng CogView2, y el efecto se comparó directamente con DALL· E2。
En comparación con CogView, la arquitectura de CogView2 adopta un transformador jerárquico y un modo autorregresivo paralelo para la generación de imágenes.
En el artículo, los investigadores entrenaron previamente un modelo de transformador de 6.000 millones de parámetros, el Modelo de Lenguaje General Intermodal (CogLM), y lo ajustaron para lograr una superresolución rápida.
En noviembre del mismo año, el equipo creó un modelo de generación de texto a vídeo, CogVideo, basado en el modelo CogView2.
La arquitectura del modelo se divide en dos módulos: la primera parte se basa en CogView2 y genera varios fotogramas de imágenes a partir de texto. La segunda parte consiste en interpolar la imagen en base al modelo de atención bidireccional para generar un vídeo completo con una mayor velocidad de fotogramas.
Código: Codex vs. CodeGeeX
En el campo de la generación de código, OpenAI lanzó un Codex nuevo y actualizado ya en agosto de 2021, y domina más de 10 lenguajes de programación, incluidos Python, Java, Go, Perl, PHP, Ruby, Swift, Type e incluso Shell.
Los usuarios pueden simplemente dar un simple aviso y hacer que Codex escriba el código automáticamente en lenguaje natural.
Codex está entrenado en GPT-3, y los datos contienen miles de millones de líneas de código fuente. Además, Codex puede admitir información contextual que es más de 3 veces más larga que GPT-3.
En julio de 2023, Zhipu lanzó un CodeGeeX2-6B más fuerte, rápido y ligero, que puede admitir más de 100 idiomas, y el peso está completamente abierto a la investigación académica.
CodeGeeX2 se basa en la nueva arquitectura ChatGLM2 y está optimizado para una variedad de tareas relacionadas con la programación, como el autocompletado de código, la generación de código, la traducción de código, la finalización de código entre archivos y más.
Gracias a la actualización de ChatGLM2, CodeGeeX2 no solo puede admitir mejor la entrada en chino e inglés, así como una longitud máxima de secuencia de 8192, sino que también puede mejorar en gran medida varios indicadores de rendimiento: Python +57%, C ++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
En la revisión de Human, CodeGeeX2 superó ampliamente el modelo StarCoder de 15 mil millones de parámetros, así como el modelo Code-Cushman-001 de OpenAI (el modelo utilizado por GitHub Copilot).
Además, la velocidad de inferencia de CodeGeeX2 también es más rápida que la del CodeGeeX-13B de primera generación, que solo necesita 6 GB de memoria de video para ejecutarse después de la cuantificación y admite una implementación localizada ligera.
En la actualidad, el complemento CodeGeeX se puede descargar y experimentar en IDE convencionales como VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm y Android Studio.
El modelo doméstico grande es totalmente autodesarrollado
En la conferencia, Zhang Peng, CEO de Zhipu AI, expuso su propia opinión al principio: el primer año del gran modelo no fue en el año en que ChatGPT desencadenó el auge de LLM, sino en 2020, cuando nació GPT-3.
En ese momento, Zhipu AI, que acababa de establecerse por un año, comenzó a usar el poder de toda la empresa para TODO en modelos grandes.
Como una de las primeras empresas en entrar en la investigación de modelos a gran escala, Zhipu AI ha acumulado suficientes capacidades de servicio empresarial; Como una de las "primeras empresas en comer cangrejos" en código abierto, ChatGLM-6B encabezó la lista de tendencias de la cara de abrazo a las cuatro semanas de su lanzamiento, y ganó 5w+ estrellas en GitHub.
En 2023, cuando la guerra está en su apogeo en la industria de los grandes modelos, Zhipu AI vuelve a estar en el punto de mira y ocupa la ventaja de ser el primero en moverse con el ChatGLM3 recientemente actualizado.
Recursos: