De la teoría a la práctica, ¿cómo es la forma completa del LLM en modelo de lenguaje grande?
Mucha gente diría que se basa en una comprensión profunda del lenguaje natural, pero la serie GPT de OpenAI ya ha hecho un buen trabajo en este sentido. Algunas personas también están discutiendo la posibilidad práctica de AI Agent, pero actualmente esta discusión no se aleja del alcance del procesamiento del lenguaje natural.
La IA generativa en realidad incluye dos aspectos. Uno de ellos es el modelo de lenguaje grande, que se centra en la comprensión del lenguaje humano. La aplicación más amplia llamada AIGC en realidad se refiere a la capacidad de conversión intermodal representada por el modelo de difusión, también conocido como Vincent. fotografías, vídeos de Vincent, etc.
Entonces, ¿qué tal si combinamos los dos? A los ojos de muchas personas, esta es en realidad la próxima generación de GPT, o cómo se verá GPT en su totalidad. Un artículo de la Escuela de Computación de la Universidad Nacional de Singapur que apareció recientemente en el sitio web de preimpresión arxiv atrajo la atención de la gente porque el modelo NExT-GPT diseñado en este artículo intenta realizar una conversión modal integral.
En la figura anterior, podemos ver que los extremos de entrada y salida del modelo NExT-GPT pueden generar una variedad de formas modales que incluyen texto, imágenes, audio y video. El extremo de salida utiliza modelos de difusión correspondientes a diferentes modos excepto el texto. La conversión de medios entre entrada y salida se basa en modelos grandes.
En realidad, el estilo del modelo NExT-GPT no sólo se ajusta a la tendencia actual de las personas que intentan combinar las dos fuerzas de la IA generativa: grandes modelos de lenguaje y modelos de difusión, sino que incluso se ajusta hasta cierto punto a la intuición humana: el cerebro humano depende en Comprender el mundo a través de la conversión libre y la comprensión interactiva de múltiples modalidades.
Vale la pena señalar especialmente que la llamada combinación de conversión multimodal y capacidades de modelos de lenguaje grandes no es una forma simple de "construir un puente" entre sí, sino de combinar verdaderamente datos multimodales (vectores) con lenguaje. Una vez que este proceso se haya suavizado realmente, significa que los modelos grandes no solo pueden aprender y comprender el lenguaje humano, sino también expandir esta capacidad a más modalidades. Una vez que esta combinación sea exitosa, se producirá un salto cualitativo en las capacidades de IA.
Descripción general de la estructura NExT-GPT:
Dos puntos de ruptura
Se dice que tanto Google como GPT5 de OpenAI están realizando investigaciones similares. Antes de eso, primero echemos un vistazo a cómo lo hace el modelo NExT-GPT.
En general, el modelo NExT-GPT conecta un modelo grande con un adaptador multimodal y un decodificador de modelo de difusión, con solo un 1% de ajuste de parámetros en la capa de proyección. La innovación del artículo es la creación de una instrucción de ajuste de conmutación modal llamada MosIT y un conjunto de datos específicamente para la conmutación intermodal.
Específicamente, NExT-GPT consta de tres capas: la primera capa es que varios codificadores maduros codifican varias entradas modales y luego asignan a través de la capa de proyección a una forma que pueda ser entendida por un modelo de lenguaje grande. La segunda capa es un modelo de lenguaje grande de código abierto que se utiliza para razonar. Vale la pena mencionar que el modelo de lenguaje grande no solo genera texto, sino que también genera una etiqueta única para indicarle a la capa de decodificación que genere contenido modal específico. La tercera capa proyecta estas señales de comando y genera el contenido correspondiente a diferentes codificadores.
Para reducir costos, NExT-GPT utiliza codificadores y decodificadores disponibles en el mercado. Para minimizar el "ruido" que se produce al convertir contenido en diferentes modalidades, NExT-GPT utiliza ImageBind, que es una codificación unificada multimodal. .codificador, de modo que NExT-GPT no necesita administrar muchos codificadores modales heterogéneos, sino que puede proyectar uniformemente diferentes modalidades en un modelo de lenguaje grande.
En cuanto a la etapa de salida, NExT-GPT utiliza ampliamente varios modelos maduros, incluida la difusión estable para la generación de imágenes, Zeroscope para la generación de video y AudioLDM para la síntesis de audio. La siguiente figura es parte del proceso de razonamiento en el documento. Puede ver que los patrones de texto y los marcadores de señal determinan cómo se reconocen, activan y generan las modalidades. Las partes grises son opciones modales que no se activan.
Esto implica un problema de comprensión semántica entre diferentes modalidades, por lo que la alineación es esencial. Sin embargo, debido a la estructura relativamente clara, la alineación de NExT-GPT es realmente muy fácil de operar. El autor diseñó una estructura de acoplamiento de tres capas: el extremo de codificación está alineado con el modelo grande como centro y el extremo de decodificación está alineado con las instrucciones. Esta alineación renuncia a realizar un proceso de alineación a gran escala entre el modelo de difusión y el modelo de lenguaje grande, y en su lugar utiliza solo un codificador condicional de texto. Después de minimizar la distancia entre los marcadores de señal del patrón del modelo grande y el texto del modelo de difusión, la alineación es solo Basada en texto puro, esta alineación es muy ligera y solo alrededor del 1% de los parámetros necesitan ajuste.
Teniendo en cuenta la necesidad de que NExT-GPT tenga la capacidad de generar y razonar con precisión entre modalidades, el documento también presenta MosIT, que es Modality-switching Instrucción Tuning. Su entrenamiento se basa en un conjunto de datos compuesto por 5000 muestras de alta calidad.
El proceso de capacitación específico es un poco complicado, por lo que no entraré en detalles. En términos generales, MosIT puede reconstruir el contenido del texto de entrada y salida, de modo que NExT-GPT puede comprender bien varias combinaciones de modos de texto, imágenes, videos y audio. ... instrucciones complejas, que se aproximan mucho al modo de comprensión y razonamiento humanos.
**¿Se acerca la perfección? **
En la actualidad, NExT-GPT todavía tiene muchas debilidades, y el autor también mencionó muchas de ellas en el artículo. Por ejemplo, es muy fácil pensar que las cuatro modalidades todavía son demasiado pocas para un verdadero multimodal completo y grande. modelo Entrenamiento MosIT El número de conjuntos de datos también es limitado.
Además, el autor también está trabajando arduamente para adaptar NExT-GPT a más escenarios a través de grandes modelos de lenguaje de diferentes tamaños.
Otro tema espinoso es más práctico que el tamaño. Aunque NExT-GPT muestra fuertes perspectivas para las capacidades multimodales, el nivel actual de capacidades AIGC representadas por el modelo de difusión aún es limitado, lo que afecta el rendimiento de todo NExT-GPT.
En general, la IA multimodal tiene perspectivas muy atractivas porque está más estrechamente integrada con los escenarios de aplicación y las necesidades de los usuarios. Dado que la popularidad actual de las pistas de modelos grandes está disminuyendo ligeramente, la IA multimodal ofrece a las personas un enorme espacio de imaginación. Como modelo grande multimodal de extremo a extremo, NExT-GPT en realidad tiene el prototipo de IA multimodal. Las ideas en el documento sobre la alineación de ajuste de parámetros y el uso de MosIT para mejorar las capacidades de razonamiento del modelo son impresionantes, por lo que podemos Incluso se puede decir que alguien ya ha dado el primer paso hacia una IA completa.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¿Alguien ya ha construido GPT-5 para OpenAI?
Fuente original: GenAI Nuevo Mundo
Autor|Xue LiangNeil
De la teoría a la práctica, ¿cómo es la forma completa del LLM en modelo de lenguaje grande?
Mucha gente diría que se basa en una comprensión profunda del lenguaje natural, pero la serie GPT de OpenAI ya ha hecho un buen trabajo en este sentido. Algunas personas también están discutiendo la posibilidad práctica de AI Agent, pero actualmente esta discusión no se aleja del alcance del procesamiento del lenguaje natural.
La IA generativa en realidad incluye dos aspectos. Uno de ellos es el modelo de lenguaje grande, que se centra en la comprensión del lenguaje humano. La aplicación más amplia llamada AIGC en realidad se refiere a la capacidad de conversión intermodal representada por el modelo de difusión, también conocido como Vincent. fotografías, vídeos de Vincent, etc.
Entonces, ¿qué tal si combinamos los dos? A los ojos de muchas personas, esta es en realidad la próxima generación de GPT, o cómo se verá GPT en su totalidad. Un artículo de la Escuela de Computación de la Universidad Nacional de Singapur que apareció recientemente en el sitio web de preimpresión arxiv atrajo la atención de la gente porque el modelo NExT-GPT diseñado en este artículo intenta realizar una conversión modal integral.
En realidad, el estilo del modelo NExT-GPT no sólo se ajusta a la tendencia actual de las personas que intentan combinar las dos fuerzas de la IA generativa: grandes modelos de lenguaje y modelos de difusión, sino que incluso se ajusta hasta cierto punto a la intuición humana: el cerebro humano depende en Comprender el mundo a través de la conversión libre y la comprensión interactiva de múltiples modalidades.
Vale la pena señalar especialmente que la llamada combinación de conversión multimodal y capacidades de modelos de lenguaje grandes no es una forma simple de "construir un puente" entre sí, sino de combinar verdaderamente datos multimodales (vectores) con lenguaje. Una vez que este proceso se haya suavizado realmente, significa que los modelos grandes no solo pueden aprender y comprender el lenguaje humano, sino también expandir esta capacidad a más modalidades. Una vez que esta combinación sea exitosa, se producirá un salto cualitativo en las capacidades de IA.
Descripción general de la estructura NExT-GPT:
Dos puntos de ruptura
Se dice que tanto Google como GPT5 de OpenAI están realizando investigaciones similares. Antes de eso, primero echemos un vistazo a cómo lo hace el modelo NExT-GPT.
En general, el modelo NExT-GPT conecta un modelo grande con un adaptador multimodal y un decodificador de modelo de difusión, con solo un 1% de ajuste de parámetros en la capa de proyección. La innovación del artículo es la creación de una instrucción de ajuste de conmutación modal llamada MosIT y un conjunto de datos específicamente para la conmutación intermodal.
Específicamente, NExT-GPT consta de tres capas: la primera capa es que varios codificadores maduros codifican varias entradas modales y luego asignan a través de la capa de proyección a una forma que pueda ser entendida por un modelo de lenguaje grande. La segunda capa es un modelo de lenguaje grande de código abierto que se utiliza para razonar. Vale la pena mencionar que el modelo de lenguaje grande no solo genera texto, sino que también genera una etiqueta única para indicarle a la capa de decodificación que genere contenido modal específico. La tercera capa proyecta estas señales de comando y genera el contenido correspondiente a diferentes codificadores.
Para reducir costos, NExT-GPT utiliza codificadores y decodificadores disponibles en el mercado. Para minimizar el "ruido" que se produce al convertir contenido en diferentes modalidades, NExT-GPT utiliza ImageBind, que es una codificación unificada multimodal. .codificador, de modo que NExT-GPT no necesita administrar muchos codificadores modales heterogéneos, sino que puede proyectar uniformemente diferentes modalidades en un modelo de lenguaje grande.
En cuanto a la etapa de salida, NExT-GPT utiliza ampliamente varios modelos maduros, incluida la difusión estable para la generación de imágenes, Zeroscope para la generación de video y AudioLDM para la síntesis de audio. La siguiente figura es parte del proceso de razonamiento en el documento. Puede ver que los patrones de texto y los marcadores de señal determinan cómo se reconocen, activan y generan las modalidades. Las partes grises son opciones modales que no se activan.
Teniendo en cuenta la necesidad de que NExT-GPT tenga la capacidad de generar y razonar con precisión entre modalidades, el documento también presenta MosIT, que es Modality-switching Instrucción Tuning. Su entrenamiento se basa en un conjunto de datos compuesto por 5000 muestras de alta calidad.
**¿Se acerca la perfección? **
En la actualidad, NExT-GPT todavía tiene muchas debilidades, y el autor también mencionó muchas de ellas en el artículo. Por ejemplo, es muy fácil pensar que las cuatro modalidades todavía son demasiado pocas para un verdadero multimodal completo y grande. modelo Entrenamiento MosIT El número de conjuntos de datos también es limitado.
Además, el autor también está trabajando arduamente para adaptar NExT-GPT a más escenarios a través de grandes modelos de lenguaje de diferentes tamaños.
Otro tema espinoso es más práctico que el tamaño. Aunque NExT-GPT muestra fuertes perspectivas para las capacidades multimodales, el nivel actual de capacidades AIGC representadas por el modelo de difusión aún es limitado, lo que afecta el rendimiento de todo NExT-GPT.
En general, la IA multimodal tiene perspectivas muy atractivas porque está más estrechamente integrada con los escenarios de aplicación y las necesidades de los usuarios. Dado que la popularidad actual de las pistas de modelos grandes está disminuyendo ligeramente, la IA multimodal ofrece a las personas un enorme espacio de imaginación. Como modelo grande multimodal de extremo a extremo, NExT-GPT en realidad tiene el prototipo de IA multimodal. Las ideas en el documento sobre la alineación de ajuste de parámetros y el uso de MosIT para mejorar las capacidades de razonamiento del modelo son impresionantes, por lo que podemos Incluso se puede decir que alguien ya ha dado el primer paso hacia una IA completa.