Alguém já construiu o GPT-5 para OpenAI?

Fonte original: GenAI Novo Mundo

Autor|Xue LiangNeil

Fonte da imagem: gerada por Unbounded AI‌

Da teoria à prática, como é a forma completa do modelo de linguagem grande LLM?

Muitas pessoas diriam que se baseia em uma compreensão profunda da linguagem natural, mas a série GPT da OpenAI já fez um bom trabalho nesse sentido. Algumas pessoas também estão discutindo a possibilidade prática do Agente AI, mas atualmente esta discussão não foge do escopo do processamento de linguagem natural.

A IA generativa, na verdade, inclui dois aspectos. O modelo de linguagem grande é um deles, que se concentra na compreensão da linguagem humana. A chamada aplicação AIGC mais ampla, na verdade, refere-se à capacidade de conversão intermodal representada pelo modelo de difusão. , também conhecido como Vincent fotos, vídeos de Vincent, etc.

Então, que tal combinar os dois? Aos olhos de muitas pessoas, esta é na verdade a próxima geração do GPT, ou a aparência do GPT em sua totalidade. Um artigo da Escola de Computação da Universidade Nacional de Cingapura que apareceu recentemente no site de pré-impressão arxiv atraiu a atenção das pessoas porque o modelo NExT-GPT projetado neste artigo tenta realizar uma conversão modal abrangente.

Na figura acima, podemos ver que as extremidades de entrada e saída do modelo NExT-GPT podem gerar uma variedade de formas modais, incluindo texto, imagens, áudio e vídeo. A extremidade de saída usa modelos de difusão correspondentes a diferentes modos, exceto texto. A conversão de mídia entre entrada e saída depende de modelos grandes.

O estilo do modelo NExT-GPT, na verdade, não apenas está em conformidade com a tendência atual de pessoas que tentam combinar as duas forças da IA generativa: grandes modelos de linguagem e modelos de difusão, mas também está em conformidade com a intuição humana até certo ponto: o cérebro humano depende on Entenda o mundo por meio da conversão gratuita e da compreensão interativa de múltiplas modalidades.

É particularmente importante ressaltar que a chamada combinação de conversão multimodal e grandes capacidades de modelo de linguagem não é uma maneira simples de "construir uma ponte" entre si, mas de combinar verdadeiramente dados multimodais (vetores) com linguagem dados. Depois que esse processo for realmente suavizado, isso significa que grandes modelos podem não apenas aprender e compreender a linguagem humana, mas também expandir essa capacidade para mais modalidades. Uma vez que essa combinação seja bem-sucedida, provocará um salto qualitativo nas capacidades de IA.

Visão geral da estrutura NExT-GPT:

Dois pontos de ruptura

Diz-se que tanto o Google quanto o GPT5 da OpenAI estão conduzindo pesquisas semelhantes. Antes disso, vamos primeiro dar uma olhada em como o modelo NExT-GPT faz isso.

Em geral, o modelo NExT-GPT conecta um modelo grande com um adaptador multimodal e um decodificador de modelo de difusão, com apenas 1% de ajuste de parâmetro na camada de projeção. A inovação do artigo é a criação de uma instrução de ajuste de comutação modal chamada MosIT, e um conjunto de dados específico para comutação cross-modal.

Especificamente, o NExT-GPT consiste em três camadas: a primeira camada é que vários codificadores maduros codificam várias entradas modais e, em seguida, mapeiam através da camada de projeção para um formato que pode ser compreendido por um grande modelo de linguagem. A segunda camada é um grande modelo de linguagem de código aberto usado para raciocínio. Vale ressaltar que o modelo de linguagem grande não apenas gera texto, mas também gera uma tag exclusiva para instruir a camada de decodificação a gerar conteúdo modal específico. A terceira camada projeta esses sinais de comando e gera o conteúdo correspondente aos diferentes codificadores.

Para reduzir custos, o NExT-GPT utiliza codificadores e decodificadores prontos para uso. Para minimizar o "ruído" que ocorre ao converter conteúdo em diferentes modalidades, o NExT-GPT utiliza ImageBind, que é uma codificação unificada multimodal .codificador, de modo que o NExT-GPT não precise gerenciar muitos codificadores modais heterogêneos, mas possa projetar uniformemente diferentes modalidades em um grande modelo de linguagem.

Quanto ao estágio de saída, o NExT-GPT utiliza extensivamente vários modelos maduros, incluindo difusão estável para geração de imagem, Zeroscope para geração de vídeo e AudioLDM para síntese de áudio. A figura abaixo faz parte do processo de raciocínio do artigo. Você pode ver que os padrões de texto e os marcadores de sinal determinam como as modalidades são reconhecidas, acionadas e geradas. As partes cinzas são opções modais que não são acionadas.

Isto envolve um problema de compreensão semântica entre diferentes modalidades, por isso o alinhamento é essencial. No entanto, devido à estrutura relativamente clara, o alinhamento do NExT-GPT é realmente muito fácil de operar. O autor projetou uma estrutura de acoplamento de três camadas: a extremidade de codificação está alinhada com o modelo grande como centro, e a extremidade de decodificação está alinhada com as instruções. Este alinhamento renuncia à realização de um processo de alinhamento em grande escala entre o modelo de difusão e o modelo de linguagem grande,e em vez disso utiliza apenas um codificador condicional de texto.Depois de minimizar a distância entre os marcadores de sinal padrão do modelo grande e o texto do modelo de difusão,o alinhamento é apenas Baseado em texto puro, esse alinhamento é muito leve, com apenas cerca de 1% dos parâmetros necessitando de ajuste.

Considerando a necessidade do NExT-GPT ter a capacidade de gerar e raciocinar com precisão entre modalidades, o artigo também apresenta o MosIT, que é o Modality-switching Instruction Tuning. Seu treinamento é baseado em um conjunto de dados composto por 5.000 amostras de alta qualidade.

O processo de treinamento específico é um pouco complicado, então não vou entrar em detalhes. De um modo geral, o MosIT pode reconstruir o conteúdo de texto de entrada e saída, para que o NExT-GPT possa entender bem as várias combinações de modo de texto, imagens, vídeos e áudios instruções complexas, que estão muito próximas do modo de compreensão e raciocínio humano.

**A perfeição está chegando? **

Atualmente, o NExT-GPT ainda tem muitos pontos fracos. O autor também mencionou muitos deles no artigo. Por exemplo, é muito fácil pensar que as quatro modalidades ainda são um pouco poucas para um verdadeiro multimodal completo e grande modelo Treinamento MosIT O número de conjuntos de dados também é limitado.

Além disso, o autor também está trabalhando duro para adaptar o NExT-GPT a mais cenários por meio de grandes modelos de linguagem de diferentes tamanhos.

Outra questão espinhosa é mais prática que o tamanho. Embora o NExT-GPT mostre fortes perspectivas de capacidades multimodais, o nível atual de capacidades AIGC representado pelo modelo de difusão ainda é limitado, o que afeta o desempenho de todo o NExT-GPT.

Em geral, a IA multimodal tem perspectivas muito atraentes, porque está mais intimamente integrada aos cenários de aplicação e às necessidades do usuário.Com a popularidade atual das pistas de grandes modelos diminuindo ligeiramente, a IA multimodal dá às pessoas Com enorme espaço de imaginação. Como um grande modelo multimodal ponta a ponta, o NExT-GPT na verdade tem o protótipo de IA multimodal.As ideias do artigo sobre o alinhamento de ajuste de parâmetros e o uso do MosIT para aprimorar as capacidades de raciocínio do modelo são impressionantes, então podemos pode-se até dizer que alguém já deu o primeiro passo em direção à IA completa.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)