O GPT-4 atua como um "planejador e auditor", um modelo de gráfico Wensheng subversivo de duas camadas

Fonte original: AIGC Open Community

Fonte da imagem: Gerado por Unbounded AI

Modelos como DALL-E 3, Midjourney e Stable Diffusion demonstraram grande capacidade criativa para gerar imagens de alta qualidade de vários tipos, como esboços, punk, 3D e imagens bidimensionais a partir de texto, mas são um pouco carentes na geração de gráficos científicos (colunas, histogramas, boxlines, árvores, etc.).

Isso ocorre porque o modelo perde objetos importantes ao gerar diagramas, gera setas incorretas de relacionamento de objeto e produz rótulos de texto ilegíveis que não têm controle de layout refinado sobre objetos. Em particular, quando vários objetos têm setas complexas ou relações de segmento de linha, não é possível renderizar texto claro e legível, o que é crítico para a geração de gráficos.

A fim de resolver estes dois problemas, a Universidade da Carolina do Norte propôs a estrutura DiagrammerGPT. Primeiro, use GPT-4 para agir como um "planejador" para gerar informações de planejamento de layout para o diagrama com base em descrições de texto.

As informações de planejamento contêm entidades (objetos e rótulos de texto), relações entre entidades (setas, segmentos e assim por diante) e informações de layout para entidades (coordenadas de caixa delimitadora). Em seguida, o GPT-4 é usado como um "auditor" para revisar todo o plano de planejamento e otimizar os detalhes dos gráficos.

No estágio de geração do diagrama, o modelo de difusão DiagramGLIGEN pode ser usado para gerar gráficos precisos de acordo com o plano do diagrama, e os rótulos de texto podem ser renderizados pela biblioteca Pillow para melhorar a precisão.

De acordo com os dados do teste, o DiagrammerGPT é significativamente melhor do que os gráficos gerados por modelos como Stable Diffusion, VPGen e AutomaTikZ em vários indicadores quantitativos.

Em termos de avaliação da precisão da relação entre gráficos e textos e objetos, o DiagrammerGPT obteve pontuações 36% e 48% melhores do que o modelo de benchmark, respectivamente. Este estudo é um grande avanço para modelos de gráficos de alta precisão para geração de texto.

Endereço Open Source:

Endereço:

Planeamento de Gráficos

A maior inovação da estrutura DiagrammerGPT é que ela usa o poderoso poder de processamento de linguagem natural do GPT-4 para orientar a geração de layouts de diagramas. A fim de gerar um plano mais preciso, um mecanismo de feedback de circuito fechado também é projetado.

Um GPT-4 atua como um "planejador" para gerar o plano inicial, e o outro GPT-4 atua como um "auditor", avaliando a precisão do plano e fornecendo feedback. Os planejadores podem ajustar o layout com base no feedback.

1) Geração inicial de planejamento gráfico

Os pesquisadores treinaram o GPT-4 em 10 amostras de aprendizagem contextual, cada uma contendo uma descrição completa do texto do diagrama, entidades, relacionamentos e informações de layout. O plano comporta 3 elementos:

Entidades: Uma lista de objetos e rótulos de texto. Um objeto refere-se a um elemento de imagem em um diagrama, e um rótulo de texto refere-se a uma descrição textual de um objeto.

Relações: relações entre entidades, como conexões de seta, conexões de segmento de linha, objetos de rótulo de rótulo de texto e assim por diante.

Layout: Informações de coordenadas da caixa delimitadora para todas as entidades, no formato [x,y,w,h].

2) Otimização do Planeamento

A fim de melhorar ainda mais a qualidade do planeamento, foi proposto um mecanismo de feedback em circuito fechado para planeadores e auditores para otimização iterativa. O GPT-4 atua como planejador e outro GPT-4 atua como auditor. O auditor verifica se o plano corresponde à descrição do texto e fornece feedback; Os planejadores atualizam os planos com base no feedback.

Entre eles, o auditor GPT-4 também é treinado através de aprendizagem específica do contexto para fornecer feedback eficaz. Ambos os treinamentos usam diferentes amostras de aprendizagem contextual.

Geração de Gráficos

Os pesquisadores usaram o modelo de difusão Diagram GLIGEN para geração de grafos, e adicionaram uma camada de auto-atenção fechada, que pode usar as informações de layout do planejamento gráfico para orientar a geração de imagens.

Ao contrário do modelo GLIGEN original, que lida apenas com objetos, DiagramGLIGEN pode lidar com rótulos de texto e relações de seta como entradas de layout. O DiagramGLIGEN é treinado no conjunto de dados AI2D-Caption para gerar diagramas científicos específicos do domínio.

No entanto, devido à fraca renderização do texto do próprio modelo de difusão, os pesquisadores usaram a biblioteca Pillow para renderizar explicitamente rótulos de texto para melhorar a clareza do texto.

Formação, Conjunto de Dados de Avaliação

Com base no conjunto de dados de gráficos científicos AI2D, os pesquisadores construíram o conjunto de dados AI2D-Caption para treinamento e teste de dados de geração de texto para gráfico. O AI2D contém cerca de 4.900 imagens de tabelas e gráficos científicos, abrangendo astronomia, biologia, engenharia e muito mais.

Um total de 105 gráficos foram selecionados, e um modelo de linguagem grande foi usado para gerar títulos de imagem detalhados e descrições de objetos para cada gráfico. Entre eles, 30 foram usados como amostras de aprendizagem contextual para o modelo de linguagem, e 75 foram usados como conjuntos de testes.

Em comparação com o AI2D original, que tinha apenas um título simples, o AI2D-Caption fornece uma descrição de texto mais rica, incluindo o título completo do gráfico e detalhes de cada objeto.

Vários dados de benchmark mostram que, no VP, a precisão de objeto, número, relacionamento e renderização de texto do DiagrammerGPT é significativamente melhor do que o modelo de benchmark, provando a alta qualidade de seus gráficos gerados em muitos aspetos.

Nas legendas de imagem, os gráficos gerados pelo DiagrammerGPT podem produzir legendas mais relevantes e mais próximas dos valores de verdade. No CLIPScore, a semelhança imagem-texto e imagem-imagem do DiagrammerGPT é maior, mais próxima dos gráficos e títulos da verdade. Avaliações humanas também foram realizadas, com a maioria dizendo que preferia os gráficos gerados pelo DiagrammerGPT.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)