Modelos como DALL-E 3, Midjourney e Stable Diffusion demonstraram grande capacidade criativa para gerar imagens de alta qualidade de vários tipos, como esboços, punk, 3D e imagens bidimensionais a partir de texto, mas são um pouco carentes na geração de gráficos científicos (colunas, histogramas, boxlines, árvores, etc.).
Isso ocorre porque o modelo perde objetos importantes ao gerar diagramas, gera setas incorretas de relacionamento de objeto e produz rótulos de texto ilegíveis que não têm controle de layout refinado sobre objetos. Em particular, quando vários objetos têm setas complexas ou relações de segmento de linha, não é possível renderizar texto claro e legível, o que é crítico para a geração de gráficos.
A fim de resolver estes dois problemas, a Universidade da Carolina do Norte propôs a estrutura DiagrammerGPT. Primeiro, use GPT-4 para agir como um "planejador" para gerar informações de planejamento de layout para o diagrama com base em descrições de texto.
As informações de planejamento contêm entidades (objetos e rótulos de texto), relações entre entidades (setas, segmentos e assim por diante) e informações de layout para entidades (coordenadas de caixa delimitadora). Em seguida, o GPT-4 é usado como um "auditor" para revisar todo o plano de planejamento e otimizar os detalhes dos gráficos.
No estágio de geração do diagrama, o modelo de difusão DiagramGLIGEN pode ser usado para gerar gráficos precisos de acordo com o plano do diagrama, e os rótulos de texto podem ser renderizados pela biblioteca Pillow para melhorar a precisão.
De acordo com os dados do teste, o DiagrammerGPT é significativamente melhor do que os gráficos gerados por modelos como Stable Diffusion, VPGen e AutomaTikZ em vários indicadores quantitativos.
Em termos de avaliação da precisão da relação entre gráficos e textos e objetos, o DiagrammerGPT obteve pontuações 36% e 48% melhores do que o modelo de benchmark, respectivamente. Este estudo é um grande avanço para modelos de gráficos de alta precisão para geração de texto.
Endereço Open Source:
Endereço:
Planeamento de Gráficos
A maior inovação da estrutura DiagrammerGPT é que ela usa o poderoso poder de processamento de linguagem natural do GPT-4 para orientar a geração de layouts de diagramas. A fim de gerar um plano mais preciso, um mecanismo de feedback de circuito fechado também é projetado.
Um GPT-4 atua como um "planejador" para gerar o plano inicial, e o outro GPT-4 atua como um "auditor", avaliando a precisão do plano e fornecendo feedback. Os planejadores podem ajustar o layout com base no feedback.
1) Geração inicial de planejamento gráfico
Os pesquisadores treinaram o GPT-4 em 10 amostras de aprendizagem contextual, cada uma contendo uma descrição completa do texto do diagrama, entidades, relacionamentos e informações de layout. O plano comporta 3 elementos:
Entidades: Uma lista de objetos e rótulos de texto. Um objeto refere-se a um elemento de imagem em um diagrama, e um rótulo de texto refere-se a uma descrição textual de um objeto.
Relações: relações entre entidades, como conexões de seta, conexões de segmento de linha, objetos de rótulo de rótulo de texto e assim por diante.
Layout: Informações de coordenadas da caixa delimitadora para todas as entidades, no formato [x,y,w,h].
2) Otimização do Planeamento
A fim de melhorar ainda mais a qualidade do planeamento, foi proposto um mecanismo de feedback em circuito fechado para planeadores e auditores para otimização iterativa. O GPT-4 atua como planejador e outro GPT-4 atua como auditor. O auditor verifica se o plano corresponde à descrição do texto e fornece feedback; Os planejadores atualizam os planos com base no feedback.
Entre eles, o auditor GPT-4 também é treinado através de aprendizagem específica do contexto para fornecer feedback eficaz. Ambos os treinamentos usam diferentes amostras de aprendizagem contextual.
Geração de Gráficos
Os pesquisadores usaram o modelo de difusão Diagram GLIGEN para geração de grafos, e adicionaram uma camada de auto-atenção fechada, que pode usar as informações de layout do planejamento gráfico para orientar a geração de imagens.
Ao contrário do modelo GLIGEN original, que lida apenas com objetos, DiagramGLIGEN pode lidar com rótulos de texto e relações de seta como entradas de layout. O DiagramGLIGEN é treinado no conjunto de dados AI2D-Caption para gerar diagramas científicos específicos do domínio.
No entanto, devido à fraca renderização do texto do próprio modelo de difusão, os pesquisadores usaram a biblioteca Pillow para renderizar explicitamente rótulos de texto para melhorar a clareza do texto.
Formação, Conjunto de Dados de Avaliação
Com base no conjunto de dados de gráficos científicos AI2D, os pesquisadores construíram o conjunto de dados AI2D-Caption para treinamento e teste de dados de geração de texto para gráfico. O AI2D contém cerca de 4.900 imagens de tabelas e gráficos científicos, abrangendo astronomia, biologia, engenharia e muito mais.
Um total de 105 gráficos foram selecionados, e um modelo de linguagem grande foi usado para gerar títulos de imagem detalhados e descrições de objetos para cada gráfico. Entre eles, 30 foram usados como amostras de aprendizagem contextual para o modelo de linguagem, e 75 foram usados como conjuntos de testes.
Em comparação com o AI2D original, que tinha apenas um título simples, o AI2D-Caption fornece uma descrição de texto mais rica, incluindo o título completo do gráfico e detalhes de cada objeto.
Vários dados de benchmark mostram que, no VP, a precisão de objeto, número, relacionamento e renderização de texto do DiagrammerGPT é significativamente melhor do que o modelo de benchmark, provando a alta qualidade de seus gráficos gerados em muitos aspetos.
Nas legendas de imagem, os gráficos gerados pelo DiagrammerGPT podem produzir legendas mais relevantes e mais próximas dos valores de verdade. No CLIPScore, a semelhança imagem-texto e imagem-imagem do DiagrammerGPT é maior, mais próxima dos gráficos e títulos da verdade. Avaliações humanas também foram realizadas, com a maioria dizendo que preferia os gráficos gerados pelo DiagrammerGPT.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O GPT-4 atua como um "planejador e auditor", um modelo de gráfico Wensheng subversivo de duas camadas
Fonte original: AIGC Open Community
Modelos como DALL-E 3, Midjourney e Stable Diffusion demonstraram grande capacidade criativa para gerar imagens de alta qualidade de vários tipos, como esboços, punk, 3D e imagens bidimensionais a partir de texto, mas são um pouco carentes na geração de gráficos científicos (colunas, histogramas, boxlines, árvores, etc.).
Isso ocorre porque o modelo perde objetos importantes ao gerar diagramas, gera setas incorretas de relacionamento de objeto e produz rótulos de texto ilegíveis que não têm controle de layout refinado sobre objetos. Em particular, quando vários objetos têm setas complexas ou relações de segmento de linha, não é possível renderizar texto claro e legível, o que é crítico para a geração de gráficos.
A fim de resolver estes dois problemas, a Universidade da Carolina do Norte propôs a estrutura DiagrammerGPT. Primeiro, use GPT-4 para agir como um "planejador" para gerar informações de planejamento de layout para o diagrama com base em descrições de texto.
As informações de planejamento contêm entidades (objetos e rótulos de texto), relações entre entidades (setas, segmentos e assim por diante) e informações de layout para entidades (coordenadas de caixa delimitadora). Em seguida, o GPT-4 é usado como um "auditor" para revisar todo o plano de planejamento e otimizar os detalhes dos gráficos.
De acordo com os dados do teste, o DiagrammerGPT é significativamente melhor do que os gráficos gerados por modelos como Stable Diffusion, VPGen e AutomaTikZ em vários indicadores quantitativos.
Em termos de avaliação da precisão da relação entre gráficos e textos e objetos, o DiagrammerGPT obteve pontuações 36% e 48% melhores do que o modelo de benchmark, respectivamente. Este estudo é um grande avanço para modelos de gráficos de alta precisão para geração de texto.
Endereço Open Source:
Endereço:
Planeamento de Gráficos
A maior inovação da estrutura DiagrammerGPT é que ela usa o poderoso poder de processamento de linguagem natural do GPT-4 para orientar a geração de layouts de diagramas. A fim de gerar um plano mais preciso, um mecanismo de feedback de circuito fechado também é projetado.
Um GPT-4 atua como um "planejador" para gerar o plano inicial, e o outro GPT-4 atua como um "auditor", avaliando a precisão do plano e fornecendo feedback. Os planejadores podem ajustar o layout com base no feedback.
Os pesquisadores treinaram o GPT-4 em 10 amostras de aprendizagem contextual, cada uma contendo uma descrição completa do texto do diagrama, entidades, relacionamentos e informações de layout. O plano comporta 3 elementos:
Entidades: Uma lista de objetos e rótulos de texto. Um objeto refere-se a um elemento de imagem em um diagrama, e um rótulo de texto refere-se a uma descrição textual de um objeto.
Relações: relações entre entidades, como conexões de seta, conexões de segmento de linha, objetos de rótulo de rótulo de texto e assim por diante.
Layout: Informações de coordenadas da caixa delimitadora para todas as entidades, no formato [x,y,w,h].
2) Otimização do Planeamento
A fim de melhorar ainda mais a qualidade do planeamento, foi proposto um mecanismo de feedback em circuito fechado para planeadores e auditores para otimização iterativa. O GPT-4 atua como planejador e outro GPT-4 atua como auditor. O auditor verifica se o plano corresponde à descrição do texto e fornece feedback; Os planejadores atualizam os planos com base no feedback.
Geração de Gráficos
Os pesquisadores usaram o modelo de difusão Diagram GLIGEN para geração de grafos, e adicionaram uma camada de auto-atenção fechada, que pode usar as informações de layout do planejamento gráfico para orientar a geração de imagens.
Ao contrário do modelo GLIGEN original, que lida apenas com objetos, DiagramGLIGEN pode lidar com rótulos de texto e relações de seta como entradas de layout. O DiagramGLIGEN é treinado no conjunto de dados AI2D-Caption para gerar diagramas científicos específicos do domínio.
Formação, Conjunto de Dados de Avaliação
Com base no conjunto de dados de gráficos científicos AI2D, os pesquisadores construíram o conjunto de dados AI2D-Caption para treinamento e teste de dados de geração de texto para gráfico. O AI2D contém cerca de 4.900 imagens de tabelas e gráficos científicos, abrangendo astronomia, biologia, engenharia e muito mais.
Um total de 105 gráficos foram selecionados, e um modelo de linguagem grande foi usado para gerar títulos de imagem detalhados e descrições de objetos para cada gráfico. Entre eles, 30 foram usados como amostras de aprendizagem contextual para o modelo de linguagem, e 75 foram usados como conjuntos de testes.
Em comparação com o AI2D original, que tinha apenas um título simples, o AI2D-Caption fornece uma descrição de texto mais rica, incluindo o título completo do gráfico e detalhes de cada objeto.
Nas legendas de imagem, os gráficos gerados pelo DiagrammerGPT podem produzir legendas mais relevantes e mais próximas dos valores de verdade. No CLIPScore, a semelhança imagem-texto e imagem-imagem do DiagrammerGPT é maior, mais próxima dos gráficos e títulos da verdade. Avaliações humanas também foram realizadas, com a maioria dizendo que preferia os gráficos gerados pelo DiagrammerGPT.