GPT-4 actúa como un "planificador y auditor", un modelo subversivo de diagrama de Wensheng de dos capas

Fuente original: AIGC Open Community

Fuente de la imagen: Generado por Unbounded AI

Modelos como DALL-E 3, Midjourney y Stable Diffusion han demostrado una gran capacidad creativa para generar imágenes de alta calidad de varios tipos, como bocetos, punk, 3D e imágenes bidimensionales a partir de texto, pero les falta un poco la generación de gráficos científicos (columnas, histogramas, líneas de caja, árboles, etc.).

Esto se debe a que el modelo pasa por alto objetos importantes al generar diagramas, genera flechas de relación de objetos incorrectas y genera etiquetas de texto ilegibles que carecen de un control de diseño detallado sobre los objetos. En particular, cuando varios objetos tienen flechas complejas o relaciones de segmentos de línea, no es posible representar texto claro y legible, lo cual es fundamental para la generación de gráficos.

Para resolver estos dos problemas, la Universidad de Carolina del Norte propuso el marco DiagrammerGPT. En primer lugar, utilice GPT-4 para que actúe como "planificador" para generar información de planificación de diseño para el diagrama basada en descripciones de texto.

La información de planificación contiene entidades (objetos y etiquetas de texto), relaciones entre entidades (flechas, segmentos, etc.) e información de diseño de entidades (coordenadas del cuadro delimitador). A continuación, GPT-4 se utiliza como "auditor" para revisar todo el plan de planificación y optimizar los detalles de los gráficos.

En la etapa de generación de diagramas, el modelo de difusión DiagramGLIGEN se puede utilizar para generar gráficos precisos de acuerdo con el plan del diagrama, y las etiquetas de texto se pueden representar mediante la biblioteca Pillow para mejorar la precisión.

Según los datos de la prueba, DiagrammerGPT es significativamente mejor que los gráficos generados por modelos como Stable Diffusion, VPGen y AutomaTikZ en múltiples indicadores cuantitativos.

En cuanto a la evaluación de la precisión de la relación entre los gráficos y los textos y objetos, DiagrammerGPT obtuvo un 36% y un 48% de mejores puntuaciones que el modelo de referencia, respectivamente. Este estudio es un gran avance para los modelos de gráficos de alta precisión para la generación de texto.

Dirección de código abierto:

Dirección:

Planificación de gráficos

La mayor innovación del marco DiagrammerGPT es que utiliza la potente potencia de procesamiento del lenguaje natural de GPT-4 para guiar la generación de diseños de diagramas. Con el fin de generar un plan más preciso, también se diseña un mecanismo de retroalimentación de circuito cerrado.

Un GPT-4 actúa como un "planificador" para generar el plan inicial, y el otro GPT-4 actúa como un "auditor", evaluando la precisión del plan y proporcionando retroalimentación. Los planificadores pueden ajustar el diseño en función de los comentarios.

1) Generación inicial de la planificación de gráficos

Los investigadores entrenaron a GPT-4 con 10 muestras de aprendizaje contextual, cada una de las cuales contenía una descripción completa del texto del diagrama, entidades, relaciones e información de diseño. El plan consta de 3 elementos:

Entidades: una lista de objetos y etiquetas de texto. Un objeto se refiere a un elemento de imagen en un diagrama y una etiqueta de texto se refiere a una descripción textual de un objeto.

Relaciones: relaciones entre entidades, como conexiones de flecha, conexiones de segmentos de línea, objetos de etiquetado de etiquetas de texto, etc.

Diseño: Información de coordenadas del cuadro delimitador para todas las entidades, en formato [x,y,w,h].

2) Optimización de la planificación

Con el fin de mejorar aún más la calidad de la planificación, se propuso un mecanismo de retroalimentación de circuito cerrado para planificadores y auditores para la optimización iterativa. GPT-4 actúa como planificador y otro GPT-4 actúa como auditor. El auditor verifica si el plan coincide con la descripción del texto y proporciona retroalimentación; Los planificadores actualizan los planes en función de los comentarios.

Entre ellos, el auditor GPT-4 también está capacitado a través del aprendizaje específico del contexto para proporcionar una retroalimentación efectiva. Ambos entrenamientos utilizan diferentes muestras de aprendizaje contextual.

Generación de gráficos

Los investigadores utilizaron el modelo de difusión Diagram GLIGEN para la generación de gráficos y agregaron una capa de autoatención cerrada, que puede usar la información de diseño de la planificación de gráficos para guiar la generación de imágenes.

A diferencia del modelo original de GIGEN, que solo se ocupa de objetos, DiagramGLIGEN puede manejar tanto las etiquetas de texto como las relaciones de flechas como entradas de diseño. DiagramGLIGEN se entrena en el conjunto de datos AI2D-Caption para generar diagramas científicos específicos del dominio.

Sin embargo, debido a la mala representación del texto del propio modelo de difusión, los investigadores utilizaron la biblioteca Pillow para representar explícitamente las etiquetas de texto para mejorar la claridad del texto.

Entrenamiento, Conjunto de datos de evaluación

Basándose en el conjunto de datos de gráficos científicos AI2D, los investigadores construyeron el conjunto de datos AI2D-Caption para el entrenamiento y las pruebas de datos de la generación de texto a gráfico. AI2D contiene alrededor de 4.900 imágenes de tablas y gráficos científicos, que abarcan astronomía, biología, ingeniería y más.

Se seleccionaron un total de 105 gráficos y se utilizó un modelo de lenguaje grande para generar títulos de imágenes detallados y descripciones de objetos para cada gráfico. Entre ellos, 30 se utilizaron como muestras de aprendizaje contextual para el modelo de lenguaje y 75 como conjuntos de pruebas.

En comparación con el AI2D original, que solo tenía un título simple, AI2D-Caption proporciona una descripción de texto más rica, que incluye el título completo del gráfico y los detalles de cada objeto.

Múltiples datos de referencia muestran que en VP, la precisión de representación de objetos, números, relaciones y texto de DiagrammerGPT es significativamente mejor que la del modelo de referencia, lo que demuestra la alta calidad de sus gráficos generados en muchos aspectos.

En las leyendas de las imágenes, los gráficos generados por DiagrammerGPT pueden producir leyendas más relevantes que se acercan más a los valores de verdad. En CLIPScore, la similitud de imagen a texto e imagen-imagen de DiagrammerGPT es mayor, más cercana a los gráficos y títulos de verdad. También se realizaron evaluaciones humanas, y la mayoría dijo que prefería los gráficos generados por DiagrammerGPT.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)