Tian Yuandong echó un jarro de agua fría sobre el misterioso proyecto Q* de OpenAI: los datos sintéticos no son un salvador de AGI y la capacidad se limita a problemas matemáticos simples
La discusión de la conjetura Q continúa, y hoy, el gurú de la IA Tian Yuandong declaró públicamente que Q * solo puede resolver problemas matemáticos de nivel básico, y es probable que AGI tampoco se pueda lograr a través de datos sintéticos.
La conjetura Q* sigue siendo popular en la comunidad de IA.
Todo el mundo está especulando si Q* es "Q-learning + A*".
El gurú de la IA Fuchito Tian también analizó en detalle qué tan probable es la hipótesis de "Q*=Q-learning+A*".
Al mismo tiempo, cada vez más personas juzgan que los datos sintéticos son el futuro de los LLM.
Sin embargo, Tian Yuandong echó un jarro de agua fría sobre esta declaración.
Estoy parcialmente en desacuerdo con la afirmación de que la AGI se puede resolver simplemente haciendo zoom en los datos sintéticos.
búsqueda es eficaz porque, si el entorno se diseña correctamente, creará un número infinito de nuevos patrones para que los modelos aprendan y se adapten.
Sin embargo, la cuestión de si se necesitan miles de millones de datos para aprender un modelo tan nuevo sigue siendo una pregunta abierta, lo que puede indicar algunas fallas fundamentales en nuestro paradigma de arquitectura/aprendizaje.
Por el contrario, a menudo es más fácil para los humanos descubrir nuevos paradigmas a través del momento "ajá".
Jim Fan, científico sénior de NVIDIA, está de acuerdo en que los datos sintéticos desempeñarán un papel importante, pero simplemente escalándolos a ciegas no será suficiente para lograr AGI.
Q*=Q-learning+A, ¿qué tan probable es
Tian Yuandong dijo que, según su experiencia pasada con OpenGo (una reproducción de AlphaZero), A puede considerarse como una versión determinista de MCTS con solo la función de valor (es decir, heurística) Q.
A* es adecuado para tareas en las que el estado es fácil de evaluar después de una acción determinada, pero la acción es difícil de predecir después de un estado determinado. Un buen ejemplo de esto es un problema matemático.
Go, por el contrario, es una historia diferente: el próximo candidato es relativamente fácil de predecir (simplemente revisando la forma local), pero es mucho más complicado evaluar la situación en el tablero.
Es por eso que también tenemos bots de Go bastante potentes, pero solo hacen uso de redes de estrategia.
En el caso de los LLM, puede haber una ventaja añadida en el uso de Q(s,a), ya que la evaluación de Q(s,a) puede requerir solo un rellenado previo, mientras que la estrategia predictiva a = pi(s) requiere un muestreo autorregresivo, que es mucho más lento. Además, en el caso de usar solo el decodificador, la caché KV de s se puede compartir entre varias operaciones.
El legendario Q*, que ya ha dado un gran salto adelante en la resolución de problemas matemáticos, ¿qué tan probable es esto?
Tian Yuandong dijo que su suposición es que la función de valor debería ser relativamente fácil de configurar debido a que se resuelve el problema matemático de nivel básico (por ejemplo, se puede predecir a partir de la especificación objetivo en forma de lenguaje natural).
Si quieres resolver un problema matemático difícil y no sabes cómo hacerlo, este enfoque puede no ser suficiente.
LeCun retuiteó la discusión de Tian y estuvo de acuerdo con su punto de vista: "Explicó la diferencia de aplicabilidad entre A* (búsqueda del camino más corto en un gráfico) y MCTS (búsqueda en un árbol que crece exponencialmente). 」
Con respecto al retweet de LeCun, Tian Yuandong dijo que ha estado haciendo muchas cosas diferentes, incluida la planificación, la comprensión de los transformadores / LLM y las técnicas de optimización eficientes, con la esperanza de combinar estas tecnologías.
Algunos internautas expresaron su escepticismo, diciendo: "Para que A* sea válido, se necesita una función heurística demostrable, aceptable y consistente. Pero dudo mucho que alguien pueda llegar a tal función, porque no es fácil determinar el valor de una subsecuencia. 」
Incluso si haces un problema de matemáticas de la escuela primaria, se espera que Q* sea alto
Cualquiera que sepa un poco de modelos grandes sabe que la capacidad de resolver problemas matemáticos básicos significa que la capacidad de un modelo para hacerlo es un gran salto adelante.
Esto se debe a que es difícil que los modelos grandes generalicen fuera de los datos entrenados.
Charles Higgins, cofundador de la startup de entrenamiento de IA Tromero, dijo que el problema clave que afecta a los modelos grandes ahora es cómo razonar lógicamente sobre conceptos abstractos, y si se logra este paso, sin duda será un gran salto.
Las matemáticas son el estudio del razonamiento simbólico, por ejemplo, si X es mayor que Y e Y es mayor que Z, entonces X es mayor que Z.
Si Q* es realmente Q-learning+A*, muestra que el nuevo modelo de OpenAI puede combinar la tecnología de aprendizaje profundo habilitada para ChatGPT con las reglas de la programación humana. Y este método puede ayudar a resolver el rompecabezas alucinatorio de LLM.
Según la cocreadora de Tromero, Sophia Kalanovska, esto tiene un significado simbólico muy importante, pero a nivel práctico, es poco probable que acabe con el mundo.
Entonces, ¿por qué hay un rumor de que "Q* ya ha aparecido en el prototipo de AGI"?
Kalanovska argumenta que, de acuerdo con las afirmaciones actuales, Q es capaz de combinar los dos lados del cerebro y comprender las cosas a partir de la experiencia mientras razona sobre los hechos.
Obviamente, este es un paso más cerca de nuestra inteligencia reconocida, porque es probable que Q* dé nuevas ideas a modelos grandes, lo que ChatGPT no puede hacer.
La mayor limitación de los modelos existentes es que solo pueden regurgitar información de los datos de entrenamiento, pero no pueden razonar y desarrollar nuevas ideas.
Resolver el problema invisible es un paso clave en la creación de AGI.
Andrew Rogoyski, director del Instituto de Inteligencia Artificial del Centro para la Humanidad de Surrey, dijo que los grandes modelos que existen hoy en día pueden resolver problemas matemáticos a nivel de pregrado, pero cuando se trata de problemas matemáticos más avanzados, todos fallan.
Pero si los LLM son realmente capaces de resolver problemas nuevos e invisibles, eso es un gran problema, incluso si los problemas matemáticos son relativamente simples.
¿Los datos sintéticos son la clave para el futuro de los LLM?
Entonces, ¿son los datos sintéticos el rey?
La explosión de Q ha causado mucha especulación entre los peces gordos, y los peces gordos especulan que los rumoreados "enormes recursos informáticos que permiten que el nuevo modelo resuelva ciertos problemas matemáticos" pueden ser RLAIF (aprendizaje por refuerzo a partir de la retroalimentación de la IA).
RLAIF es una tecnología que reemplaza las preferencias de etiquetado humano de los LLM estándar, lo que hace que las operaciones de alineación con los LLM sean más escalables mediante la automatización de la retroalimentación humana.
El RLHF (Reinforcement Learning Based on Human Feedback), que anteriormente ha brillado en la formación de LLM, puede alinear eficazmente grandes modelos lingüísticos con las preferencias humanas, pero la recopilación de etiquetas de preferencias humanas de alta calidad es un cuello de botella clave.
Como resultado, empresas como Anthropic y Google han intentado recurrir a RLAIF, utilizando la IA para reemplazar a los humanos en el proceso de entrenamiento de retroalimentación.
Esto significa que los datos sintéticos son los reyes, y el uso de una estructura de árbol proporciona cada vez más opciones para llegar a la respuesta correcta.
No hace mucho, Jim Fan tuiteó que los datos sintéticos proporcionarán el próximo billón de datos de entrenamiento de alta calidad.
"Apuesto a que la mayoría de los grupos serios de LLM lo saben. La pregunta clave es cómo mantener la calidad y evitar el estancamiento prematuro. 」
Jim Fan también cita el artículo de Richard S. Sutton "The Bitter Lesson" para ilustrar que solo hay dos paradigmas en el desarrollo de la IA que se pueden escalar infinitamente a través de la computación: el aprendizaje y la búsqueda.
"Era cierto en 2019 en el momento de escribir este artículo, y es cierto hoy, apuesto a que hasta el día que resolvamos AGI. 」
Richard S. Sutton es miembro de la Royal Society of Canada y de la Royal Society, y es considerado uno de los fundadores del aprendizaje computacional por refuerzo computacional moderno, haciendo varias contribuciones significativas al campo, incluido el aprendizaje de diferencia de tiempo y los métodos de gradiente estratégico.
En este artículo, Sutton señala los siguientes puntos:
Un enfoque genérico que aprovecha la informática es, en última instancia, el más eficiente y eficiente. Pero la razón de esto es la Ley de Moore, o más precisamente debido a la continua disminución exponencial del costo por unidad de cómputo.
Inicialmente, los investigadores trabajaron para evitar la búsqueda explotando el conocimiento humano o las características especiales del juego, todo lo cual parecería irrelevante una vez que la búsqueda se aplicara efectivamente a gran escala.
Una vez más, los métodos estadísticos han triunfado sobre los métodos basados en el conocimiento humano, lo que ha provocado cambios significativos en todo el campo del procesamiento del lenguaje natural, donde la estadística y la computación se han ido convirtiendo en dominantes desde hace décadas.
Los investigadores de IA a menudo intentan incorporar el conocimiento en los sistemas, lo que puede ser útil a corto plazo, pero puede obstaculizar un mayor progreso a largo plazo.
Con el tiempo, los avances se lograrán a través de un enfoque basado en la búsqueda y el aprendizaje.
El contenido real de la mente es extremadamente complejo, y deberíamos dejar de tratar de encontrar formas simples de representar los pensamientos, y en su lugar solo deberíamos construir meta-métodos que puedan encontrar y capturar esta complejidad arbitraria.
Por lo tanto, parece que Q* ha captado el quid del problema (buscar y aprender), y los datos sintéticos le permitirán romper aún más las limitaciones del pasado y dar su propio salto.
Con respecto a los datos sintéticos, Musk también dijo que los humanos realmente no pueden vencer a las máquinas.
"Podrías poner el texto de cada libro que un humano escribe en un disco duro (suspiro), y los datos sintéticos serían mucho más que eso. 」
Al respecto, Jim Fan interactuó con Musk y dijo:
"Si podemos simularlos a gran escala, muchos datos sintéticos provendrán de agentes incorporados, como Tesla Optimus. 」
Jim Fan cree que RLAIF, o RLAIF de los comentarios de groundtruth, será de gran ayuda si se escala correctamente. Además, los datos sintéticos incluyen simuladores, que en principio pueden ayudar a los LLM a desarrollar modelos mundiales.
"Idealmente, es infinito. Pero la preocupación es que si el ciclo de superación personal no es lo suficientemente efectivo, corre el riesgo de estancarse. 」
Con respecto al canto y la armonía de los dos, LeCun dijo que tenía algo que decir:
LeCun cree que los animales y los humanos se vuelven rápidamente muy inteligentes con muy pocos datos de entrenamiento.
Por lo tanto, el uso de más datos (sintéticos o no sintéticos) es una medida provisional temporal, simplemente porque nuestro enfoque actual tiene limitaciones.
Al respecto, los internautas que apoyan a la "facción del big data" expresaron su descontento:
"¿No deberían millones de años de adaptación evolutiva parecerse a la pre-entrenamiento, y nuestra experiencia de vida se asemeja a un ajuste fino continuo?"
LeCun dio entonces un ejemplo para explicar que el único medio utilizado por los humanos para llevar a cabo los resultados de millones de años de evolución son los genes, y la cantidad de datos en el genoma humano es muy pequeña, sólo 800 MB.
Incluso un pequeño LLM de 7B requiere 14 GB de almacenamiento, que en realidad no son muchos datos en el genoma humano.
Además, la diferencia entre el genoma del chimpancé y el humano es de aproximadamente el 1% (8 MB). Esta pequeña diferencia no es suficiente para explicar la diferencia de habilidades entre humanos y chimpancés.
Cuando se trata de la cantidad de datos aprendidos, un niño de 2 años ve una cantidad muy pequeña de datos visuales, con aproximadamente 32 millones de segundos (2x365x12x3600) de todo su tiempo de aprendizaje.
Los seres humanos tienen 2 millones de fibras nerviosas ópticas, y cada fibra nerviosa transmite alrededor de 10 bytes por segundo. - Eso es un total de 6E14 bytes.
Por el contrario, el entrenamiento de LLM suele tener un volumen de datos de tokens 1E13, que es de aproximadamente 2E13 bytes. Por lo tanto, un niño de 2 años obtiene solo 30 veces más datos que LLM.
Independientemente de los argumentos de los grandes, las grandes empresas tecnológicas como Google, Anthropic, Cohere, etc., están utilizando la supervisión de procesos o métodos similares a RLAIF para crear conjuntos de datos preentrenados, que están costando enormes recursos.
Por lo tanto, está claro para todos que los datos sintéticos son un atajo para expandir su conjunto de datos. A corto plazo, obviamente podemos usarlo para crear algunos datos útiles.
Pero, ¿es este el camino hacia el futuro? Habrá que esperar la respuesta.
Recursos:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Tian Yuandong echó un jarro de agua fría sobre el misterioso proyecto Q* de OpenAI: los datos sintéticos no son un salvador de AGI y la capacidad se limita a problemas matemáticos simples
Fuente: Nuevo Zhiyuan
La conjetura Q* sigue siendo popular en la comunidad de IA.
Todo el mundo está especulando si Q* es "Q-learning + A*".
El gurú de la IA Fuchito Tian también analizó en detalle qué tan probable es la hipótesis de "Q*=Q-learning+A*".
Al mismo tiempo, cada vez más personas juzgan que los datos sintéticos son el futuro de los LLM.
Sin embargo, Tian Yuandong echó un jarro de agua fría sobre esta declaración.
Q*=Q-learning+A, ¿qué tan probable es
Tian Yuandong dijo que, según su experiencia pasada con OpenGo (una reproducción de AlphaZero), A puede considerarse como una versión determinista de MCTS con solo la función de valor (es decir, heurística) Q.
Go, por el contrario, es una historia diferente: el próximo candidato es relativamente fácil de predecir (simplemente revisando la forma local), pero es mucho más complicado evaluar la situación en el tablero.
Es por eso que también tenemos bots de Go bastante potentes, pero solo hacen uso de redes de estrategia.
El legendario Q*, que ya ha dado un gran salto adelante en la resolución de problemas matemáticos, ¿qué tan probable es esto?
Tian Yuandong dijo que su suposición es que la función de valor debería ser relativamente fácil de configurar debido a que se resuelve el problema matemático de nivel básico (por ejemplo, se puede predecir a partir de la especificación objetivo en forma de lenguaje natural).
Si quieres resolver un problema matemático difícil y no sabes cómo hacerlo, este enfoque puede no ser suficiente.
Algunos internautas expresaron su escepticismo, diciendo: "Para que A* sea válido, se necesita una función heurística demostrable, aceptable y consistente. Pero dudo mucho que alguien pueda llegar a tal función, porque no es fácil determinar el valor de una subsecuencia. 」
Incluso si haces un problema de matemáticas de la escuela primaria, se espera que Q* sea alto
Cualquiera que sepa un poco de modelos grandes sabe que la capacidad de resolver problemas matemáticos básicos significa que la capacidad de un modelo para hacerlo es un gran salto adelante.
Esto se debe a que es difícil que los modelos grandes generalicen fuera de los datos entrenados.
Charles Higgins, cofundador de la startup de entrenamiento de IA Tromero, dijo que el problema clave que afecta a los modelos grandes ahora es cómo razonar lógicamente sobre conceptos abstractos, y si se logra este paso, sin duda será un gran salto.
Las matemáticas son el estudio del razonamiento simbólico, por ejemplo, si X es mayor que Y e Y es mayor que Z, entonces X es mayor que Z.
Según la cocreadora de Tromero, Sophia Kalanovska, esto tiene un significado simbólico muy importante, pero a nivel práctico, es poco probable que acabe con el mundo.
Entonces, ¿por qué hay un rumor de que "Q* ya ha aparecido en el prototipo de AGI"?
Kalanovska argumenta que, de acuerdo con las afirmaciones actuales, Q es capaz de combinar los dos lados del cerebro y comprender las cosas a partir de la experiencia mientras razona sobre los hechos.
La mayor limitación de los modelos existentes es que solo pueden regurgitar información de los datos de entrenamiento, pero no pueden razonar y desarrollar nuevas ideas.
Resolver el problema invisible es un paso clave en la creación de AGI.
Pero si los LLM son realmente capaces de resolver problemas nuevos e invisibles, eso es un gran problema, incluso si los problemas matemáticos son relativamente simples.
¿Los datos sintéticos son la clave para el futuro de los LLM?
Entonces, ¿son los datos sintéticos el rey?
La explosión de Q ha causado mucha especulación entre los peces gordos, y los peces gordos especulan que los rumoreados "enormes recursos informáticos que permiten que el nuevo modelo resuelva ciertos problemas matemáticos" pueden ser RLAIF (aprendizaje por refuerzo a partir de la retroalimentación de la IA).
RLAIF es una tecnología que reemplaza las preferencias de etiquetado humano de los LLM estándar, lo que hace que las operaciones de alineación con los LLM sean más escalables mediante la automatización de la retroalimentación humana.
Esto significa que los datos sintéticos son los reyes, y el uso de una estructura de árbol proporciona cada vez más opciones para llegar a la respuesta correcta.
No hace mucho, Jim Fan tuiteó que los datos sintéticos proporcionarán el próximo billón de datos de entrenamiento de alta calidad.
Jim Fan también cita el artículo de Richard S. Sutton "The Bitter Lesson" para ilustrar que solo hay dos paradigmas en el desarrollo de la IA que se pueden escalar infinitamente a través de la computación: el aprendizaje y la búsqueda.
"Era cierto en 2019 en el momento de escribir este artículo, y es cierto hoy, apuesto a que hasta el día que resolvamos AGI. 」
Richard S. Sutton es miembro de la Royal Society of Canada y de la Royal Society, y es considerado uno de los fundadores del aprendizaje computacional por refuerzo computacional moderno, haciendo varias contribuciones significativas al campo, incluido el aprendizaje de diferencia de tiempo y los métodos de gradiente estratégico.
Un enfoque genérico que aprovecha la informática es, en última instancia, el más eficiente y eficiente. Pero la razón de esto es la Ley de Moore, o más precisamente debido a la continua disminución exponencial del costo por unidad de cómputo.
Inicialmente, los investigadores trabajaron para evitar la búsqueda explotando el conocimiento humano o las características especiales del juego, todo lo cual parecería irrelevante una vez que la búsqueda se aplicara efectivamente a gran escala.
Una vez más, los métodos estadísticos han triunfado sobre los métodos basados en el conocimiento humano, lo que ha provocado cambios significativos en todo el campo del procesamiento del lenguaje natural, donde la estadística y la computación se han ido convirtiendo en dominantes desde hace décadas.
Los investigadores de IA a menudo intentan incorporar el conocimiento en los sistemas, lo que puede ser útil a corto plazo, pero puede obstaculizar un mayor progreso a largo plazo.
Con el tiempo, los avances se lograrán a través de un enfoque basado en la búsqueda y el aprendizaje.
El contenido real de la mente es extremadamente complejo, y deberíamos dejar de tratar de encontrar formas simples de representar los pensamientos, y en su lugar solo deberíamos construir meta-métodos que puedan encontrar y capturar esta complejidad arbitraria.
Con respecto a los datos sintéticos, Musk también dijo que los humanos realmente no pueden vencer a las máquinas.
Al respecto, Jim Fan interactuó con Musk y dijo:
Jim Fan cree que RLAIF, o RLAIF de los comentarios de groundtruth, será de gran ayuda si se escala correctamente. Además, los datos sintéticos incluyen simuladores, que en principio pueden ayudar a los LLM a desarrollar modelos mundiales.
Con respecto al canto y la armonía de los dos, LeCun dijo que tenía algo que decir:
Por lo tanto, el uso de más datos (sintéticos o no sintéticos) es una medida provisional temporal, simplemente porque nuestro enfoque actual tiene limitaciones.
Al respecto, los internautas que apoyan a la "facción del big data" expresaron su descontento:
LeCun dio entonces un ejemplo para explicar que el único medio utilizado por los humanos para llevar a cabo los resultados de millones de años de evolución son los genes, y la cantidad de datos en el genoma humano es muy pequeña, sólo 800 MB.
Además, la diferencia entre el genoma del chimpancé y el humano es de aproximadamente el 1% (8 MB). Esta pequeña diferencia no es suficiente para explicar la diferencia de habilidades entre humanos y chimpancés.
Cuando se trata de la cantidad de datos aprendidos, un niño de 2 años ve una cantidad muy pequeña de datos visuales, con aproximadamente 32 millones de segundos (2x365x12x3600) de todo su tiempo de aprendizaje.
Los seres humanos tienen 2 millones de fibras nerviosas ópticas, y cada fibra nerviosa transmite alrededor de 10 bytes por segundo. - Eso es un total de 6E14 bytes.
Por el contrario, el entrenamiento de LLM suele tener un volumen de datos de tokens 1E13, que es de aproximadamente 2E13 bytes. Por lo tanto, un niño de 2 años obtiene solo 30 veces más datos que LLM.
Independientemente de los argumentos de los grandes, las grandes empresas tecnológicas como Google, Anthropic, Cohere, etc., están utilizando la supervisión de procesos o métodos similares a RLAIF para crear conjuntos de datos preentrenados, que están costando enormes recursos.
Por lo tanto, está claro para todos que los datos sintéticos son un atajo para expandir su conjunto de datos. A corto plazo, obviamente podemos usarlo para crear algunos datos útiles.
Pero, ¿es este el camino hacia el futuro? Habrá que esperar la respuesta.
Recursos: