"MIT Technology Review" publicó una vez un artículo en su sitio web oficial diciendo que con la continua popularidad de los grandes modelos como ChatGPT, la demanda de datos de entrenamiento está aumentando. Un modelo grande es como un "agujero negro cibernético" que se absorbe constantemente, lo que eventualmente lleva a no tener suficientes datos para el entrenamiento.
Epochai, una conocida institución de investigación de IA, publicó un artículo directamente sobre el problema del entrenamiento de datos y señaló que para 2026, los modelos grandes consumirán datos de alta calidad, y para 2030-2050, se consumirán todos los datos de baja calidad.
Para 2030-2060, se habrán agotado todos los datos de entrenamiento de imágenes. (Los datos aquí se refieren a los datos nativos que no han sido etiquetados ni contaminados de ninguna manera).
Dirección:
De hecho, el problema con los datos de entrenamiento ya ha surgido. OpenAI dijo que la falta de datos de entrenamiento de alta calidad será uno de los desafíos importantes en el desarrollo de GPT-5. Es como ir a la escuela en humanos, cuando tu nivel de conocimiento alcanza el nivel de doctorado, entonces mostrarte el conocimiento de la escuela secundaria no es útil para el aprendizaje.
Por lo tanto, con el fin de mejorar el aprendizaje, el razonamiento y las capacidades generales de AGI de GPT-5, OpenAI ha establecido una "alianza de datos", con la esperanza de recopilar texto, video, audio y otros datos privados y ultralargos en un área grande, de modo que el modelo pueda simular y aprender profundamente el pensamiento humano y los métodos de trabajo**.
En la actualidad, Islandia, Free Law Project y otras organizaciones se han unido a la alianza para proporcionar a OpenAI diversos datos que le ayuden a acelerar el desarrollo del modelo.
Además, a medida que el contenido de IA generado por ChatGPT, Midjourney, Gen-2 y otros modelos ingrese a la red pública, esto contaminará seriamente el conjunto de datos públicos construido por humanos, y habrá características como la homogeneidad y la lógica única, acelerando el proceso de consumo de datos de alta calidad.
Los datos de entrenamiento de alta calidad son esenciales para el desarrollo de modelos grandes
Desde un punto de vista técnico, los grandes modelos lingüísticos pueden considerarse como "máquinas de predicción del lenguaje", que aprenden de una gran cantidad de datos de texto, establecen patrones de asociación entre palabras y luego utilizan estos patrones para predecir la siguiente palabra u oración del texto.
Transformer es una de las arquitecturas más conocidas y utilizadas, y ChatGPT y otras han tomado prestada esta tecnología.
En pocas palabras, un modelo de lenguaje grande es una "calabaza y una cuchara", y los humanos pueden decir lo que quieran. Entonces, cuando usas un modelo como ChatGPT para generar texto, parece que dónde has visto el patrón narrativo de estos contenidos de texto.
Por lo tanto, la calidad de los datos de entrenamiento determina directamente si la estructura del aprendizaje del modelo grande es precisa. Si los datos contienen muchos errores gramaticales, mala redacción, saltos de oraciones inexactos, contenido falso, etc., entonces el contenido predicho por el modelo contendrá naturalmente estos problemas.
Por ejemplo, si se entrena un modelo de traducción, pero los datos utilizados son todos inventados y de contenido inferior, el contenido traducido por la IA será naturalmente muy pobre.
Esta es una de las principales razones por las que a menudo vemos muchos modelos con parámetros pequeños pero mejor rendimiento y salida que los parámetros altos, y una de las principales razones es el uso de datos de entrenamiento de alta calidad.
En la era de los grandes modelos, los datos son los reyes
Debido a la importancia de los datos, los datos de entrenamiento de alta calidad se han convertido en un recurso valioso para OpenAI, Baidu, Anthropic, Cohere y otros proveedores, y se han convertido en el "petróleo" en la era de los grandes modelos.
Ya en marzo de este año, cuando China todavía estaba investigando frenéticamente la alquimia en grandes modelos, Baidu había tomado la iniciativa en el lanzamiento de un producto de IA generativa que se comparaba con ChatGPT: Wenxin Yiyansheng.
Además de sus sólidas capacidades de investigación y desarrollo, los enormes datos del corpus chino de Baidu acumulados a través de los motores de búsqueda durante más de 20 años han ayudado mucho y han desempeñado un papel importante en múltiples iteraciones de Wenxin Yiyan, muy por delante de otros fabricantes nacionales.
Los datos de alta calidad generalmente incluyen libros publicados, obras literarias, trabajos académicos, libros de texto escolares, informes de noticias de medios autorizados, Wikipedia, Enciclopedia Baidu, etc., texto, video, audio y otros datos que han sido verificados por el tiempo y los humanos.
Pero los institutos de investigación han descubierto que el crecimiento de este tipo de datos de alta calidad es muy lento. Por ejemplo, la publicación de libros debe pasar por procesos engorrosos como la investigación de mercado, la primera redacción, la edición y la revisión, y se tarda meses o incluso años en publicar un libro, lo que está muy por detrás del crecimiento de la demanda de grandes datos de entrenamiento de modelos.
A juzgar por la tendencia de desarrollo de los grandes modelos de lenguaje en los últimos cuatro años, la tasa de crecimiento de su volumen anual de datos de entrenamiento ha superado el 50%. En otras palabras, cada 1 año, la cantidad de datos necesarios para entrenar el modelo debe duplicarse para lograr mejoras en el rendimiento y la función**.
Por un lado, es para proteger la privacidad de los usuarios de ser recopilada por organizaciones de terceros, y hay robo y uso indebido;
Por otro lado, para evitar que los datos importantes sean monopolizados y acaparados por un pequeño número de instituciones, no hay datos disponibles durante la investigación y el desarrollo de la tecnología.
Para 2026, es posible que nos quedemos sin datos de entrenamiento de alta calidad
Para investigar el problema del consumo de datos de entrenamiento, los investigadores de Epochai simularon la producción anual de datos de lenguaje e imágenes de 2022 a 2100, y luego calcularon la cantidad total de estos datos.
También simula la tasa de consumo de datos de grandes modelos como ChatGPT. Finalmente, se comparan la tasa de crecimiento de los datos y la tasa de consumo, y se extraen las siguientes conclusiones importantes:
Según la actual tendencia de rápido desarrollo de los grandes modelos, todos los datos de baja calidad se agotarán para 2030-2050, y lo más probable es que los datos de alta calidad se consuman para 2026.
Para 2030-2060, se consumirán todos los datos de entrenamiento de imágenes y, para 2040, la iteración funcional de modelos grandes puede mostrar signos de desaceleración debido a la falta de datos de entrenamiento.
Los investigadores utilizaron dos modelos para calcular: el primero, utilizando conjuntos de datos que realmente se utilizan en ambos dominios de grandes modelos de lenguaje e imagen, y extrapolándolos de estadísticas históricas para predecir cuándo alcanzarán su punto máximo y el consumo promedio.
El segundo modelo predice la cantidad de datos nuevos que se generarán a nivel mundial cada año en el futuro. El modelo se basa en tres variables: el número de poblaciones mundiales, la penetración de Internet y el promedio de datos generados por usuario de Internet por año.
Al mismo tiempo, los investigadores utilizaron datos de las Naciones Unidas para ajustar una curva de crecimiento de la población, una función en forma de S para ajustar el uso de Internet, e hicieron una suposición simple de que los datos de producción anual por persona son básicamente los mismos, y multiplicados por los tres para estimar la cantidad de nuevos datos en el mundo cada año.
El modelo ha predicho con precisión la producción mensual de Reddit (un foro muy conocido), por lo que la tasa de precisión es alta**.
Finalmente, los investigadores combinaron los dos modelos para llegar a las conclusiones anteriores.
Los investigadores dijeron que aunque estos datos son simulados y estimados, existe un cierto grado de incertidumbre. Sin embargo, es una llamada de atención para la gran comunidad de modelos, y los datos de entrenamiento pronto pueden convertirse en un importante cuello de botella que restrinja la expansión y aplicación de los modelos de IA.
Los proveedores de IA deben establecer métodos eficaces para la regeneración y síntesis de datos con antelación para evitar una escasez de datos similar a la de un acantilado en el proceso de desarrollo de grandes modelos
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Modelos como ChatGPT: En 2026 se habrán agotado los datos de entrenamiento de alta calidad
Fuente original: AIGC Open Community
"MIT Technology Review" publicó una vez un artículo en su sitio web oficial diciendo que con la continua popularidad de los grandes modelos como ChatGPT, la demanda de datos de entrenamiento está aumentando. Un modelo grande es como un "agujero negro cibernético" que se absorbe constantemente, lo que eventualmente lleva a no tener suficientes datos para el entrenamiento.
Epochai, una conocida institución de investigación de IA, publicó un artículo directamente sobre el problema del entrenamiento de datos y señaló que para 2026, los modelos grandes consumirán datos de alta calidad, y para 2030-2050, se consumirán todos los datos de baja calidad.
Para 2030-2060, se habrán agotado todos los datos de entrenamiento de imágenes. (Los datos aquí se refieren a los datos nativos que no han sido etiquetados ni contaminados de ninguna manera).
Dirección:
Por lo tanto, con el fin de mejorar el aprendizaje, el razonamiento y las capacidades generales de AGI de GPT-5, OpenAI ha establecido una "alianza de datos", con la esperanza de recopilar texto, video, audio y otros datos privados y ultralargos en un área grande, de modo que el modelo pueda simular y aprender profundamente el pensamiento humano y los métodos de trabajo**.
En la actualidad, Islandia, Free Law Project y otras organizaciones se han unido a la alianza para proporcionar a OpenAI diversos datos que le ayuden a acelerar el desarrollo del modelo.
Además, a medida que el contenido de IA generado por ChatGPT, Midjourney, Gen-2 y otros modelos ingrese a la red pública, esto contaminará seriamente el conjunto de datos públicos construido por humanos, y habrá características como la homogeneidad y la lógica única, acelerando el proceso de consumo de datos de alta calidad.
Los datos de entrenamiento de alta calidad son esenciales para el desarrollo de modelos grandes
Desde un punto de vista técnico, los grandes modelos lingüísticos pueden considerarse como "máquinas de predicción del lenguaje", que aprenden de una gran cantidad de datos de texto, establecen patrones de asociación entre palabras y luego utilizan estos patrones para predecir la siguiente palabra u oración del texto.
Transformer es una de las arquitecturas más conocidas y utilizadas, y ChatGPT y otras han tomado prestada esta tecnología.
En pocas palabras, un modelo de lenguaje grande es una "calabaza y una cuchara", y los humanos pueden decir lo que quieran. Entonces, cuando usas un modelo como ChatGPT para generar texto, parece que dónde has visto el patrón narrativo de estos contenidos de texto.
Por ejemplo, si se entrena un modelo de traducción, pero los datos utilizados son todos inventados y de contenido inferior, el contenido traducido por la IA será naturalmente muy pobre.
Esta es una de las principales razones por las que a menudo vemos muchos modelos con parámetros pequeños pero mejor rendimiento y salida que los parámetros altos, y una de las principales razones es el uso de datos de entrenamiento de alta calidad.
En la era de los grandes modelos, los datos son los reyes
Debido a la importancia de los datos, los datos de entrenamiento de alta calidad se han convertido en un recurso valioso para OpenAI, Baidu, Anthropic, Cohere y otros proveedores, y se han convertido en el "petróleo" en la era de los grandes modelos.
Ya en marzo de este año, cuando China todavía estaba investigando frenéticamente la alquimia en grandes modelos, Baidu había tomado la iniciativa en el lanzamiento de un producto de IA generativa que se comparaba con ChatGPT: Wenxin Yiyansheng.
Además de sus sólidas capacidades de investigación y desarrollo, los enormes datos del corpus chino de Baidu acumulados a través de los motores de búsqueda durante más de 20 años han ayudado mucho y han desempeñado un papel importante en múltiples iteraciones de Wenxin Yiyan, muy por delante de otros fabricantes nacionales.
Los datos de alta calidad generalmente incluyen libros publicados, obras literarias, trabajos académicos, libros de texto escolares, informes de noticias de medios autorizados, Wikipedia, Enciclopedia Baidu, etc., texto, video, audio y otros datos que han sido verificados por el tiempo y los humanos.
Pero los institutos de investigación han descubierto que el crecimiento de este tipo de datos de alta calidad es muy lento. Por ejemplo, la publicación de libros debe pasar por procesos engorrosos como la investigación de mercado, la primera redacción, la edición y la revisión, y se tarda meses o incluso años en publicar un libro, lo que está muy por detrás del crecimiento de la demanda de grandes datos de entrenamiento de modelos.
A juzgar por la tendencia de desarrollo de los grandes modelos de lenguaje en los últimos cuatro años, la tasa de crecimiento de su volumen anual de datos de entrenamiento ha superado el 50%. En otras palabras, cada 1 año, la cantidad de datos necesarios para entrenar el modelo debe duplicarse para lograr mejoras en el rendimiento y la función**.
Por un lado, es para proteger la privacidad de los usuarios de ser recopilada por organizaciones de terceros, y hay robo y uso indebido;
Por otro lado, para evitar que los datos importantes sean monopolizados y acaparados por un pequeño número de instituciones, no hay datos disponibles durante la investigación y el desarrollo de la tecnología.
Para 2026, es posible que nos quedemos sin datos de entrenamiento de alta calidad
Para investigar el problema del consumo de datos de entrenamiento, los investigadores de Epochai simularon la producción anual de datos de lenguaje e imágenes de 2022 a 2100, y luego calcularon la cantidad total de estos datos.
También simula la tasa de consumo de datos de grandes modelos como ChatGPT. Finalmente, se comparan la tasa de crecimiento de los datos y la tasa de consumo, y se extraen las siguientes conclusiones importantes:
Según la actual tendencia de rápido desarrollo de los grandes modelos, todos los datos de baja calidad se agotarán para 2030-2050, y lo más probable es que los datos de alta calidad se consuman para 2026.
El segundo modelo predice la cantidad de datos nuevos que se generarán a nivel mundial cada año en el futuro. El modelo se basa en tres variables: el número de poblaciones mundiales, la penetración de Internet y el promedio de datos generados por usuario de Internet por año.
Al mismo tiempo, los investigadores utilizaron datos de las Naciones Unidas para ajustar una curva de crecimiento de la población, una función en forma de S para ajustar el uso de Internet, e hicieron una suposición simple de que los datos de producción anual por persona son básicamente los mismos, y multiplicados por los tres para estimar la cantidad de nuevos datos en el mundo cada año.
El modelo ha predicho con precisión la producción mensual de Reddit (un foro muy conocido), por lo que la tasa de precisión es alta**.
Finalmente, los investigadores combinaron los dos modelos para llegar a las conclusiones anteriores.
Los investigadores dijeron que aunque estos datos son simulados y estimados, existe un cierto grado de incertidumbre. Sin embargo, es una llamada de atención para la gran comunidad de modelos, y los datos de entrenamiento pronto pueden convertirse en un importante cuello de botella que restrinja la expansión y aplicación de los modelos de IA.
Los proveedores de IA deben establecer métodos eficaces para la regeneración y síntesis de datos con antelación para evitar una escasez de datos similar a la de un acantilado en el proceso de desarrollo de grandes modelos