"MIT Technology Review" uma vez publicou um artigo em seu site oficial dizendo que, com a popularidade contínua de grandes modelos como o ChatGPT, a demanda por dados de treinamento está aumentando. Um modelo grande é como um "buraco negro cibernético" que é constantemente absorvido, o que eventualmente leva a não ter dados suficientes para treinamento.
Epochai, uma conhecida instituição de pesquisa em IA, publicou um artigo diretamente sobre o problema do treinamento de dados e apontou que, até 2026, grandes modelos consumirão dados de alta qualidade e, até 2030-2050, todos os dados de baixa qualidade serão consumidos.
Até 2030-2060, todos os dados de treinamento de imagem estarão esgotados. (Os dados aqui referem-se aos dados nativos que não foram rotulados ou poluídos de forma alguma.)
Endereço:
Na verdade, o problema com os dados de treinamento já surgiu. A OpenAI disse que a falta de dados de treinamento de alta qualidade será um dos desafios importantes no desenvolvimento do GPT-5. É como ir para a escola em humanos, quando seu nível de conhecimento atinge o nível de doutorado, então mostrar-lhe o conhecimento do ensino médio não é útil para a aprendizagem.
Portanto, a fim de melhorar a aprendizagem, o raciocínio e as capacidades gerais do GPT-5, a OpenAI estabeleceu uma "aliança de dados", na esperança de coletar texto, vídeo, áudio e outros dados privados e ultralongos em uma grande área, para que o modelo possa simular e aprender profundamente o pensamento humano e os métodos de trabalho**.
Atualmente, a Islândia, o Free Law Project e outras organizações se juntaram à aliança para fornecer à OpenAI vários dados para ajudá-la a acelerar o desenvolvimento do modelo.
Além disso, à medida que o conteúdo de IA gerado pelo ChatGPT, Midjourney, Gen-2 e outros modelos entra na rede pública, isso poluirá seriamente o pool de dados públicos construído por humanos, e haverá características como homogeneidade e lógica única, acelerando o processo de consumo de dados de alta qualidade.
Dados de treinamento de alta qualidade são essenciais para o desenvolvimento de grandes modelos
De um ponto de vista técnico, grandes modelos de linguagem podem ser pensados como "máquinas de previsão de linguagem", que aprendem com uma grande quantidade de dados de texto, estabelecem padrões de associação entre palavras e, em seguida, usam esses padrões para prever a próxima palavra ou frase do texto.
Transformer é uma das arquiteturas mais conhecidas e amplamente utilizadas, e ChatGPT e outros tomaram emprestado desta tecnologia.
Para simplificar, um modelo de linguagem grande é uma "cabaça e um furo", e os seres humanos podem dizer o que quiserem. Então, quando você usa um modelo como o ChatGPT para gerar texto, parece que você viu o padrão narrativo desses conteúdos de texto.
Portanto, a qualidade dos dados de treinamento determina diretamente se a estrutura do grande modelo de aprendizagem é precisa. Se os dados contiverem muitos erros gramaticais, fraseados ruins, quebras de frases imprecisas, conteúdo falso, etc., então o conteúdo previsto pelo modelo naturalmente conterá esses problemas.
Por exemplo, se um modelo de tradução é treinado, mas os dados usados são todos fabricados e conteúdo inferior, o conteúdo traduzido pela IA será naturalmente muito pobre.
Esta é uma das principais razões pelas quais muitas vezes vemos muitos modelos com parâmetros pequenos, mas melhor desempenho e saída do que parâmetros altos, e uma das principais razões é o uso de dados de treinamento de alta qualidade.
Na era dos grandes modelos, os dados são o rei
Devido à importância dos dados, os dados de treinamento de alta qualidade tornaram-se um recurso valioso para OpenAI, Baidu, Anthropic, Cohere e outros fornecedores, e se tornaram o "petróleo" na era dos grandes modelos.
Já em março deste ano, quando a China ainda estava freneticamente pesquisando alquimia em modelos grandes, a Baidu havia assumido a liderança no lançamento de um produto de IA generativa que comparava com o ChatGPT - Wenxin Yiyansheng.
Além de suas fortes capacidades de P&D, os enormes dados de corpus chineses da Baidu acumulados através de mecanismos de busca por mais de 20 anos ajudaram muito, e desempenharam um papel importante em várias iterações de Wenxin Yiyan, muito à frente de outros fabricantes nacionais.
Dados de alta qualidade geralmente incluem livros publicados, obras literárias, artigos acadêmicos, livros escolares, reportagens de mídia autorizada, Wikipédia, Enciclopédia Baidu, etc., texto, vídeo, áudio e outros dados que foram verificados pelo tempo e pelos seres humanos.
Mas os institutos de pesquisa descobriram que o crescimento desse tipo de dados de alta qualidade é muito lento. Por exemplo, a publicação de livros precisa passar por processos complicados, como pesquisa de mercado, primeira redação, edição e rerevisão, e leva meses ou até anos para publicar um livro, o que está muito atrás do crescimento da demanda por grandes dados de treinamento de modelos.
A julgar pela tendência de desenvolvimento de grandes modelos linguísticos nos últimos quatro anos, a taxa de crescimento do seu volume anual de dados de formação ultrapassou os 50%. Em outras palavras, a cada 1 ano, a quantidade de dados necessários para treinar o modelo precisa ser dobrada para alcançar melhorias de desempenho e função**.
Por um lado, é para proteger a privacidade dos usuários de ser coletado por organizações de terceiros, e há roubo e uso indevido;
Por outro lado, para evitar que dados importantes sejam monopolizados e acumulados por um pequeno número de instituições, não há dados disponíveis durante a pesquisa e desenvolvimento tecnológico.
Até 2026, podemos ficar sem dados de treinamento de alta qualidade
Para investigar o problema do consumo de dados de treinamento, os pesquisadores de Epochai simularam a produção anual de dados de linguagem e imagem de 2022 a 2100 e, em seguida, calcularam a quantidade total desses dados.
Ele também simula a taxa de consumo de dados de modelos grandes, como o ChatGPT. Por último, comparam-se a taxa de crescimento dos dados e a taxa de consumo, tirando-se as seguintes conclusões importantes:
Sob a atual tendência de desenvolvimento rápido de grandes modelos, todos os dados de baixa qualidade serão esgotados até 2030-2050, e os dados de alta qualidade provavelmente serão consumidos até 2026.
Até 2030-2060, todos os dados de treinamento de imagem serão consumidos e, até 2040, a iteração funcional de modelos grandes pode mostrar sinais de desaceleração devido à falta de dados de treinamento.
Os pesquisadores usaram dois modelos para calcular: o primeiro, usando conjuntos de dados que são realmente usados em ambos os domínios de grandes modelos de linguagem e imagem, e extrapolando-os a partir de estatísticas históricas para prever quando eles atingirão o pico e o consumo médio.
O segundo modelo prevê a quantidade de novos dados que serão gerados globalmente a cada ano no futuro. O modelo baseia-se em três variáveis: o número de populações globais, a penetração da Internet e os dados médios gerados por utilizador da Internet por ano.
Ao mesmo tempo, os pesquisadores usaram dados das Nações Unidas para ajustar uma curva de crescimento populacional, uma função em forma de S para se adequar ao uso da Internet, e fizeram uma suposição simples de que os dados de produção anual por pessoa são basicamente os mesmos, e multiplicados pelos três para estimar a quantidade de novos dados no mundo a cada ano.
O modelo previu com precisão a saída mensal do Reddit (um fórum bem conhecido), então a taxa de precisão é alta**.
Finalmente, os pesquisadores combinaram os dois modelos para chegar às conclusões acima.
Os pesquisadores disseram que, embora esses dados sejam simulados e estimados, há um certo grau de incerteza. No entanto, é um alerta para a grande comunidade de modelos, e os dados de treinamento podem em breve se tornar um gargalo importante que restringe a expansão e a aplicação de modelos de IA.
Os fornecedores de IA precisam estabelecer métodos eficazes para regeneração e síntese de dados com antecedência para evitar uma escassez de dados semelhante a um precipício no processo de desenvolvimento de grandes modelos
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Modelos como o ChatGPT: até 2026, os dados de treinamento de alta qualidade estarão esgotados
Fonte original: AIGC Open Community
"MIT Technology Review" uma vez publicou um artigo em seu site oficial dizendo que, com a popularidade contínua de grandes modelos como o ChatGPT, a demanda por dados de treinamento está aumentando. Um modelo grande é como um "buraco negro cibernético" que é constantemente absorvido, o que eventualmente leva a não ter dados suficientes para treinamento.
Epochai, uma conhecida instituição de pesquisa em IA, publicou um artigo diretamente sobre o problema do treinamento de dados e apontou que, até 2026, grandes modelos consumirão dados de alta qualidade e, até 2030-2050, todos os dados de baixa qualidade serão consumidos.
Até 2030-2060, todos os dados de treinamento de imagem estarão esgotados. (Os dados aqui referem-se aos dados nativos que não foram rotulados ou poluídos de forma alguma.)
Endereço:
Portanto, a fim de melhorar a aprendizagem, o raciocínio e as capacidades gerais do GPT-5, a OpenAI estabeleceu uma "aliança de dados", na esperança de coletar texto, vídeo, áudio e outros dados privados e ultralongos em uma grande área, para que o modelo possa simular e aprender profundamente o pensamento humano e os métodos de trabalho**.
Atualmente, a Islândia, o Free Law Project e outras organizações se juntaram à aliança para fornecer à OpenAI vários dados para ajudá-la a acelerar o desenvolvimento do modelo.
Além disso, à medida que o conteúdo de IA gerado pelo ChatGPT, Midjourney, Gen-2 e outros modelos entra na rede pública, isso poluirá seriamente o pool de dados públicos construído por humanos, e haverá características como homogeneidade e lógica única, acelerando o processo de consumo de dados de alta qualidade.
Dados de treinamento de alta qualidade são essenciais para o desenvolvimento de grandes modelos
De um ponto de vista técnico, grandes modelos de linguagem podem ser pensados como "máquinas de previsão de linguagem", que aprendem com uma grande quantidade de dados de texto, estabelecem padrões de associação entre palavras e, em seguida, usam esses padrões para prever a próxima palavra ou frase do texto.
Transformer é uma das arquiteturas mais conhecidas e amplamente utilizadas, e ChatGPT e outros tomaram emprestado desta tecnologia.
Para simplificar, um modelo de linguagem grande é uma "cabaça e um furo", e os seres humanos podem dizer o que quiserem. Então, quando você usa um modelo como o ChatGPT para gerar texto, parece que você viu o padrão narrativo desses conteúdos de texto.
Por exemplo, se um modelo de tradução é treinado, mas os dados usados são todos fabricados e conteúdo inferior, o conteúdo traduzido pela IA será naturalmente muito pobre.
Esta é uma das principais razões pelas quais muitas vezes vemos muitos modelos com parâmetros pequenos, mas melhor desempenho e saída do que parâmetros altos, e uma das principais razões é o uso de dados de treinamento de alta qualidade.
Na era dos grandes modelos, os dados são o rei
Devido à importância dos dados, os dados de treinamento de alta qualidade tornaram-se um recurso valioso para OpenAI, Baidu, Anthropic, Cohere e outros fornecedores, e se tornaram o "petróleo" na era dos grandes modelos.
Já em março deste ano, quando a China ainda estava freneticamente pesquisando alquimia em modelos grandes, a Baidu havia assumido a liderança no lançamento de um produto de IA generativa que comparava com o ChatGPT - Wenxin Yiyansheng.
Além de suas fortes capacidades de P&D, os enormes dados de corpus chineses da Baidu acumulados através de mecanismos de busca por mais de 20 anos ajudaram muito, e desempenharam um papel importante em várias iterações de Wenxin Yiyan, muito à frente de outros fabricantes nacionais.
Dados de alta qualidade geralmente incluem livros publicados, obras literárias, artigos acadêmicos, livros escolares, reportagens de mídia autorizada, Wikipédia, Enciclopédia Baidu, etc., texto, vídeo, áudio e outros dados que foram verificados pelo tempo e pelos seres humanos.
Mas os institutos de pesquisa descobriram que o crescimento desse tipo de dados de alta qualidade é muito lento. Por exemplo, a publicação de livros precisa passar por processos complicados, como pesquisa de mercado, primeira redação, edição e rerevisão, e leva meses ou até anos para publicar um livro, o que está muito atrás do crescimento da demanda por grandes dados de treinamento de modelos.
A julgar pela tendência de desenvolvimento de grandes modelos linguísticos nos últimos quatro anos, a taxa de crescimento do seu volume anual de dados de formação ultrapassou os 50%. Em outras palavras, a cada 1 ano, a quantidade de dados necessários para treinar o modelo precisa ser dobrada para alcançar melhorias de desempenho e função**.
Por um lado, é para proteger a privacidade dos usuários de ser coletado por organizações de terceiros, e há roubo e uso indevido;
Por outro lado, para evitar que dados importantes sejam monopolizados e acumulados por um pequeno número de instituições, não há dados disponíveis durante a pesquisa e desenvolvimento tecnológico.
Até 2026, podemos ficar sem dados de treinamento de alta qualidade
Para investigar o problema do consumo de dados de treinamento, os pesquisadores de Epochai simularam a produção anual de dados de linguagem e imagem de 2022 a 2100 e, em seguida, calcularam a quantidade total desses dados.
Ele também simula a taxa de consumo de dados de modelos grandes, como o ChatGPT. Por último, comparam-se a taxa de crescimento dos dados e a taxa de consumo, tirando-se as seguintes conclusões importantes:
Sob a atual tendência de desenvolvimento rápido de grandes modelos, todos os dados de baixa qualidade serão esgotados até 2030-2050, e os dados de alta qualidade provavelmente serão consumidos até 2026.
O segundo modelo prevê a quantidade de novos dados que serão gerados globalmente a cada ano no futuro. O modelo baseia-se em três variáveis: o número de populações globais, a penetração da Internet e os dados médios gerados por utilizador da Internet por ano.
Ao mesmo tempo, os pesquisadores usaram dados das Nações Unidas para ajustar uma curva de crescimento populacional, uma função em forma de S para se adequar ao uso da Internet, e fizeram uma suposição simples de que os dados de produção anual por pessoa são basicamente os mesmos, e multiplicados pelos três para estimar a quantidade de novos dados no mundo a cada ano.
O modelo previu com precisão a saída mensal do Reddit (um fórum bem conhecido), então a taxa de precisão é alta**.
Finalmente, os pesquisadores combinaram os dois modelos para chegar às conclusões acima.
Os pesquisadores disseram que, embora esses dados sejam simulados e estimados, há um certo grau de incerteza. No entanto, é um alerta para a grande comunidade de modelos, e os dados de treinamento podem em breve se tornar um gargalo importante que restringe a expansão e a aplicação de modelos de IA.
Os fornecedores de IA precisam estabelecer métodos eficazes para regeneração e síntese de dados com antecedência para evitar uma escassez de dados semelhante a um precipício no processo de desenvolvimento de grandes modelos