Marcus comenta GPT-5! Um novo paradigma é urgentemente necessário, e a OpenAI não tem vantagem

2023-10-28 03:09:12

Fonte original: New Zhiyuan

Fonte da imagem: Gerado por Unbounded AI

A notícia sobre o GPT-5 recentemente tornou-se viral novamente.

Desde o início da revelação de que a OpenAI estava secretamente treinando GPT-5, até o esclarecimento posterior de Sam Altman; Mais tarde, quando se tratou de quantas GPUs H100 eram necessárias para treinar o GPT-5, o CEO da DeepMind, Suleyman, entrevistou a OpenAI, que estava treinando secretamente o GPT-5.

E então houve uma nova rodada de especulações.

Intercalado com a previsão ousada de Altman de que o GPT-10 aparecerá antes de 2030, mais do que a soma de toda a inteligência humana, está uma verdadeira nuvem AGI.

e depois para o recente modelo multimodal OpenAI chamado Gobi, e o forte apelo para o modelo Gimini do Google, a competição entre os dois gigantes está prestes a começar.

Durante algum tempo, o progresso mais recente em modelos de linguagem grandes tornou-se o tópico mais quente do círculo.

Parafraseando um poema antigo, "ainda segurando a pipa e cobrindo meio o rosto" para descrevê-lo, é bastante apropriado. Só não sei quando posso realmente "sair depois de muito tempo".

Recapitulação da Linha do Tempo

O que vamos falar hoje está diretamente relacionado ao GPT-5, e é uma análise do nosso velho amigo Gary Marcus.

O ponto central é apenas uma frase: GPT-4 para 5 não é tão simples quanto expandir o tamanho do modelo, mas uma mudança em todo o paradigma da IA. E deste ponto de vista, a OpenAI, que desenvolveu o GPT-4, não é necessariamente a empresa que atingiu 5 primeiro.

Ou seja, quando o paradigma precisa mudar, a acumulação anterior não é muito transferível.

Mas antes de entrarmos no ponto de vista de Marcus, vamos rever brevemente o que aconteceu com o lendário GPT-5 recentemente e o que o campo da opinião pública disse.

No início, Karpathy, o cofundador da OpenAI, tuitou que o H100 é um tópico quente procurado por gigantes, e todos se preocupam com quem tem essa coisa e quantos existem.

Depois, houve muita discussão sobre quantas GPUs H100 cada empresa precisava treinar.

É sobre isso.

GPT-4 pode ter sido treinado em cerca de 10.000-25.000 A100s

Meta cerca de 21000 A100

Tesla cerca de 7000 A100

Estabilidade AI é de cerca de 5000 A100

O Falcon-40B foi treinado em 384 A100

Em relação a isso, Musk também participou da discussão, de acordo com Musk, o treinamento GPT-5 pode levar entre 30.000 e 50.000 H100.

Anteriormente, o Morgan Stanley também disse uma previsão semelhante, mas o número geral é um pouco menor do que Musk disse, cerca de 25.000 GPUs.

Claro, esta onda de colocar GPT-5 na mesa para falar, Sam Altman deve vir a público para refutar os rumores, indicando que OpenAI não está treinando GPT-5.

Alguns internautas ousados especularam que a razão pela qual a OpenAI negou foi provavelmente apenas mudou o nome do modelo de próxima geração, não GPT-5.

De qualquer forma, de acordo com Sam Altman, é por causa da falta de GPUs que muitos planos são adiados. Ele até disse que não queria que muitas pessoas usassem o GPT-4.

O desejo por GPUs em toda a indústria é o mesmo. De acordo com as estatísticas, o número total de GPUs exigidas por todos os gigantes da tecnologia deve ser superior a 430.000. É uma quantia astronômica de dinheiro, quase US$ 15 bilhões.

Mas era um pouco rotundo demais empurrar o GPT-5 para trás através da quantidade de GPU, então Suleyman, o fundador da DeepMind, diretamente "martelou" em uma entrevista, dizendo que a OpenAI estava secretamente treinando GPT-5, não esconda.

Claro, na entrevista completa, Suleyman também falou sobre muitas grandes fofocas na indústria, como por que a DeepMind está ficando para trás na concorrência com a OpenAI, obviamente não fica muito atrasada no tempo.

Havia também muita informação privilegiada, como o que aconteceu quando o Google a adquiriu na época. Mas estes têm pouco a ver com GPT-5, e os amigos interessados podem descobrir por si mesmos.

Em suma, esta onda é o mais recente progresso do GPT-5 por figurões da indústria, o que deixa todos desconfiados.

Depois disso, Sam Altman disse em uma conexão individual: "Acho que antes de 2030, a AGI aparecerá, chamada GPT-10, que é mais do que a soma de toda a inteligência humana".

Por um lado, prevê corajosamente e, por outro lado, nega que esteja treinando GPT-5, o que torna difícil para os outros saberem realmente o que a OpenAI está fazendo.

Nesse sentido, Altman imaginou muitos cenários futuros. Por exemplo, como ele entende a AGI, quando a AGI aparecerá, o que a OpenAI fará se a AGI realmente aparecer e o que toda a humanidade deve fazer.

Mas em termos de progresso real, Altman planeja desta forma: "Eu disse às pessoas da empresa que nosso objetivo era melhorar o desempenho de nossos protótipos em 10% a cada 12 meses."

"Se você definir essa meta em 20%, pode ser um pouco alto demais."

Esse é um arranjo concreto. Mas a conexão entre 10% e 20% e GPT-5 não é clara.

O mais valioso é o seguinte - modelo multimodal Gobi da OpenAI.

O foco está na competição acirrada entre Google e OpenAI, em que estágio.

Antes de falar sobre Gobi, temos que falar sobre GPT-visão. Esta geração de modelos é muito poderosa. Tire uma foto de esboço, envie-a diretamente para o GPT, e o site fará isso para você em minutos.

Sem falar na escrita de código.

Depois que a visão GPT terminar, a OpenAI pode lançar um modelo multimodal grande mais poderoso, codinome Gobi.

Ao contrário do GPT-4, o Gobi foi construído de raiz num modelo multimodal.

Isso também despertou o interesse dos espectadores - Gobi é o lendário GPT-5?

Claro, ainda não sabemos onde Gobi chegou, e não há notícias definitivas.

Suleyman está inflexível que Sam Altman pode não estar dizendo a verdade quando ele disse recentemente que eles não treinaram GPT-5.

Vista Marcus

Para começar dizendo que é bem possível que nenhum produto de pré-lançamento na história da tecnologia (com a possível exceção do iPhone) tenha sido esperado mais do que o GPT-5.

Não é apenas porque os consumidores estão entusiasmados com isso, não é apenas porque um monte de empresas estão planejando começar do zero em torno disso, e até mesmo alguma política externa é construída em torno do GPT-5.

Além disso, o advento do GPT-5 também pode exacerbar as guerras de chips que acabaram de escalar ainda mais.

Marcus disse que também há pessoas que visam especificamente o modelo em escala esperado do GPT-5 e pedem que ele suspenda a produção.

Claro, há muitas pessoas que são muito otimistas, e alguns que imaginam que o GPT-5 pode eliminar, ou pelo menos dissipar muito, muitas das preocupações que as pessoas têm sobre os modelos existentes, como sua falta de confiabilidade, suas tendências tendenciosas e sua tendência a despejar bobagens autoritárias.

Mas Marcus acredita que nunca ficou claro para ele se simplesmente construir um modelo maior realmente resolveria esses problemas.

Hoje, alguns meios de comunicação estrangeiros deram a notícia de que outro projeto da OpenAI, o Arrakis, visa fazer modelos menores e mais eficientes, mas foi cancelado pela alta administração por não atingir as metas esperadas.

Marcus disse que quase todos nós pensávamos que o GPT-4 lançaria o GPT-5 o mais rápido possível, e que o GPT-5 é muitas vezes imaginado como sendo muito mais poderoso do que o GPT-4, então Sam surpreendeu a todos quando negou.

Tem havido muita especulação sobre isso, como os problemas de GPU mencionados acima, e a OpenAI pode não ter dinheiro suficiente em mãos para treinar esses modelos (que são notoriamente caros para treinar).

Mas, novamente, a OpenAI mal é tão bem financiada quanto qualquer startup. Para uma empresa que acaba de levantar US$ 10 bilhões, mesmo US$ 500 milhões em treinamento não é impossível.

Outra maneira de colocar isso é que a OpenAI percebe que os custos de treinar um modelo ou executá-lo serão muito altos, e eles não têm certeza se podem obter lucro com esses custos.

Isso parece fazer algum sentido.

O terceiro argumento, e a opinião de Marcus, é que a OpenAI já havia feito alguns testes de prova de conceito durante a apresentação de Altman em maio, mas eles não estavam satisfeitos com os resultados.

No final, eles podem concluir que, se o GPT-5 for apenas uma versão ampliada do GPT-4, então ele não atenderá às expectativas e ficará muito aquém dos objetivos predefinidos.

Se os resultados são apenas dececionantes ou até mesmo uma piada, então treinar GPT-5 não vale a pena gastar centenas de milhões de dólares.

Na verdade, LeCun está pensando da mesma maneira.

O GPT vai de 4 para 5, o que é mais do que apenas 4plus. 4 a 5 devem ser do tipo que marcam época.

O que é necessário aqui é um novo paradigma, não apenas ampliar o modelo.

Então, em termos de mudança de paradigma, é claro, quanto mais rica a empresa, maior a probabilidade de atingir esse objetivo. Mas a diferença é que não precisa mais ser OpenAI. Como a mudança de paradigma é um novo caminho, a experiência passada ou a acumulação podem não ser de grande utilidade.

Da mesma forma, do ponto de vista econômico, se for verdade como Marcus sugere, então o desenvolvimento do GPT-5 equivale a ser adiado indefinidamente. Ninguém sabe quando a nova tecnologia chegará.

É como se agora os novos veículos de energia geralmente tenham um alcance de centenas de quilômetros, e se você quiser durar milhares de quilômetros, precisará de uma nova tecnologia de bateria. Além de experiência e capital, também pode ser preciso um pouco de sorte e chance para desbravar novas tecnologias.

Mas, em qualquer caso, se Marcus estiver certo, então o valor comercial do GPT-5 certamente encolherá muito no futuro.

Recursos:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1CandyDrop Airdrop Event 6.0
30k Popularidade
2White House Crypto Report
38k Popularidade
3Join Alpha RION Airdrop to Earn $40
20k Popularidade
4Fed Holds Rates Decision
8k Popularidade
5July Spark Program TOP 10 Creators Announced
2k Popularidade

Marcar

sitemap