Bom artigo aprofundado: Layout de produto e paradigma na era AGI

Fonte: Pesquisa de Li Jianzhong

Muito obrigado pelo seu apoio à Conferência Global de Gerentes de Produto. É o seu apoio que fez a Conferência de Gerentes de Produto durar de 2009 até hoje. O tema da minha palestra hoje é "Layout e Paradigma do Produto na Era AGI". Meu discurso hoje é dividido principalmente nas três partes a seguir:

  1. Compreensão profunda das características da era AGI 2. O "cubo de transformação do paradigma" da inovação científica e tecnológica 3. Seis reflexões sobre o desenvolvimento futuro de produtos AGI

Parte 1: Compreensão aprofundada das características da era AGI

Em primeiro lugar, vamos nos familiarizar com todo o desenvolvimento da tecnologia de modelos em grande escala através da imagem a seguir.

Você pode ver que a primeira inteligência artificial foi desenvolvida a partir do aprendizado de máquina. Depois que a rede neural profunda no ImageNet brilhou em 2012, o aprendizado profundo tornou-se uma ciência proeminente da inteligência artificial. Mais tarde, RNN e LSTM foram desenvolvidos no campo do processamento de linguagem natural. Depois que sete pesquisadores do Google publicaram artigos sobre Transformer em 2017, o modelo de linguagem pré-treinado tornou-se gradualmente o mainstream e, em seguida, o modelo de linguagem grande (LLM) representado por GPT porque ChatGPT O sucesso da IA é considerado pela indústria como a porta para a inteligência artificial geral (AGI).

Devido ao meu rastreamento e pesquisa sobre tecnologias relacionadas à inteligência artificial, tive trocas e discussões aprofundadas com várias figuras-chave na linha de desenvolvimento mencionada acima. Em 2018, realizamos a Conferência Global de Aprendizado de Máquina em Xangai e convidamos Michael Jordan, o pai do aprendizado de máquina e um professor famoso da UC Berkeley, como orador principal, e trocamos informações aprofundadas com ele. Em abril de 2021, quando realizamos uma conferência de aprendizado de máquina em Pequim, devido à epidemia, convidamos online Lukasz Kaiser, um dos cofundadores do modelo Google Transformer. Ele me disse logo após esse discurso que deixou o Google para vá para o OpenAI e depois descobriu que estava investindo no GPT 3.5. Naquela época, outro veterano do aprendizado profundo, Jurgen Schmidhuber, o pai do LSTM, foi convidado. Em abril deste ano, fui ao Vale do Silício e tive muitas trocas profundas com Ilya Sutskever, cientista-chefe da OpenAI. Em geral, no caminho do desenvolvimento da IA, temos mantido discussões e intercâmbios aprofundados com as fronteiras da indústria, o que me beneficiou muito.

Primeiro, vamos falar sobre a pilha de tecnologia AGI, que geralmente é dividida em três camadas: a camada de aplicativo, a camada de modelo e a camada de infraestrutura (claro, algumas pessoas na indústria extraem LLMOps e fazem uma camada separada, chamada de quatro camadas ). Não importa o terceiro andar ou o quarto andar, olhando essa foto fica mais fácil de entender, então não vou explicar muito. É uma base para nossa compreensão da tecnologia de modelos grandes.

Mas esse entendimento é fácil de ficar na superfície técnica. Vejamos as coisas mais profundas por trás da tecnologia de modelos em grande escala. Acho que isso pode nos ajudar a entender essa onda de revolução tecnológica liderada pelo modelo em grande escala. Se olharmos um pouco mais para a história, existem duas proposições muito importantes em toda a indústria de tecnologia, uma é a conexão e a outra é a computação. Eles são como um pêndulo que oscila entre a conexão e a computação por um tempo, e a computação por um tempo.

Vamos dar uma olhada na imagem acima. Durante os 100 anos de 1840 a 1940, toda a revolução tecnológica foi dominada pela "conexão", incluindo telégrafo, telefone, rádio e televisão. Conectando pessoas e organizações de todos os cantos da terra mudou profundamente a forma social da época.

Então, desde o nascimento do primeiro computador ENIAC em 1946, a revolução tecnológica da humanidade entrou no pêndulo da "computação". Incluindo mainframes na década de 1950, minicomputadores na década de 1960, minicomputadores na década de 1970 e PCs na década de 1980. Com a arquitetura von Neumann como núcleo, tudo é feito em torno da proposta de "computação". Esse processo já dura cerca de 50 anos.

Em seguida, veio o surgimento da Internet de 1994 a 1995, marcado pela Netscape e pelo Yahoo. .Internet móvel, serviços em nuvem em 2013. Todos estão desenvolvendo e enriquecendo muito a proposta de "conexão". Este processo durou cerca de 30 anos.

Chegou a hora de 2017, o artigo sobre o modelo Transformer foi publicado, GPT 1.0 nasceu em 2018 e depois 2.0, 3.0 e ChatGPT trazido pelo GPT 3.5 no final do ano passado saiu, trazendo o alvorecer da inteligência artificial geral AGI a todo o ser humano. Esta rodada de grandes modelos entrou no pêndulo do "cálculo" e o tempo começará por volta de 2020.

É muito interessante, se você olhar para a primeira revolução de "conexão", chamei de "conexão 1.0", durou cerca de 100 anos; e a segunda revolução de "computação", denominei "computação 2.0" ", passou por cerca de 50 anos; depois veio a segunda revolução da "conexão", a chamada "conexão 2.0", durou 30 anos. Você vê uma tendência exponencialmente decrescente no intervalo de tempo? Portanto, muitas pessoas acreditam que talvez não consigamos fazê-lo nos próximos 15 anos e, em 2035, o pêndulo da "computação" provocado por essa onda de grandes modelos pode atingir seu pico.

Com a compreensão da linha do tempo da indústria, vamos dar uma olhada na diferença entre a lógica subjacente da era da "conexão" e da era da "computação"? Isso é realmente muito importante. Porque muitas pessoas costumam usar vários paradigmas da Internet móvel durante esse período para deduzir o paradigma da era do grande modelo. Acho que essa percepção está errada. Porque a Internet móvel pertence à lógica da "conexão", enquanto a era dos grandes modelos pertence à lógica da "computação". Vamos dar uma olhada na tabela abaixo:

Do ponto de vista da transformação da produção, a lógica de conexão domina as "relações de produção", enquanto a lógica computacional domina a "produtividade". Do ponto de vista da relação produção-consumo, sabemos que na era da Internet, sob a lógica da conexão, há um efeito muito importante chamado “mercado de dois lados”, incluindo compradores e vendedores no Taobao, passageiros e motoristas no Didi, e Douyin, ouvintes e apresentadores. Um é produtor e o outro é consumidor. Constitui um efeito bilateral muito forte e é também um fosso importante para muitos produtos na era da Internet.

Sob a lógica de cálculo, na verdade não existe tal efeito bilateral, e seu núcleo é um mercado unilateral. Uma extremidade é o poder de computação do algoritmo e a outra são os consumidores. Por exemplo, em Midjourney, não há rede de designers, e o algoritmo produz imagens diretamente para os usuários; por exemplo, na era da direção autônoma, se Didi for subvertido, o fosso formado pelo motorista-passageiro de Didi de dois lados mercado será inútil, porque não há necessidade de motoristas, é o algoritmo que está dirigindo o carro.

Olhando novamente para o modelo de negócios, sob a lógica de conexão, seu custo marginal é muito baixo, então é fácil fazer um modelo de negócios gratuito. No entanto, sob a lógica computacional, o custo do poder de computação do algoritmo precisa ser compartilhado igualmente. Então, a maioria dos modelos de negócios ainda será como "grátis é rei" na era da Internet e da Internet móvel? Provavelmente não, e é por isso que todo mundo vê que o Midjourney e o ChatGPT Plus estão cobrando. Muitos investidores do Vale do Silício sugeriram que "cobrar diretamente dos usuários" será o principal modelo de negócios na era dos grandes modelos. Não é mais um modelo gratuito de “a lã vem do porco” na era da conexão.

E a experiência do usuário? Na era da Internet, a lógica da conexão é que quanto mais informação melhor, surge um problema inevitável de sobrecarga de informação. Mas a lógica de cálculo, na verdade, é que quanto menos contatos melhor, a eficiência vem em primeiro lugar. Ou seja, só darei meus resultados no próximo pedido e não me deixarei participar do processo intermediário.

Em termos de mecanismo de tomada de decisão. A lógica de conexão é "a máquina me dará informações e eu tomarei decisões". E a lógica computacional é que as pessoas dão informações para as máquinas, ou seja, dados, e as máquinas me ajudam a tomar decisões.

Através das comparações acima, você pode ver que essas duas lógicas são muito diferentes em nosso pensamento de produto. Em seguida, vamos falar sobre lógica de computação. Qual é a diferença essencial entre a computação 1.0 de 1940 a 1990 e a computação 2.0 em que estamos atualmente? Olhe para a foto abaixo:

Na era da computação 1.0, o lado esquerdo é o cérebro humano, que chamamos de rede neural biológica, e o lado direito é o circuito lógico digital. Todos os nossos computadores tradicionais são essencialmente "e, ou, e não" de circuitos lógicos digitais . É uma lógica de operação estruturada que só pode aceitar dados estruturados, que é essencialmente um pensamento 0-1. O resultado a que chega é fazer com que as pessoas se adaptem à lógica da máquina.

Portanto, você descobrirá que na Computação 1.0, seja PC ou software móvel, há muitos lugares onde a experiência do usuário é um pouco descuidada e é fácil para pessoas que não são da indústria, incluindo idosos e crianças, cair em um situação de carga mental. Por que esse dilema?

Como o lado esquerdo é a rede neural biológica do cérebro humano, e o lado direito é um circuito lógico digital composto de "e, ou, e não", você precisa adaptá-lo. Qualquer entrada de entrada deve primeiro ser convertida em algo que um circuito lógico digital possa entender; qualquer saída de um computador deve passar por uma camada de conversão em algo que possa ser entendido por uma rede neural biológica. Essa conversão de ida e volta é onde o usuário médio não treinado se mete em problemas.

Mas se olharmos para a era da computação 2.0 dominada pelo grande modelo descrito na figura abaixo.

Desenhei a imagem à direita como um cérebro, embora dentro dele haja um chip baseado em silício, a chamada inteligência baseada em carbono e inteligência baseada em silício.

Quando me comuniquei com o cientista-chefe da OpenAI, Ilya Sutskever, no Vale do Silício, em abril, lembro que ele repetiu três vezes para enfatizar que, do ponto de vista dos princípios matemáticos, a atual rede neural digital não é diferente da rede neural baseada em carbono do cérebro humano. . Exceto pelos diferentes métodos de sobrevivência dos organismos biológicos, a lógica de operação é a mesma.

Neste momento, a interação entre humanos e o modelo grande é, na verdade, a interação entre a rede neural biológica e a rede neural digital.

Não é mais o pensamento 0-1 dos circuitos digitais na era da computação 1.0, mas um pensamento probabilístico. Todo mundo sabe que você pode ajustar o parâmetro de temperatura (valor da temperatura) do ChatGPT. Aumente a temperatura para ser criativo. Também é muito interessante usar a palavra temperatura. Uma temperatura alta significa que o cérebro está quente, e o cérebro é mais criativo quando está quente. Você também pode diminuir a temperatura para tornar a resposta muito medíocre. A essência do pensamento probabilístico é o modelo de rede neural, que também é o método de tomada de decisão do nosso cérebro humano. Pensem nisso com cuidado, todos.Na verdade, cada pensamento em nosso cérebro está calculando probabilidade. O resultado de toda a orientação da Computação 2.0 é permitir que as máquinas se adaptem ao pensamento humano.

Com o entendimento aprofundado acima de toda a tecnologia AGI e a lógica por trás dela, vamos falar sobre algumas metodologias sobre como fazer produtos na era AGI.

Parte II: "Cubo de Mudança de Paradigma" da Inovação Tecnológica

Vamos falar primeiro sobre a mudança de paradigma. Chama-se Paradigm Shift em inglês. Foi proposto pela primeira vez por Thomas Kuhn no livro "The Structure of Scientific Revolutions". Refere-se às mudanças fundamentais nos conceitos e práticas básicas no campo da ciência e tecnologia. Ele quebra o original As leis e os limites dos seres humanos criam um novo mundo para os pensamentos e ações das pessoas. As revoluções de que falamos frequentemente no campo da tecnologia são, na verdade, mudanças de paradigma, por exemplo, do stand-alone para a Internet, da Internet para a Internet móvel, são todas mudanças de paradigma.

No campo da Internet chinesa, muitos amigos sabem que Wang Xing, da Meituan, já teve uma famosa teoria de quatro verticais e três horizontais por volta de 2009. Naquela época, muitas pessoas na Internet ficaram muito animadas quando ouviram essa teoria. Por causa da análise de Wang Xing, parecia estar mais de acordo com a situação atual da época. 2009 foi quando a Internet móvel estourou. É muito semelhante ao atual surto de AGI.

Wang Xing apontou na época que os seres humanos são basicamente dominados por quatro grandes necessidades na indústria de tecnologia: informação, comunicação, entretenimento e negócios. As chamadas quatro verticais. Quanto a Sanheng, Wang Xing fez sua própria análise: busca, social, móvel. Então, no ponto de interseção de quatro verticais e três horizontais, nasceu uma nova oportunidade. Concordo muito com as "quatro verticais", mas para as três horizontais, acho que esse método de análise é problemático, porque redes sociais e buscas são, na verdade, necessidades humanas e não estão na mesma dimensão que a Internet móvel.

Acho que Wang Xing colocou a rede social na mesma dimensão do celular naquela época porque a rede social era tão popular na época que a rede social se tornou um grande portal de tráfego. Uma vez que a rede social seja encontrada em muitos campos, haverá novas maneiras de jogar. Mas a entrada de tráfego não é igual à tecnologia. O mesmo é verdade para a pesquisa, porque também tem um efeito de entrada de tráfego, então Wang Xing sente que também causou mudanças em muitos campos. No entanto, Wang Xing não apresentou um modelo de produto convincente nas áreas de comunicação, entretenimento e negócios além do modelo Google/Baidu para pesquisa. Portanto, acho que as "três horizontais" da metodologia "quatro verticais e três horizontais" de Wang Xing estão mal colocadas.

Em seguida, deixe-me falar sobre uma estrutura de análise que propus. Acho que essa estrutura de análise é muito útil para analisarmos o paradigma do produto na era AGI. Chamei a estrutura de análise que propus de "Paradigm Transformation Cube", e o nome em inglês é ParaShift Cube, onde Para é a abreviação de Paradigm.

Por que é chamado de cubo, porque definimos três eixos: eixo x, eixo y, eixo z.

O eixo x representa o eixo da tecnologia, que representa a transformação dos paradigmas tecnológicos: conexão 1.0, computação 1.0, conexão 2.0 (incluindo PC Internet, Internet móvel), computação 2.0, que é o que chamamos de era inteligente AGI.

O eixo Y representa o eixo da demanda, abrangendo todos os aspectos das necessidades humanas, incluindo a parte sobre a qual Wang Xing falou: informação, entretenimento e negócios. Ao mesmo tempo, também coloco redes sociais e pesquisa no eixo Y. Social e Comunicação, eu os combinei e, embora tenham pequenas diferenças, suas semelhanças superam suas diferenças.

O eixo Z representa o eixo do meio, porque a expressão da informação requer um meio específico, e os seres humanos também interagem com o mundo ao seu redor por meio do meio. Os eixos de mídia incluem: texto, imagens, áudio, vídeo e cálculo de espaço tridimensional (essa é a mais recente proposta da Apple no VisionPro). Acho que o eixo Z é um ponto que muita gente ignora. Incluindo a interface gráfica do usuário GUI, que teve grande influência no desenvolvimento dos computadores, também é resultado da interação impulsionada por eventos em um meio como imagens de computador.

Esses três eixos formam uma estrutura cúbica.Os três eixos, o ponto de mudança em cada eixo e a interseção de outros eixos são os locais onde ocorre a "inovação de transformação de paradigma" nos produtos. A aplicação do Paradigm Shift Cube para analisar oportunidades de inovação em áreas de produtos é logicamente direta.

Em seguida, usamos o "Paradigm Transformation Cube" para analisar a conexão com a Internet do PC na era 1.0, conectar-se à Internet móvel na era 2.0 e prever as possíveis oportunidades na era da computação 2.0 inteligência AGI. Quanto à era da computação 1.0 e da conexão 1.0, na verdade, você também pode usar a análise do "cubo de transformação de paradigma", mas a idade é relativamente antiga, então não vou falar sobre isso aqui, mas se você estiver interessado, pode volte à história para análise e descobrirá que também é muito lógico.

Como o conteúdo preenchido no cubo não é muito fácil de expressar em PPT, então usei uma tabela para expressar o eixo de tecnologia e o eixo de demanda, e há um eixo azul abaixo dele, que representa as mudanças de mídia.

Divido o eixo de demanda na tabela em duas partes: vermelho e verde. A parte vermelha, na era da inteligência AGI, é a parte onde a mudança de paradigma é mais drástica, e há grandes chances de inovar e até derrubar as gigantes; veja primeiro a demanda de informação, na transformação do PC para o mobile , modelos de portal como Sina e Sohu estão sendo substituídos por Toutiao, etc. A derrota e o método de produção de informações na era da inteligência AGI enfrentarão grandes mudanças. Agora, a sobrecarga de informações é muito séria.Às vezes, depois de ler dez artigos, você obtém apenas uma informação. Assim, o modelo grande pode me ajudar a integrar dezenas de informações do dia anterior de acordo com minhas preferências e, em seguida, fornecer alguns resumos curtos e concisos, que é o que o modelo grande faz muito bem. Isso pode facilmente levar a uma mudança de paradigma em produtos de informação. Vamos falar sobre entretenimento novamente. O entretenimento precisa muito de conteúdo, e o AIGC é muito bom na geração de conteúdo. A forma, a operadora, o suprimento e outras cadeias de entretenimento serão reformuladas pelo AIGC, então também há muitas oportunidades para mudança de paradigma.

Finalmente, vamos falar sobre a pesquisa. A pesquisa é uma grande indústria no campo da Internet e também uma grande demanda para os seres humanos. Mas se você usar o ChatGPT e outros modelos de produtos em larga escala, descobrirá que a proporção do comportamento de pesquisa cairá significativamente. Porque muitas vezes, pesquisamos uma dúzia de artigos e viramos várias páginas apenas para encontrar uma resposta ou uma decisão. Este produto é bom? Vale a pena visitar essa atração? Esse medicamento resolve o problema? Essas necessidades de tomada de decisão e resposta são o que os produtos de modelo em grande escala, como o ChatGPT, são muito bons. Portanto, a pesquisa enfrentará uma enorme possibilidade de ser subvertida na era AGI. Infelizmente, quando voltei do Vale do Silício em abril e maio, senti que o Google ainda estava contando dinheiro com o livro de créditos de pesquisa e estava insensível à ameaça da enorme mudança de paradigma provocada pelo ChatGPT.

Algumas pessoas dizem, o Google não lançou muitas tecnologias e produtos relacionados a modelos grandes? Minha resposta é: não olhe para os poucos produtos lançados na superfície. Essas ações defensivas são todas garoa quando chega a mudança de paradigma. Pense em como o Yahoo entrou em colapso naquele ano? Claro, o Google tem uma chance? Eu acho que sim, mas a premissa é que o Google deve apresentar uma determinação semelhante à guerra em que Ma Huateng e Zhang Xiaolong usaram o poder de toda a empresa da Tencent para All in WeChat para lutar contra Michat; ou Bill Gates em 1995 A determinação de travar a guerra dos navegadores com o Netscape usando a força de toda a empresa da Microsoft para All in IE todos os anos pode impedir a força subversiva da mudança de paradigma. E o que o Google fez? O fundador deitou-se na praia da Califórnia e se aqueceu ao sol, e deixou o CEO contratado, Sam Altman e Ilya Sutskever, da OpenAI, e outros cofundadores que tinham poemas e lugares distantes para lutar, e então o mestre de tecnologia Jeff Dean foi removido da posição de chefe da Goolge Brain, e Jeffrey Hinton, o pai do aprendizado profundo, foi demitido com tato. Você quer vencer a era AGI confiando em alguns modelos grandes de PPT na conferência Google I/O? A propósito, gostaria de criticar o estilo impetuoso dos produtos Daxing PPT do Google nos últimos anos (muitos dos quais não foram lançados oficialmente depois disso), e vamos ver quando startups como a OpenAI precisam de uma conferência de desenvolvimento? Um lançamento de produto é uma coletiva de imprensa, com no máximo um blog explicando. Falar sobre produtos (ao invés de PPT) é o rei da inovação!

Por fim, deixe-me dizer que não é mais um portal que derruba o Yahoo; não é mais uma busca que derruba o Google, mas a subversão estrutural provocada pela mudança de paradigma, e esse é o jogo de xadrez que o campo de busca enfrenta na era de grandes modelos.

Depois de falar sobre a parte vermelha, vamos falar sobre a parte verde. Em comparação com a parte vermelha, a parte verde ainda tem o efeito de "mercado bilateral" da era da conexão, então o fosso é relativamente profundo. Mesmo quando a tecnologia sofre uma mudança de paradigma, acho que não. Existem grandes oportunidades. Por exemplo, na transformação da Internet do PC para o celular, embora Michat, Momo e outras empresas atacassem as redes sociais na época, a Tencent sobreviveu (embora tenha mudado seu nome de QQ para WeChat), porque a rede social estabelecida pela Tencent no Era QQ O fosso é muito profundo. Todo o relacionamento social na China não é uma simples estrutura bilateral, mas uma estrutura de rede, que está nas mãos da Tencent.

Muitas pessoas também perguntaram há algum tempo que na era AGI, o WeChat será subvertido? Usamos a análise do cubo de transformação do paradigma acima, a conclusão não é. Em primeiro lugar, na era AGI, as necessidades sociais das pessoas mudarão? Não vai. Em segundo lugar, o modelo social entre pessoas e pessoas se tornará o modelo social entre pessoas e pessoas virtuais? Eu também não acho. Há um ditado no Vale do Silício que os robôs no futuro serão escravos dos humanos, e as pessoas usam os robôs com o propósito claro de "fazer funcionar". A necessidade de interação social vem da estrutura das relações sociais humanas: amigos, parentes, colegas de classe, colegas... a menos que não existam tais relações sociais na estrutura social humana no futuro. Ninguém quer socializar com um robô. Portanto, a vantagem do WeChat na China, e mais precisamente, deveria ser a rede social dos chineses em todo o mundo, não será subvertida mesmo na era da grande mudança de paradigma da AGI. Quanto ao WeChat, existem algumas atualizações interativas específicas, como geração de texto e imagem e otimização mais inteligente de informações. Essas são pequenas melhorias interativas. Essas coisas podem ser feitas em minutos com a capacidade do WeChat, e não depende de nenhuma empresa iniciante para fazê-lo. Subvertê-lo.

Lembro que no mesmo dia de janeiro de 2019, Byte lançou o Duoshan, Luo Yonghao lançou o Chat Bao e o fundador do Kuaibo, Wang Xin, lançou o Toilet MT. Eles queriam cooperar para derrubar o status do WeChat como o rei social, mas morreram em dois meses. . Se os fundadores tivessem lido meu "Cubo de Mudança de Paradigma" naquela época, eles teriam entendido que esse assunto não pode ser feito. Além do mais, 2019 não é uma era de mudança de paradigma tecnológico. Mesmo na era da Internet do PC para a mudança de paradigma móvel, Michat de Lei Jun, WhatsApp internacional, Talkbox e outros aplicativos não subverteram a Tencent, porque o fosso social é o mais profundo. Na era AGI, nem todos devem pensar em usar o WeChat, não há porta.

Vamos falar sobre negócios, que na verdade se refere ao e-commerce. Não há muitas oportunidades para grandes disrupções, e o motivo é que o fosso do mercado bilateral na "era da conexão" ainda existe no campo do comércio eletrônico. Qualquer forma de negócio é inseparável de compradores e vendedores. O grande modelo AGI pode otimizar apenas alguns pequenos elos no circuito fechado de negócios (como fotos do Taobao, provadores virtuais, etc.), mas estes nunca podem ser separados de compradores, vendedores, logística, etc. Os atributos básicos do comércio eletrônico e as vantagens dos gigantes tradicionais nesses campos ainda são grandes. Ou seja, na transformação da Internet do PC para a Internet móvel, traduzem-se basicamente as vantagens do Taobao e do JD.com.

No entanto, uma coisa precisa ser apontada. No campo da Internet móvel, Pinduoduo e Douyin e-commerce surgiram no meio do caminho, mas isso é causado pelo efeito de entrada de tráfego de WeChat e Douyin. É um bom complemento, mas não constitui uma subversão.Além disso, Pinduoduo atinge a multidão que está afundando, provocada pelas novas mudanças demográficas da Internet (isso tem a oportunidade de reanalisar). Minha opinião é que, como modelos de grande escala podem trazer novas entradas de tráfego, novas oportunidades semelhantes ao comércio eletrônico Pinduoduo e Douyin podem surgir no campo do comércio eletrônico, mas as vantagens existentes do Taobao e JD.com ainda existirão. Afinal, a placa do e-commerce é grande demais. O Oceano Pacífico pode acomodar a China e os Estados Unidos, e o campo do comércio eletrônico pode acomodar muitos pequenos gigantes.

O eixo azul na parte inferior é principalmente a mídia que mencionamos anteriormente: texto, imagens, áudio, vídeo e tridimensional (computação espacial). É fácil para muitas pessoas ignorar esta parte.O poder dos produtos por trás de diferentes mídias é muito diferente. Quando fazemos qualquer produto, devemos pensar em que tipo de mídia queremos focar.

Em termos de lógica de mídia, as imagens são melhores que o texto, o vídeo é melhor que as imagens e o áudio tem sua própria cena especial. Estima-se que muitos dos produtos de anotações e baseados em texto no campo móvel inicial tenham desaparecido. A câmera de um celular alimenta muitos produtos de imagem. No exterior, existem Instagram, Pinterest, etc. E os produtos fotográficos domésticos? Na verdade, vários amigos meus costumavam fazer produtos fotográficos, mas não faziam muito. Por quê? O maior produto fotográfico da China é, na verdade, o WeChat Moments.

Muitas pessoas realmente não sabem como postar texto simples no WeChat Moments, elas só sabem como usá-lo para postar fotos (Se você não acredita em mim, pergunte a dez pessoas ao seu redor para ver quantas delas sabem? Na verdade , WeChat Moments tem essa função, mas está escondida, você precisa pressionar e segurar o botão da câmera). O botão padrão em Moments é um botão de câmera. Por que o WeChat fez isso? Por que Zhang Xiaolong não colocou o botão para postar texto e o botão para postar fotos lado a lado sob o apelo de muitas pessoas? É muito simples, se você circular aleatoriamente 100 pessoas em uma estação de metrô em Xangai, quantas dessas 100 pessoas podem postar fotos e texto? Eu acho que a lacuna será bastante surpreendente. 99% dos usuários do WeChat usarão o Moments para postar fotos. Mas não acho que mais de 10% dos usuários possam enviar texto. Escrever palavras requer habilidades, mas postar fotos é conhecido por todas as mulheres e crianças, e não há limite. Este é o poder do produto de diferentes mídias.

Vamos falar sobre vídeo novamente. Quando eu estava no Vale do Silício, vários amigos do Google mencionaram que o TickTok é uma ameaça maior para o Google do que o ChatGPT. Por que? Como os usuários do TickTok passam muito tempo online, isso está consumindo o tempo do usuário do Google. A versão doméstica do Douyin agora é o rei do trânsito. Se o WeChat não tiver uma conta de vídeo nos últimos anos, não será um círculo de amigos nos primeiros dias. Acho que o território da Internet da China definitivamente não é o que é hoje. Como comparação, se você olhar o WhatsApp hoje, seu valor pode não ser nem um vigésimo do WeChat. Na hora certa, o WeChat aproveitou os dividendos de fotos (momentos) e vídeos (conta de vídeo) e pisou no banner a cada passo do caminho, então Zhang Xiaolong merece o título de gerente de produto nº 1 da China.

Portanto, o meio também é um eixo de mudança muito importante. E depois do vídeo? Trata-se do VisionPro lançado pela Apple há duas semanas, o chamado tridimensional (computação espacial). Texto é um meio unidimensional, imagens e vídeos são meios bidimensionais e computação espacial é tridimensional. O bidimensional deve superar o unidimensional e o tridimensional deve superar o bidimensional, e é por isso que estou otimista com o VisionPro.

Portanto, os dois maiores poderes de mudança de paradigma no futuro são, o primeiro é a mudança de paradigma trazida pelo grande modelo AGI no eixo da tecnologia; o segundo é a mudança de paradigma trazida pela computação espacial em o eixo da mídia. O primeiro já chegou, e o segundo é estimado em 2 a 3 anos depois de acordo com a velocidade de maturidade dos produtos VisionPro. A interseção dos dois eixos, acho que os próximos 5 a 10 anos serão muito emocionantes.

Mas o grande modelo não tem uma grande mudança de paradigma de produto em todos os campos, vejamos a imagem abaixo

Eu divido os pontos de entrada de produtos modelo em grande escala em duas categorias. Uma categoria pertence aos chamados aplicativos nativos AI-Native que passarão por mudanças drásticas de paradigma. A característica dessa categoria é que não há necessidade de um modelo grande e o produto não pode ser feito de forma alguma. As categorias de produtos representativas nesta categoria incluem: assistentes inteligentes (como ChatGPT), produtos generativos AIGC (como Midjourney) e inteligência incorporada (como o Optimus Prime da Tesla). Esses produtos têm grandes oportunidades disruptivas e são novas espécies na era AGI.

O outro tipo pertence ao tipo de aprimoramento progressivo, o chamado modo co-piloto AI-Copilot. Como ferramentas de produtividade (Office Copilot), geração de código (Github Copilot), aprimoramentos de design (Adobe Firefly) e assim por diante. Esta categoria é um aprimoramento do produto original usando um modelo grande em um determinado link.

A mudança de paradigma e o aprimoramento progressivo trazidos pelo AI-Native e AI-Copilot têm muitos recursos diferentes. Listei-os na imagem acima. Cada um deve escolher de acordo com as características do seu negócio. O que preciso enfatizar aqui é a questão da organização. Se você escolher a inovação de mudança de paradigma AI-Native, você deve reorganizar a organização. É mais fácil administrar uma nova empresa iniciante. Se for uma inovação interna de uma grande empresa, você também deve construir uma nova equipe, caso contrário, provavelmente não é confiável. Por muitas coisas, é a razão da organização. A história provou inúmeras vezes que fazer coisas novas requer uma nova estrutura de equipe. Porque seu processo organizacional é diferente, e seu modelo de negócios também é diferente, por isso a lógica da era da conexão e a lógica da era da computação que mencionei anteriormente são diferentes. Se você escolher AI-Copilot, você deve ter produtos existentes relativamente maduros, portanto, neste momento, a antiga organização só precisa fazer alguns aprimoramentos e ajustes. É completamente diferente dos requisitos do AI-Native para a equipe. Isso também é evidente em muitas empresas do Vale do Silício.

A propósito, deixe-me mencionar a Microsoft. Após a chegada da AGI, a Microsoft tem acenado a bandeira e gritado. Muitas pessoas pensam que a Microsoft está seguindo o caminho da mudança de paradigma. Mas quero dizer que, do ponto de vista geral, a Microsoft realmente escolheu o modo de aprimoramento progressivo do AI-Copilot. Porque a Microsoft já é uma empresa de US$ 2,5 trilhões. Não precisa de uma revolução, só precisa pegar o vento leste da AGI e crescer lentamente. Deixe seus principais produtos Office, Windows e Azure crescerem cerca de 30% e, em alguns anos, ela poderá se tornar uma empresa de US$ 4 trilhões ou até US$ 5 trilhões. Ele não precisa apostar sua vida e riqueza em produtos AI-Native de mudança de paradigma All-In, porque embora a mudança de paradigma tenha a possibilidade de altos retornos, também é de alto risco. A escolha da estratégia de produto da Microsoft na era AGI também é digna de referência para muitas empresas maduras na área.

Parte III: Seis reflexões sobre o futuro desenvolvimento de produtos AGI

**O primeiro pensamento é 2C ou 2B. **Como o 2C é um produto de ponta a ponta, o caminho do usuário geralmente é relativamente curto, o que é muito adequado para a mudança de paradigma AI-Native. No entanto, devido ao longo caminho do cliente de 2B, a capacidade do AI é apenas uma parte de todo o circuito fechado de negócios, por isso é adequado para o aprimoramento gradual do AI-Copilot.

Concentre-se na classificação por valor. Para produtos 2C, o conteúdo é maior que o serviço e o serviço é maior que a ferramenta. Essa lógica não é aplicável apenas na era da Internet do PC e da Internet móvel, mas também na era da AGI. Pense nisso, quando a era da Internet móvel começou, muitas ferramentas importantes, como ferramentas de edição de imagem, ferramentas antivírus, ferramentas de anotações, etc., não eram muito populares, mas onde estão todas hoje? Mesmo que estejam vivos, o valor geral é muito menor do que todas as empresas de conteúdo, como Xiaohongshu, Zhihu e Douyin. Os serviços referem-se principalmente a produtos ligados a serviços como 58 e Ctrip, cujo valor é superior ao das ferramentas, mas inferior ao do conteúdo. Por que? Simplesmente, o tempo gasto pelos usuários no conteúdo é muito maior do que nos serviços, e o tempo gasto nos serviços é muito maior do que nas ferramentas, que não são da mesma ordem de grandeza. A duração do usuário basicamente determina a faixa de valor do produto. Portanto, na era AGI, não fique obcecado com essas ferramentas de aparência legal, seu valor é muito menor do que conteúdo ou serviços.

No campo 2B, porém, a lógica do valor mudou completamente: a tomada de decisão do cliente é maior que a eficiência, e a eficiência é maior que o conteúdo. Os produtos corporativos não buscam muito conteúdo, mas exigem eficiência máxima. É melhor me ajudar a tomar decisões rápidas.

A segunda consideração é se deve ser uma plataforma ou um aplicativo. Assim que o grande modelo se tornou popular, os sonhos de plataforma de muitas pessoas foram acesos. Dei água fria no meu amigo que chorou e gritou para ser uma plataforma de maquete em grande escala assim que subi. Vou apenas citar uma citação recente do fundador da Midjourney, David Holz. Ele disse que a maior lição que aprendeu com sua empresa anterior, a Leap Motion, foi que todos começaram com o sonho de plataforma de um ecossistema e depois falharam. Mas ele aprendeu essa lição quando estava trabalhando em Midjourney: ele deve criar um produto que os usuários realmente gostem e transformá-lo em um superaplicativo primeiro.

Na verdade, o OpenAI é o mesmo, primeiro tem um super aplicativo como o ChatGPT e depois constrói a construção ecológica do plug-in e da API. O mesmo vale para o WeChat, que primeiro tem super portais de aplicativos como chat, Moments e contas oficiais antes de construir uma ecologia como miniprogramas. Mesmo quando Jobs estava trabalhando no iPhone, ele primeiro tinha muitas músicas boas no iTunes e foi à Time Warner, à Disney e ao New York Times para implorar a seus avós que fizessem aplicativos no iPhone e persuadir muitos sites a fazê-lo. Bem. O H5 é adaptado para tornar os sites de navegação do Safari fáceis de usar, e o iPhone tem o status de uma plataforma ecológica.

Este caminho é muito importante para o nosso pessoal de produto. Recentemente, muitas vezes encontro algumas pessoas que dizem que nosso objetivo é construir uma plataforma de modelo em grande escala XXX. Não posso deixar de querer vomitar. Qual é o seu produto que não foi usado? Ninguém nunca o usou. Como posso ter coragem de fazer uma plataforma? Ninguém vai te apoiar só porque você afirma ser uma plataforma. Somente quando você tiver um superaplicativo e um grande grupo de usuários, você terá o apelo da plataforma e todos o apoiarão como uma plataforma.

O terceiro pensamento é UGC VS AIGC. UGC costumava ser uma estratégia muito importante na Web 2.0. Mas o modelo grande traz as capacidades do AIGC.

O UGC é uma típica rede de usuários de dois lados, enquanto o provedor de conteúdo do AIGC não é um usuário, mas um modelo + poder de computação + dados. Este é um volante de dados. O cold start do UGC é difícil, porque você tem que reunir muitos criadores. Mas o AIGC coloca o poder de computação em primeiro lugar e o modelo em primeiro lugar. O UGC tem um custo baixo porque exige muita lã dos provedores de conteúdo. No entanto, o custo do poder de computação do AIGC é relativamente alto, especialmente no momento da inicialização. Por outro lado, o UGC tem um fosso social relativamente alto, porque às vezes os usuários não são apenas porque gostam do conteúdo, mas porque são fãs do criador. Mas para o AIGC, os usuários simplesmente consomem conteúdo e o custo de troca é muito baixo. Se uma grande empresa faz algo parecido com o seu, mas com um custo menor, os usuários podem mudar imediatamente porque é mais barato.

O quarto pensamento é o dilema do inovador: Inovação vs. Conservador

Sempre que o paradigma mudar na história, os gigantes estabelecidos enfrentarão o dilema do inovador. Por exemplo, tomando como exemplo a situação atual do Google, a OpenAI usou de forma inteligente o "dilema do inovador" que o Google enfrenta.

Na verdade, muitas pessoas no Google ainda não prestam muita atenção a modelos grandes como o GPT, porque calcularam internamente que, em comparação com as consultas de pesquisa baseadas em índice, o treinamento da rede neural do ChatGPT é muito caro. A pesquisa representa 90% da receita do Google. Quanta receita um modelo grande pode gerar? Ainda desconhecido. Portanto, é difícil para o Google All em grandes modelos agora, o que dá ao OpenAI um período muito bom de oportunidades estratégicas. Além disso, a OpenAI usou de forma inteligente a cooperação estratégica para capacitar o Bing da Microsoft a atrair o poder de fogo do Google no campo de batalha de busca por meio do GPT, e tem a oportunidade de operar com os olhos vendados no campo de plataformas ecológicas de grande escala. Quando surge a oportunidade de mudança de paradigma, os empreendedores devem fazer bom uso do "dilema do inovador" para evitar que os gigantes se enfrentem de frente.

Para dar um contra-exemplo, quando Lei Jun estava fazendo Michat, a Tencent ficou chocada com todos os tipos de publicidade devastadora, mas não preparou um design estratégico para lidar com a concorrência gigante com antecedência, para que a Tencent estivesse unida e unida em WeChat. Em pouco mais de um ano, basicamente eliminou Michat. É claro que, inversamente, da perspectiva da Tencent, quando ocorre a mudança de paradigma, se os gigantes estabelecidos puderem prestar atenção suficiente e tiverem All in suficiente, eles também podem se livrar do destino do "dilema do inovador".

O quinto pensamento é como a AGI pode cruzar o abismo

"Crossing the Chasm" também é um livro muito famoso. As lacunas de vários estágios que ele descreve requerem atenção especial para muitos produtos inovadores.

Atualmente, o ChatGPT obviamente ultrapassou a primeira lacuna (ou seja, a pequena lacuna entre Inovadores e Early Adopters), e seus usuários ultrapassaram 100 milhões. Mas a próxima lacuna é a maior entre os primeiros usuários e a maioria inicial, e o ChatGPT ainda está tentando preenchê-la. Pessoalmente, estou mais otimista, embora seus dados recentes mostrem que o Plugin ainda não ultrapassou o PMF (Product Market Match). Mas, de acordo com minha comunicação com o pessoal da OpenAI no Vale do Silício, eles ainda têm muitos grandes assassinos por dentro, especialmente sua capacidade multimodal é extremamente poderosa, superando em muito o meio-dia sem cérebro. Só que ainda precisa fazer muito trabalho de conformidade de alinhamento. Claro, cada produto tem suas próprias lacunas que precisam ser preenchidas.

O sexto pensamento é que o modelo grande é apenas uma porta para AGI

Se olharmos para a história de toda a indústria de tecnologia, quando muitas tecnologias surgiram, sentimos que a tecnologia era muito poderosa. Adira a esta tecnologia e esqueça a mudança de paradigma em vários campos provocada por esta tecnologia. Por exemplo, quando os navegadores e servidores da Web foram lançados, muitas pessoas correram para ser navegadores e servidores da Web, porque muitos técnicos acreditavam que os navegadores e servidores da Web representavam a Internet. A guerra mais trágica é que a Microsoft usou toda a empresa para desenvolver o IE e o Netscape para conquistar o mercado de navegadores. Conheço essa história muito bem, porque Marty Cagan, um velho amigo de nossa conferência global de gerentes de produtos e autor de "Revelation", era o vice-presidente sênior de produtos da Netscape. Já o convidei para ir à China muitas vezes, e muitas vezes falam sobre este período.história.

A Microsoft e a Netscape são ambas perdedoras nessa questão, porque quando estavam brigando, ignoraram completamente as maiores oportunidades estratégicas depois que os seres humanos entraram na Internet.

Agora que muitas empresas estão migrando para modelos grandes, é provável que repitam os erros dos navegadores e servidores da Web da época. E esqueça completamente que o grande modelo traz uma enorme oportunidade para a mudança de paradigma no nível da indústria. Nesse sentido, o modelo grande é apenas uma porta. Depois que a porta é aberta, um mundo AGI mais emocionante está esperando por nós.

Bem, este é o fim do meu discurso de hoje. Espero que todo o conteúdo, especialmente a análise de "Paradigm Transformation Cube", ou seja, ParaShift Cub e "Connection and Computing Era" seja útil para a inovação de todos e empreendedorismo na era AGI. Obrigado a todos!

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)