A tendência da IA "Guerra dos Cem Modelos" mudou? 360, Meitu lançou movimentos sucessivamente, e o modelo visual em grande escala encenou uma "luta de fadas"

Question

Fonte original: China Times![](https://img.gateio.im/social/moments-bab2147faf-e3e634b33e-dd1a6f-62a40f) Fonte da imagem: Gerada por Unbounded AI‌À medida que o aumento no desenvolvimento e aplicação de grandes modelos de IA continua a aumentar, o repórter notou que os jogadores na pista começaram a mudar seu foco de grandes modelos de linguagem para grandes modelos visuais. Recentemente, Adobe, Meta, 360, Meitu e muitas outras grandes empresas de Internet no país e no exterior publicaram resultados de modelos em larga escala, adicionando fogo ao já extremamente quente mercado de IA."A aplicação da inteligência artificial no campo do vídeo está recebendo cada vez mais atenção." Wu Gaobin, vice-presidente do Comitê de Industrialização e Industrialização da Associação da Indústria de Comunicações da China, disse ao repórter do "China Times" que o lançamento desses grandes Modelos de IA em grande escala trouxeram uma nova competição para as empresas. motivação. A competição entre empresas promoverá a inovação tecnológica e o progresso, e também trará melhores produtos e serviços. A competição também promoverá a cooperação e o compartilhamento de recursos entre as empresas, de modo a atender melhor à demanda do mercado.## **Modelo visual em grande escala em casa e no exterior "Fairy Fighting"**Após o surgimento de uma série de modelos de linguagem em grande escala e modelos multimodais em grande escala, os "modelos visuais em grande escala" tornaram-se outro campo de batalha para os estrategistas militares. Há alguns dias, a Meitu lançou o MiracleVision, um modelo de visão de IA em larga escala, juntamente com 7 produtos, incluindo a ferramenta de criação de visão de IA WHEE, a ferramenta de geração humana digital de IA DreamAvatar e o assistente de IA Meitu RoboNeo.Segundo relatos, MiracleVision tem forte expressão visual e criatividade, e pode reverter a evolução tecnológica de cenas de criação visual como pintura, design, cinema e televisão, fotografia, jogos, 3D e animação. Diferente de outros modelos grandes no mercado, é especialmente bom em gerar direções como fotografia de retrato asiático, estilo e moda nacional e design comercial.Wu Xinhong, fundador, presidente e CEO da Meitu, disse em entrevista a um repórter do China Times: "A principal vantagem do modelo grande da Meitu é entender a estética. A base de usuários C-end é grande o suficiente. O custo de a aquisição de clientes é baixa. Atualmente, a Meitu possui 243 milhões de usuários ativos mensais e 7,19 milhões de membros VIP globais, que podem verificar o sucesso do produto em pouco tempo. Ao contrário de outros fabricantes, o modelo grande da Meitu se concentra na estética (desenho de tela, design de qualidade etc. .), futuramente, se tivermos que competir, vamos "rolar" na estética."Coincidentemente, o 360 também lançou oficialmente o "360 Smart Brain-Vision Large Model" há alguns dias. Zhou Hongyi, o fundador do 360, disse que o modelo de linguagem grande é a base para a construção de um modelo visual grande, e o núcleo do aprimoramento da capacidade multimodal é a cognição, o raciocínio e as capacidades de tomada de decisão do modelo de linguagem grande. Ao mesmo tempo, o grande modelo visual também é um importante componente de capacidade do "360 Smart Brain", que pode entender imagens, vídeos e sons no futuro.Empresas estrangeiras também começaram a criar modelos visuais. Há alguns dias, a gigante da mídia social Meta anunciou que abrirá para pesquisadores alguns componentes de um modelo de inteligência artificial "humanóide" chamado I-JEPA, que pode analisar e completar imagens inacabadas com mais precisão do que os modelos existentes, enquanto Em vez de apenas fazer inferências baseadas em pixels próximos, como fazem outros modelos generativos de IA.Yang Likun, o principal cientista de inteligência artificial da Meta, uma vez apontou publicamente que o atual modelo autorregressivo GPT carece da capacidade de planejamento e raciocínio, e o futuro sistema GPT pode ser abandonado, e deu o que ele acha que é a resposta correta - o mundo modelo. O I-JEPA é considerado o primeiro modelo de IA baseado em componentes-chave de sua visão para analisar e concluir imagens inacabadas com mais precisão do que os modelos existentes.Além disso, a Meta também lançou o modelo AI de geração de fala "Voicebox", que suporta geração de fala a partir de texto, pode combinar estilos de áudio com base em amostras de apenas dois segundos de duração e converte amostras de texto em outro idioma. amostras de voz e a capacidade de ler o conteúdo do texto traduzido na voz original do locutor, seis idiomas são suportados atualmente: inglês, francês, alemão, espanhol, polonês e português.Já em abril deste ano, a Adobe integrou sua função Adobe Firefly (produtos do tipo ChatGPT) na matriz de produtos de áudio e vídeo, como Premiere Pro, After Effects, Audition, Remix, etc., fornecendo aos usuários geração de conteúdo com um clique , edição, correspondência de cores, mudança de música e outras funções.## **De "Modelo de Linguagem" para "Modelo de Visão"**O "Relatório de Pesquisa de Mapas de Modelos de Grande Escala de Inteligência Artificial da China" mostra que, em termos de número e distribuição de modelos de grande escala lançados globalmente, a China e os Estados Unidos lideram por uma grande margem, respondendo por mais de 80% do mercado global total. Ao mesmo tempo, mais e mais equipes de P&D na Europa, Rússia, Israel, etc. também estão investindo no desenvolvimento de modelos grandes. Mas vale ressaltar que ainda existem poucos modelos grandes nas áreas de visão computacional e outras áreas em meu país.Investigando o motivo, Yan Shuicheng, cientista-chefe visitante do Instituto de Pesquisa Zhiyuan de Pequim, disse ao repórter do "China Times": "A principal razão pela qual o desenvolvimento de modelos visuais está um pouco atrasado é que grandes modelos visuais consomem muito mais poder de computação do que texto, então também esperamos um desenvolvimento mais rápido de chips, e é até possível integrar outros chips não-GPU juntos. Os modelos que você vê agora são geralmente do nível quilocal, mas algumas pessoas podem usar o nível de cartão de 10.000 para fazê-los no próximo ano."De acordo com Huang Tiejun, presidente do Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim, o campo visual é o foco da próxima onda no campo de modelos grandes. Ele apontou que os métodos de pensamento e as rotas básicas por trás do grande modelo visual e do grande modelo de linguagem são os mesmos, mas os dados de entrada se tornaram imagens e vídeos, e o modelo treinado tem uma certa capacidade geral de linguagem visual. Uma é a premissa O AIGC (Artificial Intelligence Automatically Generated Content) pode gerar imagens e obras de arte "Também existe uma habilidade mais básica, ou seja, depois de ver o mundo, você deve primeiro ser capaz de distinguir o mundo (tudo)".Para o desenvolvimento de modelos visuais em grande escala, muitas organizações também expressaram atitudes otimistas. De acordo com o relatório de pesquisa divulgado pela CICC Research, espera-se que a visão computacional alcance um maior grau de automação, alta precisão e baixo consumo de energia no futuro, enriquecendo ainda mais a ecologia de conteúdo do Metaverso e diminuindo as barreiras de entrada. O avanço da visão computacional levou ao rápido amadurecimento da tecnologia de reconstrução 3D e captura de movimento e gradualmente acumulou progresso tecnológico em seus respectivos campos. No futuro, espera-se que a visão computacional conduza a um maior grau de automação, maior precisão e menor consumo de energia. Ela alcançará gradualmente melhores efeitos visuais no terminal móvel, será aplicada em um grande número de indústrias a jusante e gradualmente se moverá no sentido de conectar o mundo físico e o mundo digital.Uma visão de longo prazo do mundo.A CITIC Securities Research também afirmou que, no campo do design, grandes modelos levam o design digital ao design inteligente, e softwares de design industrial relacionados combinados com GPT e outras tecnologias podem ser aplicados a cenários como planejamento de design, otimização de layout, assistentes de plug-in, e esboços. Sob a tendência geral de atualização da IA, uma nova rodada de revolução da produtividade está chegando.