Zhang Yaqin, acadêmico da Academia de Engenharia: Pré-treinamento e modelos grandes generativos trarão novas mudanças no paradigma da tecnologia de direção autônoma

Fonte da imagem: Gerado por Unbounded AI

O surgimento de grandes modelos generativos representados pelo GPT deu outro salto na tecnologia de inteligência artificial, e a tecnologia de IA está passando por um processo de mudança do paradigma técnico de discriminante para generativo. Com a introdução de tecnologias de grandes modelos, como generativa, pré-treino e multimodal, está também a proporcionar a possibilidade de a tecnologia de condução autónoma amadurecer e não tripulada.

Do Tsinghua Intelligent Industry Research Institute (AIR), a principal instituição de pesquisa de inteligência artificial do mundo, e a empresa líder nacional de tecnologia de IA de direção autônoma, Milli Zhixing tem um julgamento surpreendentemente consistente sobre a tendência técnica e a aplicação de grandes modelos. Ao mesmo tempo, as duas partes também realizaram uma exploração aprofundada na direção da otimização da tomada de decisão baseada em dados, promoveram conjuntamente uma cooperação aprofundada entre a indústria, a universidade e a investigação a vários níveis e aceleraram a aplicação da tecnologia de IA no campo da condução autónoma.

Em 11 de outubro de 2023, Zhang Yaqin, acadêmico da Academia Chinesa de Engenharia, professor da Universidade de Tsinghua e presidente do Tsinghua Intelligent Industry Research Institute (AIR), participou do 9º HAOMO AI DAY realizado por Milli Zhixing, e proferiu uma palestra intitulada "New Progress of Intelligent Driving - Big Model, Generative Al and Intelligent Driving", compartilhando seus últimos pensamentos sobre a aplicação de modelos grandes de IA generativa à tecnologia de direção autônoma. e apresentou as últimas conquistas da Tsinghua AIR na construção da plataforma de modelo básico Real2Sim2Real e plataforma de simulação de condução autónoma.

Eis a íntegra do discurso do académico Zhang Yaqin:

Um clima tão bonito, um lugar tão bonito, estou muito feliz em participar do HAOMO AI DAY, e também agradeço ao presidente Zhang Kai e Weihao pelo convite.

Hoje é o nono HAOMO AI DAY, em primeiro lugar, gostaria de parabenizar Momo pelas grandes conquistas que alcançou em menos de 4 anos, especialmente forjando seu próprio caminho. Tenho a impressão de que a Momo foi a primeira a lançar o modelo grande generativo DriveGPT em direção autônoma, e rapidamente se moveu em direção à escala, e foi capaz de se tornar líder no campo da direção autônoma em tão pouco tempo.

Hoje quero falar sobre o novo progresso na condução inteligente, tenho usado o mesmo tópico ao longo dos anos, mas cada vez que vou descobrir que o conteúdo é completamente diferente, especialmente depois que a IA generativa recente saiu, houve uma grande promoção da condução autônoma.

Temos falado das novas "quatro modernizações" - redes, inteligência, partilha e eletrificação, sendo as mais importantes as duas modernizações - eletrificação e inteligência. A eletrificação pode ser entendida como uma nova energia, e agora a China já é o maior e mais ativo mercado de energia nova do mundo, seja na escala de usuários ou na escala de exportação é o primeiro do mundo, que é a primeira metade dos carros novos. O mais importante no segundo semestre é a condução inteligente, e o ponto quente e o auge da concorrência global nos próximos 5-10 anos é a condução autónoma. A inteligência artificial é a principal força motriz tecnológica da condução autónoma e, desde a sua criação, o HAOMO AI DAY tem sido o motor tecnológico da empresa, pelo que o HAOMO AI DAY é muito importante.

Porque é que tantas empresas estão a fazer uma condução inteligente? Incluindo fabricantes de automóveis tradicionais, novas forças, empresas de alta tecnologia estão entrando no mercado de direção autônoma? Na verdade, existem muitos desafios técnicos, em primeiro lugar, do ponto de vista da IA, a condução automática é altamente complexa, requer muito poder de computação, novos algoritmos, é o problema de campo vertical de IA mais desafiador, em segundo lugar, a condução automática também é a interseção de inteligência concentrada, inteligência de borda e inteligência autônoma atualmente vista. No vídeo de teste de agora, você pode ver que a condução autônoma enfrenta tantos cenários complexos e mudanças, e há realmente muitos desafios.

No entanto, penso que a condução autónoma é completamente alcançável, e existem algumas questões-chave, algumas das quais são fatores de mercado e outras são forças não relacionadas com o mercado. Os fatores de mercado incluem: A tecnologia é viável? Os utilizadores têm necessidades reais? Ecologia industrial e modelo de negócio. Os fatores não relacionados com o mercado são também muito importantes, exigindo avanços tecnológicos na indústria, bem como o apoio governamental da indústria e avanços nas políticas e regulamentações.

Em termos de tecnologia, no início, muitas pessoas estavam falando sobre se a condução sem motorista é viável, especialmente se é viável acima de L4? Achei viável desde o início. Recentemente, vi alguns dados de que o condutor sem condutor é cerca de 10 vezes mais seguro do que a condução tripulada, e no ano passado estava a falar de 3 vezes, e este ano atingiu 10 vezes. Isso mostra que o avanço tecnológico foi concluído. No roteiro de comercialização, atualmente há uma variedade de maneiras, algumas estão usando inteligência de bicicleta, outras são coordenação de estradas, e há rotas graduais, leapfrog, open source, rotas fechadas, diferentes empresas estão explorando roteiros diferentes, não dizendo qual deles está completamente correto, a indústria está tentando a direção automática de maneiras diferentes. Eu sei que Momo escolheu o progressista, e acho que é tudo de bom, e as pessoas exploram isso de maneiras diferentes.

Houve muitos novos avanços em IA recentemente. Vemos novos algoritmos, novas estruturas, especialmente pré-treinamento, aprendizagem multimodal, multisupervisionada e grandes modelos se tornando mainstream. Antes do Transformer, o ResNeT costumava ser uma estrutura de algoritmo de visão muito utilizada, e a razão pela qual mencionei especificamente o ResNeT, este algoritmo é realmente feito por jovens cientistas chineses na China, então os cientistas chineses fizeram grandes contribuições para a inteligência artificial. Ouvi muitas declarações de que o núcleo da IA é principalmente da Europa, e a teoria básica vem daí, mas os cientistas chineses também fizeram muitas contribuições no campo da inteligência artificial.

É importante que os modelos grandes ultrapassem as limitações técnicas. Nos últimos seis ou setenta anos, houve três grandes teorias: a Lei de Moore, a arquitetura de von Neumann, as três leis de Shannon, e agora todas as três teorias estão sendo quebradas. Se não houver nenhum avanço, o grande modelo é impossível de alcançar, o que requer um novo método de sensoriamento, um novo método de perceção, um avanço na nova arquitetura de computadores, incluindo uma nova estrutura de chips, etc., e agora as redes neurais convolucionais Transformer e CNN mainstream também são diferentes. Atualmente, a indústria de tecnologia digital é baseada principalmente na computação baseada em wafers de silício, e pode haver ciências biológicas, computação ótica e computação quântica no futuro.

Atualmente, é muito importante que os grandes modelos tragam IA generativa e, no passado, a IA falava em classificação, ou seja, IA discriminante. Agora é possível gerar totalmente novas ideias de conteúdo, ideias de dados e muitas ideias novas para cenas. Permitam-me agora que fale um pouco sobre o meu trabalho neste domínio.

Os grandes modelos vão numa nova direção. O primeiro é a multimodalidade, não só linguagem natural, imagens, vídeo, mas também sinais de deteção, lidar e outras perceções físicas e sinais biossensoriais emitidos por todos os veículos. Você vê que o modelo GPT-4 é multimodal, sua função é muito poderosa, mas a eficiência é muito baixa, aproximadamente pelo menos 1000 vezes menor do que a eficiência de cálculo e tomada de decisão do cérebro humano, então ainda há uma necessidade de novos algoritmos, acho que haverá novos algoritmos em 5 anos. O segundo é a inteligência autônoma, que pode completar tarefas automaticamente, incluindo computação de borda, como colocar modelos grandes muito complexos na borda de telefones celulares, carros, robôs e inteligência incorporada e o mundo físico juntos, acho que a direção automática é a cena inteligente incorporada mais importante. O futuro é o estágio da inteligência cérebro-computador, e o grande modelo enfrentará como usar o mundo da biologia, o mundo da vida e como conectar melhor pessoas e cérebros.

Novas arquiteturas tecnológicas usarão modelos grandes, assim como o novo sistema operacional de IA, haverá muitos modelos verticais, incluindo direção autônoma ou outros modelos verticais, como ciências da vida.

Vou falar brevemente sobre o Tsinghua Intelligent Industry Research Institute (AIR), que é o instituto de pesquisa da indústria de inteligência artificial que fundei depois de me aposentar do Baidu, que se desenvolveu rapidamente em 3 anos, e também tenho a sorte de encontrar um grupo de cientistas e CTOs corporativos com profundas formações industriais e profundas realizações acadêmicas. Agora são cerca de 300 bolsistas e estudantes de pós-doutorado, e a condução autónoma é uma das direções, cerca de 100 pessoas.

Toda vez que falo sobre a AIR Research, penso em 25 anos atrás, quando voltei à China para fundar a Microsoft Research Asia. No próximo mês celebrar-se-á o 25º aniversário da Microsoft Research Asia, que tem sido bastante bem-sucedida. O grande modelo que acabei de falar foi desenvolvido na Microsoft Research, na esperança de construir um instituto de pesquisa para a indústria chinesa.

Quando estamos envolvidos em várias pesquisas, esperamos ter uma grande estrutura, como a condução inteligente, devemos primeiro determinar algumas rotas técnicas. Em primeiro lugar, penso que a perceção multimodal é muito importante, e os dados multidimensionais e multidimensionais do original são muito importantes. Porque para fazer condução não tripulada, condução inteligente, a vantagem dos robôs é, em primeiro lugar, exigir mais dados, essa vantagem de dados ainda não pode ser removida, por isso não concordo com Musk disse que só usamos câmaras, precisamos de usar mais fontes de dados. Em segundo lugar, muitas conduções autónomas usarão agora muitos mapas de alta definição, mas acreditamos que o futuro são mapas leves e não podem estar completamente dependentes de mapas.

A condução autónoma para chegar à fase final segura e fiável tem de ser alcançada de ponta a ponta, isso também é muito difícil, existem fatores técnicos mais detalhados, incluindo IA generativa, aprendizagem por reforço, modelo de linguagem grande, temos duas plataformas: plataforma de modelo grande de dados, plataforma de simulação.

A AIR também propôs o seu próprio modelo básico de condução autónoma. Primeiro, o modelo propõe como obter dados diferentes, incluindo dados do mundo real e dados de simulação. Os dados são limpos através de um pipeline controlado e, em seguida, passam por dois grandes modelos: modelo de perceção, modelo de tomada de decisão, incluindo a tomada de decisões em alguns lugares-chave na nuvem e na extremidade do veículo, alguns módulos são baseados em informações, alguns são estatísticos e alguns são módulos baseados em regras.

Eu especificamente tirei "aprendizagem de reforço" nele, porque o aprendizado de reforço eu tenho usado desde Baidu, mas é difícil de usar. Porque a segurança da condução autónoma é muito importante, é bastante difícil de usar, mas acho que esta é a única forma de conseguirmos realmente uma maior segurança, a aprendizagem por reforço pode aprender coisas novas, e agora o método de generalização depende da aprendizagem do reforço para aprender, e houve muitos desenvolvimentos novos recentemente. Como usar a aprendizagem por reforço em muitas simulações e tomadas de decisão, e usá-la no comportamento de condução real. O modelo à esquerda é big data vertical, como usar o aprendizado de reforço para ajustar o modelo.

Além disso, como a IA generativa pode ser usada na simulação e na tomada de decisões? Há um pequeno exemplo aqui, tanto modelos grandes quanto deep learning têm problemas de transparência, então também fizemos essa pesquisa, por que tomei essa decisão? Vire à esquerda, à direita, trave, diga-me o que vejo e porque estou a tomar esta decisão, e pode orientar como tomar a decisão. Isso é para usar dados reais, dados de simulação, modelos verticais e modelos grandes para gerar cenas de profundidade semântica, incluindo informações de tráfego e pedestres.

A outra é a fusão do cérebro humano e da máquina, temos que estudar como as pessoas dirigem. Às vezes as pessoas tomam boas decisões, às vezes não, e coletam essas informações através de sensores. Por um lado, durante muito tempo, as pessoas e as máquinas têm de conduzir em conjunto, e as pessoas sem condutor têm de compreender lentamente a condução humana. Por outro lado, o modelo é usado no algoritmo para melhorar a eficiência do algoritmo.

Finalmente, estamos muito entusiasmados por ter uma profunda colaboração técnica com a Milli sobre como aplicar a aprendizagem por reforço à tomada de decisões cognitivas. Atualmente, a aprendizagem por reforço tem muitos problemas, online ou offline, incluindo problemas de definição de funções, ambiguidade política, pelo que temos feito muita investigação deste tipo. Ao longo do último ano, mais ou menos, muitos artigos foram publicados na International Top Conference, e também há patentes, e o mais importante é que ele começou a ser usado em carros, e o carro que acabou de ver logística começou a usar esses algoritmos.

Resumindo, se olharmos para as diferentes fases da condução inteligente e da condução automática, no início, é mais conduzido por lidar e hardware, e mais é baseado em regras artificiais. O 2.0 é impulsionado por softwares e algoritmos, e esta etapa tem mais sensores, contando também com machine learning e regras. Agora para a era do 3.0, ele é impulsionado por modelos grandes, e nesta fase, existem muitos sensores que usam algoritmos de ponta a ponta, e o aprendizado de reforço também será usado, o que pode alcançar a condução automática no mundo real em maior medida.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)