Em 1989, a Universidade Carnegie Mellon recebeu um projeto de pesquisa dos militares dos EUA sobre direção autônoma que parecia incrível na época.
Para fazer isso, os pesquisadores equiparam uma ambulância militar reformada com uma enorme câmera que parecia um holofote, um processador do tamanho de uma geladeira e um gerador de 5.000W.
Apesar do equipamento rudimentar e dados brutos, como a grade de 30×32 pixels que a câmera no teto do carro na época foi relatada, com a ajuda de uma rede neural inovadora, o carro autônomo chamado ALVINN pode atingir uma velocidade máxima de 88 km / h.
ALVINN é saudado como um projeto marco no campo da condução autónoma. Seu impacto mais profundo é substituir o código manual por redes neurais, que se tornou um farol para o desenvolvimento da tecnologia de direção autônoma.
Nas décadas seguintes, a tecnologia de condução autónoma desenvolveu-se rapidamente na direção de ALVINN, até que o chatGPT surgiu, e grandes modelos entraram em cena, tornando-se a maior variável de mudança de condução autónoma.
Do lado do veículo, o grande modelo tem atuado na perceção e previsão da condução autónoma, e está a penetrar na camada de tomada de decisão; Na nuvem, modelos grandes abrem caminho para a condução autónoma L3 e superior; Inclusive, o modelo de grande porte vai acelerar a implementação da NOA urbana.
Entre as empresas a jusante do mundo, a Tesla é, sem dúvida, a primeira.
Em agosto, foi revelado o sistema de piloto automático de IA de ponta a ponta da Tesla, FSD Beta V12, que depende inteiramente de câmeras a bordo e redes neurais para identificar situações de estrada e tráfego e tomar decisões de acordo.
Esta integração da perceção do modelo de ponta a ponta e da tomada de decisões permite que a condução autónoma introduza diretamente dados de imagem de uma extremidade e produza o controlo da operação a partir da outra, o que está mais próximo da condução real dos seres humanos.
Mas as montadoras que tentavam se aproximar do modelo de ponta a ponta descobriram que tinham que seguir primeiro se quisessem ir além.
1 Algoritmo Primeiro
Deixe o grande modelo entrar no carro, Tesla é definitivamente o mais radical.
Já em 2015, a Tesla começou a estabelecer autopesquisa de software e hardware de direção autônoma e, de 2016 a 2019, realizou sucessivamente autopesquisa de algoritmos e chips. Então, em 2020, o Tesla Autopilot inaugurou uma atualização em grande escala:
Não só substituiu o Mobileye Autopilot 3.0 pelo FSD Beta, mas também atualizou o algoritmo do 2D+CNN original para BEV+Transform.
Transformer é o T em GPT, que é uma rede neural de aprendizagem profunda, que tem a vantagem da extração de recursos que podem alcançar a compreensão global, melhorar a estabilidade do modelo e a capacidade de generalização.
BEV significa Bird's Eye View, que é um método de projeção de informações ambientais tridimensionais em um plano bidimensional para mostrar objetos e terreno no ambiente de uma perspetiva de cima para baixo.
Em comparação com o modelo pequeno tradicional, o BEV+Transformer melhora a perceção e a capacidade de generalização da condução inteligente, o que ajuda a aliviar o problema da cauda longa da condução inteligente:
Capacidade de perceção: BEV unifica a perspetiva e funde dados multimodais como lidar, radar e câmera para o mesmo plano, o que pode fornecer uma visão global e eliminar o problema de oclusão e sobreposição entre dados, e melhorar a precisão da deteção e rastreamento de objetos;
Capacidade de generalização: Através do mecanismo de auto-atenção, o modelo Transformer pode realizar a extração de características da compreensão global, que é propícia para encontrar a relação interna das próprias coisas, para que a condução inteligente possa aprender a resumir e resumir em vez de aprendizagem mecânica.
Em 2022, a Tesla introduzirá uma rede de cronometragem no algoritmo e atualizará o BEV para uma rede de ocupação, resolvendo efetivamente o problema da perda de informação no processo de tridimensional para bidimensional.
Do ponto de vista da promoção de algoritmos de perceção, a aplicação comercial global da indústria em 2022 e antes é principalmente algoritmos 2D + CNN. Com a ascensão de modelos grandes de IA, como o ChatGPT, o algoritmo foi atualizado para BEV+Transformer.
Em termos de tempo, a Tesla tem uma liderança (2020), e as domésticas Xpeng, Huawei, Lili, etc. só mudaram para BEV+Transformer este ano.
No entanto, quer se trate da Tesla ou de OEMs nacionais, o BEV+Transformer ainda é usado apenas no final da perceção.
Embora a comunidade acadêmica vise o planejamento final e proponha um modelo de Transformador full-stack UniAD+ para condução inteligente com perceção e tomada de decisão integradas, não há um cronograma preciso para o pouso alvo devido aos requisitos de complexidade do algoritmo + grande poder de computação.
2 Concurso Hash Power
Em 2016, a Tesla, que se separou da Mobileye devido a um acidente fatal de condução assistida, encontrou a NVIDIA para personalizar a plataforma de computação Drive PX2 com um poder de computação de 24TOPS, o que abriu o prelúdio mágico para a busca louca de poder de computação pelas empresas de automóveis.
Após o Drive PX2, a NVIDIA lançou três gerações de chips de condução inteligentes em 6 anos, de Xavier, Orin a Thor, e o poder de computação saltou de 30TOPS para 2000TOPS, um aumento de 83 vezes, mais rápido do que a Lei de Moore.
Essa pilha "frenética" de poder de computação a montante é, em última análise, porque alguém a jusante paga.
Por um lado, com o aumento do tamanho e do número de sensores em carros inteligentes, o nível de dados disparou.
Tomemos como exemplos o Tesla Model Y e o Xpeng G6 Max, o último está equipado com mais sensores, exigindo 3,5 vezes o poder de computação do primeiro.
Quando um veículo autónomo pode gerar terabytes ou mesmo dezenas de terabytes de dados por dia, a capacidade de processamento de dados é um dos pontos-chave para a verificação da tecnologia de condução autónoma.
Por outro lado, a "modelagem grande" também torna o poder de computação de chips dos algoritmos de condução inteligentes cada vez mais apertado.
O Laboratório de Inteligência Artificial SAIC testou que apenas 10Tops ou menos de poder de computação é necessário para alcançar a condução autónoma L2, e mesmo a condução autónoma L4 só precisa de cerca de 100Tops de poder de computação. A crescente procura de poder de computação das empresas a jusante tem, na verdade, outras razões.
Um deles é o poder de computação em nuvem.
O desenvolvimento inicial e tardio do sistema de condução autónoma depende de uma grande quantidade de dados ambientais para treinar e verificar o algoritmo, e a construção e renderização de cenas no teste de simulação também requerem um elevado poder de computação.
Além disso, a rede neural Transformer liderada pela Tesla é um grande consumidor de recursos, e os dados mostram que o Transformer requer 100 vezes o poder de computação da CNN no final do treinamento.
Desta forma, as empresas a jusante que pretendam obter poder de computação podem construir o seu próprio centro de computação inteligente (Tesla) ou cooperar com fornecedores de serviços em nuvem e com as aquisições externas mais não rentáveis, incluindo algoritmos, recursos informáticos, serviços de aplicações, etc.
Embora os centros de computação inteligente dos principais OEMs/fabricantes de direção autônoma nacionais tenham sido lançados, devido ao alto custo da autoconstrução, a maioria dos principais fabricantes nacionais de direção autônoma adotam o modelo de cooperação/modelo de aquisição, como Geely Xingrui e Xiaopeng Fuwan são Alibaba Cloud, e Milli e Ideal são motores vulcânicos. No entanto, do ponto de vista das vantagens de custo a longo prazo, ainda tem uma alta tendência para se construir.
Outra é a NOA.
Na realidade, os modelos da principal fábrica de motores com funções de condução inteligente de alta qualidade da NOA urbana têm um poder de computação de cerca de 200-500TOPS.
No entanto, no processo de expansão da NOA de estradas de alta velocidade para estradas urbanas (estradas de alta velocidade - vias expressas urbanas - estradas principais urbanas - estradas secundárias urbanas - estradas secundárias urbanas - estradas secundárias urbanas), quanto mais denso for o fluxo de pessoas (apenas 25% das pessoas viajam em rodovias todos os dias, enquanto as estradas urbanas são 100%), quanto maior a complexidade do ambiente rodoviário, maiores os requisitos de poder de computação para reconhecimento de objetos, fusão de perceção e tomada de decisão do sistema.
Sun Guoliang, diretor de produtos da Muxi, destacou que a implantação de modelos grandes no lado do veículo e a realização das tarefas definidas, o poder de computação deve atingir pelo menos 300~500TOPS. A otimização do modelo pode reduzir os requisitos de poder de computação, mas considerando o aumento da complexidade e do volume de dados dos cenários no futuro, bem como o aumento na proporção de perceção visual (relativamente baseada em regras), o poder de computação do lado do veículo pode dobrar para mais de 800TOPS.
3 Atualização de perceção
A Everbright Securities tem um julgamento de que a classificação da importância dos três principais elementos que passam de L2/L2+ para L3 condução inteligente avançada é dados > algoritmos > hardware, e a classificação de estágios posteriores movendo-se para condução inteligente de nível mais alto ou hardware >= algoritmo > dados.
A base teórica é que a chave para alcançar a condução inteligente L3 reside na perceção abrangente, que depende principalmente da atualização e otimização de algoritmos orientados por dados em cenários massivos + de cauda longa; Entre eles, os dados de cidades de nível inferior ainda são necessários para a cobertura de cenários desconhecidos (vs. o poder de computação a bordo atual basicamente atendeu aos requisitos de L3-L4).
No estágio atual, a aquisição de dados de cena maciços + de cauda longa depende da atualização significativa dos sensores a bordo (câmeras).
De acordo com o relatório Yole, o número de câmeras necessárias para a condução autônoma L1-L3 dobrou, por exemplo, L1-L2 só precisa de duas câmeras na frente e atrás, e 20 em L3.
Na verdade, os OEMs reservam redundância para atualizações OTA subsequentes, e o número de câmeras necessárias para câmeras de veículo único excede em muito o número de câmeras necessárias nesta classe, como Tesla Model 3 equipado com 9, NIO, Xpeng, e modelos ideais chegam a 10-13.
Além disso, devido aos requisitos refinados de grandes modelos para dados percetivos, os dados de imagem de alta resolução podem ser usados como fonte de dados para atualizar e otimizar os parâmetros de sua arquitetura em modelos de aprendizagem profunda, especialmente câmeras voltadas para o futuro, que precisam resolver a maioria dos cenários e as tarefas mais complexas de reconhecimento de alvo, como reconhecimento de alvo pequeno de longa distância e reconhecimento de corte de alvo de curto alcance.
A fim de identificar e monitorar alvos a distâncias maiores, as câmeras on-board devem ser atualizadas para 8 milhões de pixels ou mais. Exemplos típicos são Baidu Apollo, que uniu forças com a Sony, Lianchuang e Black Sesame Intelligent para criar o primeiro módulo de câmera de veículo de alto pixel do mundo de mais de 15 milhões.
Na questão de melhorar as capacidades de perceção, existem dois obstáculos que todas as empresas de automóveis querem evitar, mapas de alta precisão e lidar.
Como informação a priori, os mapas de alta precisão podem fornecer uma grande quantidade de redundância de segurança para a condução autónoma, e os OEMs dependem de um elevado grau de dependência antes de os dados e algoritmos estarem maduros. E a razão para o off-map também é mais fácil de entender:
Os mapas de alta precisão têm desvantagens, como longos ciclos de atualização, altos custos e qualificações mais rígidas dos fornecedores de mapas, o que limita a possibilidade de comercialização em larga escala de direção autônoma de alta qualidade.
Construa um circuito fechado de dados para formar uma atualização iterativa do modelo de algoritmo para retroalimentar o veículo.
Quanto a como separar o mapa, o método da Tesla é introduzir uma rede de linha de faixa e novos métodos de etiquetagem de dados, enquanto a empresa doméstica de direção autônoma adota um esquema de mapeamento em tempo real para construir um mapa do ambiente ao redor do veículo durante a condução através de sensores, como câmeras instaladas no veículo.
Atualmente, a Xpeng, a Huawei e outros OEMs principais lançaram soluções de condução inteligente de alta qualidade sem mapas de alta precisão, e estabeleceram um cronograma de produção em massa, e empresas de direção autônoma como Huawei, Mumo e Yuanrong Qixing também se juntaram a eles, e a tendência de "perceção pesada e mapa leve" dos algoritmos de direção automática é clara.
Lidar é por causa do custo.
O LiDAR tem vantagens de precisão na distância e na informação espacial, e o esquema de deteção de fusão multissensores equipado com lidar pode alcançar a perceção total do ambiente através da complementaridade, proporcionando redundância de segurança para condução autónoma de alto nível.
Nos primeiros anos, além da Tesla, quase todas as soluções de tecnologia sem motorista maduras usavam lidar de 64 bits, que custava cerca de 700.000 yuans, e um pequeno radar valia um carro ou até mesmo vários carros.
A Tesla usa a rede de ocupação para obter um efeito de perceção semelhante ao lidar, e espera-se que os OEMs domésticos usem o lidar como um importante sensor suplementar devido à falta de algoritmos de visão de máquina, reduzindo assim a quantidade de dados que precisam ser acumulados no campo visual.
Além disso, o radar de ondas milimétricas de imagem 4D pode substituir completamente o radar de ondas milimétricas 3D, que deverá substituir o lidar de baixa linha.
Em comparação com o lidar, alguns indicadores de radar de ondas milimétricas de imagem 4D aproximam o desempenho do lidar de 16 linhas, mas o custo é de apenas um décimo do lidar.
Com base no novo hardware de condução autónoma HW4.0, a Tesla equipou pela primeira vez um radar de ondas milimétricas 4D no modelo S/X. Além da Tesla, o modelo ideal com um preço inferior a 400.000 yuans, o modelo BMW com um preço de mais de 700.000 yuans, e o veículo de serviço de condução autónoma Cruise adquirido pela GM completaram o layout do radar de ondas milimétricas 4D nos últimos dois anos. Ao mesmo tempo, gigantes automotivos Tier-1, como Continental e ZF, basicamente completaram o layout deste campo.
4 Epílogo
Em agosto, Musk lançou pessoalmente um test drive transmitido ao vivo do FSD Beta V12 e, em 45 minutos, o sistema FSD Beta V12 progrediu muito suavemente durante toda a viagem, contornando facilmente obstáculos e identificando vários sinais de trânsito.
Musk disse animado:
O sistema V12 é implementado por IA do início ao fim. Não tínhamos programação, não tínhamos programadores escrevendo uma linha de código para identificar estradas, pedestres, etc., tudo deixado para redes neurais.
E tudo isso é baseado em uma enorme quantidade de "dados de vídeo" e 10.000 H100.
Infelizmente, estes dois recursos estratégicos não são fáceis para os OEM nacionais recuperarem o atraso.
Recursos
[1] Sabia que a condução autónoma existe há 27 anos? Anônimo
[2] Quanto maior o poder de computação do chip de condução inteligente, melhor, Yuanchuan Auto revisão
[3] Que mudanças ocorrerão na pista de condução autónoma sob a aplicação de modelos de grande porte? TF Valores Mobiliários
[4] Modelo grande AI é aplicado ao penteado de condução inteligente automóvel: Tu o antigo e o novo, como Rifangsheng, Everbright Securities
[5] ALAVINN EXPLORES: UM CARRO AUTÔNOMO DE 1989, LEI FENG.COM
[6] O explosivo ChatGPT pode tornar a condução automática mais rápida? Suportes em titânio
[7] Musk test-drive ao vivo Tesla FSD V12! Condução autónoma de IA de ponta a ponta, formação de 10.000 H100, novo Zhiyuan
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Modelo grande no carro, Tesla trouxe uma boa cabeça?
Fonte original: Decode
Em 1989, a Universidade Carnegie Mellon recebeu um projeto de pesquisa dos militares dos EUA sobre direção autônoma que parecia incrível na época.
Para fazer isso, os pesquisadores equiparam uma ambulância militar reformada com uma enorme câmera que parecia um holofote, um processador do tamanho de uma geladeira e um gerador de 5.000W.
Apesar do equipamento rudimentar e dados brutos, como a grade de 30×32 pixels que a câmera no teto do carro na época foi relatada, com a ajuda de uma rede neural inovadora, o carro autônomo chamado ALVINN pode atingir uma velocidade máxima de 88 km / h.
Nas décadas seguintes, a tecnologia de condução autónoma desenvolveu-se rapidamente na direção de ALVINN, até que o chatGPT surgiu, e grandes modelos entraram em cena, tornando-se a maior variável de mudança de condução autónoma.
Do lado do veículo, o grande modelo tem atuado na perceção e previsão da condução autónoma, e está a penetrar na camada de tomada de decisão; Na nuvem, modelos grandes abrem caminho para a condução autónoma L3 e superior; Inclusive, o modelo de grande porte vai acelerar a implementação da NOA urbana.
Entre as empresas a jusante do mundo, a Tesla é, sem dúvida, a primeira.
Em agosto, foi revelado o sistema de piloto automático de IA de ponta a ponta da Tesla, FSD Beta V12, que depende inteiramente de câmeras a bordo e redes neurais para identificar situações de estrada e tráfego e tomar decisões de acordo.
Esta integração da perceção do modelo de ponta a ponta e da tomada de decisões permite que a condução autónoma introduza diretamente dados de imagem de uma extremidade e produza o controlo da operação a partir da outra, o que está mais próximo da condução real dos seres humanos.
Mas as montadoras que tentavam se aproximar do modelo de ponta a ponta descobriram que tinham que seguir primeiro se quisessem ir além.
1 Algoritmo Primeiro
Deixe o grande modelo entrar no carro, Tesla é definitivamente o mais radical.
Já em 2015, a Tesla começou a estabelecer autopesquisa de software e hardware de direção autônoma e, de 2016 a 2019, realizou sucessivamente autopesquisa de algoritmos e chips. Então, em 2020, o Tesla Autopilot inaugurou uma atualização em grande escala:
Não só substituiu o Mobileye Autopilot 3.0 pelo FSD Beta, mas também atualizou o algoritmo do 2D+CNN original para BEV+Transform.
Transformer é o T em GPT, que é uma rede neural de aprendizagem profunda, que tem a vantagem da extração de recursos que podem alcançar a compreensão global, melhorar a estabilidade do modelo e a capacidade de generalização.
BEV significa Bird's Eye View, que é um método de projeção de informações ambientais tridimensionais em um plano bidimensional para mostrar objetos e terreno no ambiente de uma perspetiva de cima para baixo.
Em comparação com o modelo pequeno tradicional, o BEV+Transformer melhora a perceção e a capacidade de generalização da condução inteligente, o que ajuda a aliviar o problema da cauda longa da condução inteligente:
Capacidade de perceção: BEV unifica a perspetiva e funde dados multimodais como lidar, radar e câmera para o mesmo plano, o que pode fornecer uma visão global e eliminar o problema de oclusão e sobreposição entre dados, e melhorar a precisão da deteção e rastreamento de objetos;
Capacidade de generalização: Através do mecanismo de auto-atenção, o modelo Transformer pode realizar a extração de características da compreensão global, que é propícia para encontrar a relação interna das próprias coisas, para que a condução inteligente possa aprender a resumir e resumir em vez de aprendizagem mecânica.
Em 2022, a Tesla introduzirá uma rede de cronometragem no algoritmo e atualizará o BEV para uma rede de ocupação, resolvendo efetivamente o problema da perda de informação no processo de tridimensional para bidimensional.
Do ponto de vista da promoção de algoritmos de perceção, a aplicação comercial global da indústria em 2022 e antes é principalmente algoritmos 2D + CNN. Com a ascensão de modelos grandes de IA, como o ChatGPT, o algoritmo foi atualizado para BEV+Transformer.
Em termos de tempo, a Tesla tem uma liderança (2020), e as domésticas Xpeng, Huawei, Lili, etc. só mudaram para BEV+Transformer este ano.
Embora a comunidade acadêmica vise o planejamento final e proponha um modelo de Transformador full-stack UniAD+ para condução inteligente com perceção e tomada de decisão integradas, não há um cronograma preciso para o pouso alvo devido aos requisitos de complexidade do algoritmo + grande poder de computação.
2 Concurso Hash Power
Em 2016, a Tesla, que se separou da Mobileye devido a um acidente fatal de condução assistida, encontrou a NVIDIA para personalizar a plataforma de computação Drive PX2 com um poder de computação de 24TOPS, o que abriu o prelúdio mágico para a busca louca de poder de computação pelas empresas de automóveis.
Após o Drive PX2, a NVIDIA lançou três gerações de chips de condução inteligentes em 6 anos, de Xavier, Orin a Thor, e o poder de computação saltou de 30TOPS para 2000TOPS, um aumento de 83 vezes, mais rápido do que a Lei de Moore.
Essa pilha "frenética" de poder de computação a montante é, em última análise, porque alguém a jusante paga.
Por um lado, com o aumento do tamanho e do número de sensores em carros inteligentes, o nível de dados disparou.
Quando um veículo autónomo pode gerar terabytes ou mesmo dezenas de terabytes de dados por dia, a capacidade de processamento de dados é um dos pontos-chave para a verificação da tecnologia de condução autónoma.
Por outro lado, a "modelagem grande" também torna o poder de computação de chips dos algoritmos de condução inteligentes cada vez mais apertado.
O Laboratório de Inteligência Artificial SAIC testou que apenas 10Tops ou menos de poder de computação é necessário para alcançar a condução autónoma L2, e mesmo a condução autónoma L4 só precisa de cerca de 100Tops de poder de computação. A crescente procura de poder de computação das empresas a jusante tem, na verdade, outras razões.
Um deles é o poder de computação em nuvem.
O desenvolvimento inicial e tardio do sistema de condução autónoma depende de uma grande quantidade de dados ambientais para treinar e verificar o algoritmo, e a construção e renderização de cenas no teste de simulação também requerem um elevado poder de computação.
Além disso, a rede neural Transformer liderada pela Tesla é um grande consumidor de recursos, e os dados mostram que o Transformer requer 100 vezes o poder de computação da CNN no final do treinamento.
Desta forma, as empresas a jusante que pretendam obter poder de computação podem construir o seu próprio centro de computação inteligente (Tesla) ou cooperar com fornecedores de serviços em nuvem e com as aquisições externas mais não rentáveis, incluindo algoritmos, recursos informáticos, serviços de aplicações, etc.
Embora os centros de computação inteligente dos principais OEMs/fabricantes de direção autônoma nacionais tenham sido lançados, devido ao alto custo da autoconstrução, a maioria dos principais fabricantes nacionais de direção autônoma adotam o modelo de cooperação/modelo de aquisição, como Geely Xingrui e Xiaopeng Fuwan são Alibaba Cloud, e Milli e Ideal são motores vulcânicos. No entanto, do ponto de vista das vantagens de custo a longo prazo, ainda tem uma alta tendência para se construir.
Outra é a NOA.
Na realidade, os modelos da principal fábrica de motores com funções de condução inteligente de alta qualidade da NOA urbana têm um poder de computação de cerca de 200-500TOPS.
No entanto, no processo de expansão da NOA de estradas de alta velocidade para estradas urbanas (estradas de alta velocidade - vias expressas urbanas - estradas principais urbanas - estradas secundárias urbanas - estradas secundárias urbanas - estradas secundárias urbanas), quanto mais denso for o fluxo de pessoas (apenas 25% das pessoas viajam em rodovias todos os dias, enquanto as estradas urbanas são 100%), quanto maior a complexidade do ambiente rodoviário, maiores os requisitos de poder de computação para reconhecimento de objetos, fusão de perceção e tomada de decisão do sistema.
Sun Guoliang, diretor de produtos da Muxi, destacou que a implantação de modelos grandes no lado do veículo e a realização das tarefas definidas, o poder de computação deve atingir pelo menos 300~500TOPS. A otimização do modelo pode reduzir os requisitos de poder de computação, mas considerando o aumento da complexidade e do volume de dados dos cenários no futuro, bem como o aumento na proporção de perceção visual (relativamente baseada em regras), o poder de computação do lado do veículo pode dobrar para mais de 800TOPS.
3 Atualização de perceção
A Everbright Securities tem um julgamento de que a classificação da importância dos três principais elementos que passam de L2/L2+ para L3 condução inteligente avançada é dados > algoritmos > hardware, e a classificação de estágios posteriores movendo-se para condução inteligente de nível mais alto ou hardware >= algoritmo > dados.
A base teórica é que a chave para alcançar a condução inteligente L3 reside na perceção abrangente, que depende principalmente da atualização e otimização de algoritmos orientados por dados em cenários massivos + de cauda longa; Entre eles, os dados de cidades de nível inferior ainda são necessários para a cobertura de cenários desconhecidos (vs. o poder de computação a bordo atual basicamente atendeu aos requisitos de L3-L4).
No estágio atual, a aquisição de dados de cena maciços + de cauda longa depende da atualização significativa dos sensores a bordo (câmeras).
De acordo com o relatório Yole, o número de câmeras necessárias para a condução autônoma L1-L3 dobrou, por exemplo, L1-L2 só precisa de duas câmeras na frente e atrás, e 20 em L3.
Na verdade, os OEMs reservam redundância para atualizações OTA subsequentes, e o número de câmeras necessárias para câmeras de veículo único excede em muito o número de câmeras necessárias nesta classe, como Tesla Model 3 equipado com 9, NIO, Xpeng, e modelos ideais chegam a 10-13.
Além disso, devido aos requisitos refinados de grandes modelos para dados percetivos, os dados de imagem de alta resolução podem ser usados como fonte de dados para atualizar e otimizar os parâmetros de sua arquitetura em modelos de aprendizagem profunda, especialmente câmeras voltadas para o futuro, que precisam resolver a maioria dos cenários e as tarefas mais complexas de reconhecimento de alvo, como reconhecimento de alvo pequeno de longa distância e reconhecimento de corte de alvo de curto alcance.
A fim de identificar e monitorar alvos a distâncias maiores, as câmeras on-board devem ser atualizadas para 8 milhões de pixels ou mais. Exemplos típicos são Baidu Apollo, que uniu forças com a Sony, Lianchuang e Black Sesame Intelligent para criar o primeiro módulo de câmera de veículo de alto pixel do mundo de mais de 15 milhões.
Na questão de melhorar as capacidades de perceção, existem dois obstáculos que todas as empresas de automóveis querem evitar, mapas de alta precisão e lidar.
Como informação a priori, os mapas de alta precisão podem fornecer uma grande quantidade de redundância de segurança para a condução autónoma, e os OEMs dependem de um elevado grau de dependência antes de os dados e algoritmos estarem maduros. E a razão para o off-map também é mais fácil de entender:
Os mapas de alta precisão têm desvantagens, como longos ciclos de atualização, altos custos e qualificações mais rígidas dos fornecedores de mapas, o que limita a possibilidade de comercialização em larga escala de direção autônoma de alta qualidade.
Construa um circuito fechado de dados para formar uma atualização iterativa do modelo de algoritmo para retroalimentar o veículo.
Quanto a como separar o mapa, o método da Tesla é introduzir uma rede de linha de faixa e novos métodos de etiquetagem de dados, enquanto a empresa doméstica de direção autônoma adota um esquema de mapeamento em tempo real para construir um mapa do ambiente ao redor do veículo durante a condução através de sensores, como câmeras instaladas no veículo.
Atualmente, a Xpeng, a Huawei e outros OEMs principais lançaram soluções de condução inteligente de alta qualidade sem mapas de alta precisão, e estabeleceram um cronograma de produção em massa, e empresas de direção autônoma como Huawei, Mumo e Yuanrong Qixing também se juntaram a eles, e a tendência de "perceção pesada e mapa leve" dos algoritmos de direção automática é clara.
Lidar é por causa do custo.
O LiDAR tem vantagens de precisão na distância e na informação espacial, e o esquema de deteção de fusão multissensores equipado com lidar pode alcançar a perceção total do ambiente através da complementaridade, proporcionando redundância de segurança para condução autónoma de alto nível.
Nos primeiros anos, além da Tesla, quase todas as soluções de tecnologia sem motorista maduras usavam lidar de 64 bits, que custava cerca de 700.000 yuans, e um pequeno radar valia um carro ou até mesmo vários carros.
A Tesla usa a rede de ocupação para obter um efeito de perceção semelhante ao lidar, e espera-se que os OEMs domésticos usem o lidar como um importante sensor suplementar devido à falta de algoritmos de visão de máquina, reduzindo assim a quantidade de dados que precisam ser acumulados no campo visual.
Além disso, o radar de ondas milimétricas de imagem 4D pode substituir completamente o radar de ondas milimétricas 3D, que deverá substituir o lidar de baixa linha.
Em comparação com o lidar, alguns indicadores de radar de ondas milimétricas de imagem 4D aproximam o desempenho do lidar de 16 linhas, mas o custo é de apenas um décimo do lidar.
Com base no novo hardware de condução autónoma HW4.0, a Tesla equipou pela primeira vez um radar de ondas milimétricas 4D no modelo S/X. Além da Tesla, o modelo ideal com um preço inferior a 400.000 yuans, o modelo BMW com um preço de mais de 700.000 yuans, e o veículo de serviço de condução autónoma Cruise adquirido pela GM completaram o layout do radar de ondas milimétricas 4D nos últimos dois anos. Ao mesmo tempo, gigantes automotivos Tier-1, como Continental e ZF, basicamente completaram o layout deste campo.
4 Epílogo
Em agosto, Musk lançou pessoalmente um test drive transmitido ao vivo do FSD Beta V12 e, em 45 minutos, o sistema FSD Beta V12 progrediu muito suavemente durante toda a viagem, contornando facilmente obstáculos e identificando vários sinais de trânsito.
Musk disse animado:
O sistema V12 é implementado por IA do início ao fim. Não tínhamos programação, não tínhamos programadores escrevendo uma linha de código para identificar estradas, pedestres, etc., tudo deixado para redes neurais.
E tudo isso é baseado em uma enorme quantidade de "dados de vídeo" e 10.000 H100.
Infelizmente, estes dois recursos estratégicos não são fáceis para os OEM nacionais recuperarem o atraso.
Recursos
[1] Sabia que a condução autónoma existe há 27 anos? Anônimo
[2] Quanto maior o poder de computação do chip de condução inteligente, melhor, Yuanchuan Auto revisão
[3] Que mudanças ocorrerão na pista de condução autónoma sob a aplicação de modelos de grande porte? TF Valores Mobiliários
[4] Modelo grande AI é aplicado ao penteado de condução inteligente automóvel: Tu o antigo e o novo, como Rifangsheng, Everbright Securities
[5] ALAVINN EXPLORES: UM CARRO AUTÔNOMO DE 1989, LEI FENG.COM
[6] O explosivo ChatGPT pode tornar a condução automática mais rápida? Suportes em titânio
[7] Musk test-drive ao vivo Tesla FSD V12! Condução autónoma de IA de ponta a ponta, formação de 10.000 H100, novo Zhiyuan