Grandes modelos de linguagem, como o ChatGPT, demonstram capacidades criativas sem precedentes, mas ainda estão longe da AGI (Inteligência Artificial Geral) e carecem de capacidades antropomórficas, como tomada de decisão autônoma, armazenamento de memória e planejamento.
A fim de explorar a evolução de grandes modelos de linguagem para AGI e evoluir para uma super inteligência artificial que supera os seres humanos, Mihayou e a equipe de pesquisa de PNL Fudan lançaram em conjunto um artigo "agente" baseado em grandes modelos de linguagem. Coloque agentes com as três funções de perceção, cérebro e ação em ambientes experimentais, como jogos de texto e sandbox, para deixá-los se mover por conta própria.
Os resultados mostram que esses agentes possuem capacidades antropomórficas como perceção autônoma, planejamento, tomada de decisão e comunicação, por exemplo, quando o ambiente ao redor se torna difícil e árduo, os agentes ajustam automaticamente suas estratégias e ações; Em um ambiente de simulação social, o agente exibe emoções antropomórficas como empatia; Quando dois agentes estranhos se comunicam simplesmente, eles se lembram um do outro.
Esta estrutura técnica é semelhante aos experimentos de simulação de jogos de agentes de IA lançados pela Universidade de Stanford e pela Universidade de Tsinghua anteriormente, que são baseados em grandes modelos de linguagem para construir robôs de IA mais poderosos, o que tem desempenhado um papel na promoção do desenvolvimento da indústria.
Endereço em papel:
Github:
De acordo com o artigo, o agente é composto principalmente por três módulos: perceção, tomada de decisão e controle, e execução, que percebe o ambiente, toma decisões inteligentes e, em seguida, executa ações específicas.
Módulo de Perceção
O módulo de perceção é usado para obter várias informações do ambiente, equivalentes aos sentidos humanos. Ele pode conter uma variedade de sensores para obter diferentes tipos de dados, por exemplo, a câmera obtém informações de imagem, o microfone obtém informações de voz, etc.
O módulo de perceção pré-processa esses dados brutos e os converte em uma representação digital que o agente pode entender para os módulos subsequentes. Os sensores de perceção mais usados incluem:
Sensores de imagem: câmaras, câmaras RGB-D, etc., utilizados para obter informações visuais.
Sensor de som: microfone, obter informações de áudio, como voz e som ambiente.
Sensores de posição: GPS, INS (sistema de navegação inercial), etc., para saber a posição do próprio agente.
Sensores táteis: Haptic ARRAY, luvas táteis, etc., para obter feedback táctil quando os objetos entram em contacto.
Sensores de temperatura, humidade, pressão do ar e outros sensores ambientais para obter informação sobre parâmetros ambientais.
O módulo de perceção precisa pré-processar os dados brutos, por exemplo, denoising, redução de ruído sonoro, conversão de formato, etc., para gerar dados normalizados que podem ser usados pelos módulos subsequentes. Ao mesmo tempo, o módulo de perceção também pode executar a extração de recursos, como extrair recursos visuais, como bordas, texturas e áreas de destino de imagens.
Módulo de Decisão e Controlo**
Este módulo é o "cérebro" do agente, processando, analisando e tomando decisões correspondentes sobre os dados obtidos pelo módulo de perceção. Pode ser subdividido nos seguintes submódulos:
Base de conhecimento/memória: armazena todos os tipos de conhecimento prévio, experiência, bem como observações, experiências e outras informações durante a execução.
Raciocínio/planeamento: Analisar o ambiente atual e desenvolver um curso de ação de acordo com a tarefa alvo. Como planejamento de caminho, planejamento de sequência de ação, etc.
Tomada de decisão: Tomar decisões ótimas com base no estado atual do ambiente, conhecimento e resultados de raciocínio.
Controle: converta o resultado da decisão em instruções de controle e emita comandos de execução para o módulo de execução.
O design do módulo de decisão e controle é a chave para a tecnologia do agente. Uso precoce de lógica e métodos simbólicos baseados em regras, técnicas de aprendizagem profunda tornaram-se mainstream nos últimos anos. A entrada do módulo são os vários tipos de dados obtidos pela perceção, e a saída é a instrução de controle do módulo de execução.
## Módulo de Execução
O módulo de execução recebe instruções de controlo e traduz-as em comportamentos específicos de interação ambiental para alcançar a tarefa correspondente. É equivalente aos "membros" de uma pessoa. O atuador se conecta ao "efetor" do agente e leva o efetor a mudar o ambiente de acordo com o comando de controle. Os principais efetores incluem:
Atuadores de movimento: braços robóticos, chassis de robôs, etc., para alterar a posição do próprio agente ou realizar operações com objetos.
Saída de voz/texto: sintetizadores de voz, displays, etc. para interagir com o ambiente em fala ou texto.
Interface de operação de ferramentas/equipamentos: controle vários dispositivos e ferramentas e expanda a capacidade de operação ambiental do agente.
O desenho específico do módulo de execução está relacionado com a forma física do agente. Por exemplo, um agente de serviço só precisa de uma interface de texto ou voz, enquanto um robô precisa se conectar e controlar com precisão a cinemática. A precisão e a resiliência da execução são a chave para o sucesso da missão.
No experimento de teste, os pesquisadores realizaram principalmente três tipos de experimentos: tarefa, inovação e gerenciamento do ciclo de vida para observar o desempenho do agente em diferentes ambientes.
Experiência de Tarefa
Os pesquisadores construíram dois ambientes de simulação, jogos de texto e cenários de vida, para testar a capacidade dos agentes de completar tarefas diárias. Os ambientes de jogo de texto usam linguagem natural para descrever o mundo virtual, e os agentes precisam ler descrições de texto para perceber o ambiente ao seu redor e agir.
As simulações de cenas de vida são mais realistas e complexas, e os agentes precisam usar o conhecimento do senso comum para entender melhor os comandos, como acender ativamente as luzes quando a sala está escura.
Os resultados experimentais mostram que os agentes podem usar seus poderosos recursos de geração de compreensão de texto para efetivamente decompor tarefas complexas, fazer planos e interagir com ambientes que mudam dinamicamente nesses ambientes simulados para, em última análise, atingir metas predeterminadas.
Experiência Inovadora
Os investigadores exploraram o potencial dos agentes em áreas especializadas como a inovação científica. Devido aos desafios da escassez de dados e à dificuldade em compreender o conhecimento especializado nestes campos, os investigadores testaram soluções para equipar os agentes com várias ferramentas gerais ou especializadas para melhorar a sua compreensão do conhecimento de domínios complexos.
Os experimentos mostram que o agente pode usar mecanismos de busca, gráficos de conhecimento e outras ferramentas para realizar pesquisas on-line e interagir com instrumentos e equipamentos científicos para completar operações práticas, como síntese de materiais. Isso o torna um promissor assistente para a inovação científica.
Experiência de Ciclo de Vida
Os pesquisadores usaram o jogo de mundo aberto Minecraft para testar a capacidade do agente de aprender continuamente e sobreviver. Os agentes começam com as atividades mais básicas, como extrair madeira e criar bancadas, explorando gradualmente ambientes desconhecidos e adquirindo habilidades de sobrevivência mais complexas.
No experimento, o corpo inteligente é usado para planejamento de alto nível e pode ajustar continuamente a estratégia de acordo com o feedback ambiental**. Os resultados mostram que o agente pode desenvolver habilidades sob total autonomia, adaptar-se continuamente a novos ambientes e demonstrar fortes capacidades de gestão do ciclo de vida.
Além disso, em termos de simulação social, os pesquisadores exploraram se os agentes exibem personalidade e comportamento social e testaram diferentes configurações ambientais. Os resultados mostram que os agentes podem exibir certos níveis de habilidades cognitivas, emoções e traços de personalidade. Numa sociedade simulada, atividades sociais espontâneas e comportamentos grupais ocorrem entre os agentes.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Mihayou e Fudan liberaram, com perceção, cérebro, ação do grande modelo de linguagem "agente"
Fonte original: AIGC Open Community
Grandes modelos de linguagem, como o ChatGPT, demonstram capacidades criativas sem precedentes, mas ainda estão longe da AGI (Inteligência Artificial Geral) e carecem de capacidades antropomórficas, como tomada de decisão autônoma, armazenamento de memória e planejamento.
A fim de explorar a evolução de grandes modelos de linguagem para AGI e evoluir para uma super inteligência artificial que supera os seres humanos, Mihayou e a equipe de pesquisa de PNL Fudan lançaram em conjunto um artigo "agente" baseado em grandes modelos de linguagem. Coloque agentes com as três funções de perceção, cérebro e ação em ambientes experimentais, como jogos de texto e sandbox, para deixá-los se mover por conta própria.
Os resultados mostram que esses agentes possuem capacidades antropomórficas como perceção autônoma, planejamento, tomada de decisão e comunicação, por exemplo, quando o ambiente ao redor se torna difícil e árduo, os agentes ajustam automaticamente suas estratégias e ações; Em um ambiente de simulação social, o agente exibe emoções antropomórficas como empatia; Quando dois agentes estranhos se comunicam simplesmente, eles se lembram um do outro.
Esta estrutura técnica é semelhante aos experimentos de simulação de jogos de agentes de IA lançados pela Universidade de Stanford e pela Universidade de Tsinghua anteriormente, que são baseados em grandes modelos de linguagem para construir robôs de IA mais poderosos, o que tem desempenhado um papel na promoção do desenvolvimento da indústria.
Endereço em papel:
Github:
Módulo de Perceção
O módulo de perceção é usado para obter várias informações do ambiente, equivalentes aos sentidos humanos. Ele pode conter uma variedade de sensores para obter diferentes tipos de dados, por exemplo, a câmera obtém informações de imagem, o microfone obtém informações de voz, etc.
O módulo de perceção pré-processa esses dados brutos e os converte em uma representação digital que o agente pode entender para os módulos subsequentes. Os sensores de perceção mais usados incluem:
Sensores de imagem: câmaras, câmaras RGB-D, etc., utilizados para obter informações visuais.
Sensor de som: microfone, obter informações de áudio, como voz e som ambiente.
Sensores de posição: GPS, INS (sistema de navegação inercial), etc., para saber a posição do próprio agente.
Sensores táteis: Haptic ARRAY, luvas táteis, etc., para obter feedback táctil quando os objetos entram em contacto.
Sensores de temperatura, humidade, pressão do ar e outros sensores ambientais para obter informação sobre parâmetros ambientais.
Módulo de Decisão e Controlo**
Este módulo é o "cérebro" do agente, processando, analisando e tomando decisões correspondentes sobre os dados obtidos pelo módulo de perceção. Pode ser subdividido nos seguintes submódulos:
Base de conhecimento/memória: armazena todos os tipos de conhecimento prévio, experiência, bem como observações, experiências e outras informações durante a execução.
Raciocínio/planeamento: Analisar o ambiente atual e desenvolver um curso de ação de acordo com a tarefa alvo. Como planejamento de caminho, planejamento de sequência de ação, etc.
Tomada de decisão: Tomar decisões ótimas com base no estado atual do ambiente, conhecimento e resultados de raciocínio.
Controle: converta o resultado da decisão em instruções de controle e emita comandos de execução para o módulo de execução.
O design do módulo de decisão e controle é a chave para a tecnologia do agente. Uso precoce de lógica e métodos simbólicos baseados em regras, técnicas de aprendizagem profunda tornaram-se mainstream nos últimos anos. A entrada do módulo são os vários tipos de dados obtidos pela perceção, e a saída é a instrução de controle do módulo de execução.
O módulo de execução recebe instruções de controlo e traduz-as em comportamentos específicos de interação ambiental para alcançar a tarefa correspondente. É equivalente aos "membros" de uma pessoa. O atuador se conecta ao "efetor" do agente e leva o efetor a mudar o ambiente de acordo com o comando de controle. Os principais efetores incluem:
Atuadores de movimento: braços robóticos, chassis de robôs, etc., para alterar a posição do próprio agente ou realizar operações com objetos.
Saída de voz/texto: sintetizadores de voz, displays, etc. para interagir com o ambiente em fala ou texto.
Interface de operação de ferramentas/equipamentos: controle vários dispositivos e ferramentas e expanda a capacidade de operação ambiental do agente.
O desenho específico do módulo de execução está relacionado com a forma física do agente. Por exemplo, um agente de serviço só precisa de uma interface de texto ou voz, enquanto um robô precisa se conectar e controlar com precisão a cinemática. A precisão e a resiliência da execução são a chave para o sucesso da missão.
Experiência de Tarefa
Os pesquisadores construíram dois ambientes de simulação, jogos de texto e cenários de vida, para testar a capacidade dos agentes de completar tarefas diárias. Os ambientes de jogo de texto usam linguagem natural para descrever o mundo virtual, e os agentes precisam ler descrições de texto para perceber o ambiente ao seu redor e agir.
As simulações de cenas de vida são mais realistas e complexas, e os agentes precisam usar o conhecimento do senso comum para entender melhor os comandos, como acender ativamente as luzes quando a sala está escura.
Experiência Inovadora
Os investigadores exploraram o potencial dos agentes em áreas especializadas como a inovação científica. Devido aos desafios da escassez de dados e à dificuldade em compreender o conhecimento especializado nestes campos, os investigadores testaram soluções para equipar os agentes com várias ferramentas gerais ou especializadas para melhorar a sua compreensão do conhecimento de domínios complexos.
Experiência de Ciclo de Vida
Os pesquisadores usaram o jogo de mundo aberto Minecraft para testar a capacidade do agente de aprender continuamente e sobreviver. Os agentes começam com as atividades mais básicas, como extrair madeira e criar bancadas, explorando gradualmente ambientes desconhecidos e adquirindo habilidades de sobrevivência mais complexas.
Além disso, em termos de simulação social, os pesquisadores exploraram se os agentes exibem personalidade e comportamento social e testaram diferentes configurações ambientais. Os resultados mostram que os agentes podem exibir certos níveis de habilidades cognitivas, emoções e traços de personalidade. Numa sociedade simulada, atividades sociais espontâneas e comportamentos grupais ocorrem entre os agentes.