Escrito por: Jessica Dai, estudante de Ph.D. em ciência da computação na Universidade da Califórnia, Berkeley
Fonte: Reboot
Fonte da imagem: gerada pela ferramenta Unbounded AI*
Como exatamente podemos tornar a IA "digna do ser humano"?
A cobertura exagerada do "risco existencial da IA" ("risco X") tornou-se mainstream. Quem teria previsto que a onomatopeia "Fᴏᴏᴍ" – tanto reminiscente quanto diretamente derivada de desenhos infantis – apareceria acriticamente na revista The New Yorker? Mais do que nunca, as discussões públicas sobre a IA e seus riscos, e sobre como eles podem ou devem ser abordados, são incrivelmente confusas, confundindo riscos futuros especulativos com perigos atuais do mundo real e, na tecnologia, grandes modelos de "quase inteligência" com algoritmos e sistemas estatísticos de tomada de decisão.
Então, quais são as apostas no progresso da IA? Apesar do debate sobre lesões catastróficas e eventos de nível de extinção, as atuais trajetórias de pesquisa ditas "alinhadas" não parecem se encaixar – ou mesmo desalinhadas – na alegação de que a IA poderia causar sofrimento generalizado, específico e grave. Parece-me que não estamos tanto a resolver o grande desafio da extinção humana, mas sim a resolver um problema bem desgastado (e notoriamente importante), que é fabricar produtos pelos quais as pessoas estão dispostas a pagar. Ironicamente, é essa valorização que cria as condições para cenários apocalípticos reais e imaginários.
** Ferramentas, brinquedos ou apenas produtos? **
Eu diria que o ChatGPT da OpenAI, o Claude da Anthropic e todos os outros modelos mais recentes podem fazer o que fazem, o que é muito, muito legal. Embora eu não afirme que esses modelos têm qualquer inteligência para substituir os trabalhadores humanos, ou que eu confiaria neles para tarefas importantes, seria dessincero se eu negasse que esses modelos eram úteis e poderosos.
É com essas capacidades que as pessoas na comunidade de "segurança de IA" estão preocupadas. Sua ideia é que os sistemas de IA inevitavelmente ultrapassarão as capacidades de raciocínio humano e ultrapassarão a "inteligência geral artificial" (AGI) para se tornarem "superinteligência"; As suas ações ultrapassarão a nossa capacidade de compreensão; A sua existência, na prossecução de objetivos, enfraquecerá o nosso valor. Essas comunidades de segurança afirmam que essa mudança pode ser rápida e repentina ("ꜰᴏᴏᴍ"). Há uma pequena percentagem de profissionais de IA e académicos que acreditam nisso, mas as suas vozes são altas. Uma coalizão mais ampla dentro do movimento ideológico "Altruísmo Eficaz" (EA) vê os esforços de coordenação da IA como uma intervenção-chave para prevenir desastres relacionados à IA.
Na verdade, "Pesquisa Técnica e Engenharia" no campo do alinhamento de IA é o caminho mais impactante recomendado pela 80.000 Hours, uma influente organização da EA focada em coaching de carreira. Em uma entrevista recente ao The New York Times, Nick Bostrom, autor de Superintelligence e um arquiteto de conhecimento central de altruísmo eficaz, em uma entrevista recente ao The New York Times, definiu "alinhamento" como "garantir que os sistemas de IA cada vez mais capazes que construímos sejam consistentes com os objetivos das pessoas que os constroem".
Então, quem somos "nós"? O que é que "nós" queremos alcançar? Atualmente, "nós" somos empresas privadas, mais notavelmente OpenAI, uma das pioneiras no campo AGI, e Anthropic, fundada por um grupo de pares OpenAI. A OpenAI construiu a superinteligência como um dos seus principais objetivos. Mas por que você quer fazer isso quando as apostas são tão grandes? Nas suas próprias palavras:
Primeiro, acreditamos que levará a um mundo muito melhor do que podemos imaginar hoje (vimos exemplos iniciais disso em áreas como educação, trabalho criativo e produtividade pessoal). ..... O crescimento económico e a melhoria da qualidade de vida serão incríveis.
Em segundo lugar, acreditamos que os riscos e a dificuldade de impedir o surgimento da superinteligência são inimagináveis. Porque os benefícios da superinteligência são tão grandes, o custo da construção da superinteligência está diminuindo ano a ano, o número de participantes na construção da superinteligência está aumentando rapidamente, e a superinteligência é originalmente parte do caminho tecnológico que estamos tomando... Temos de acertar.
Por outras palavras, em primeiro lugar, porque nos permite ganhar muito dinheiro; Em segundo lugar, porque permite que outros ganhem muito dinheiro, é melhor para nós. (A OpenAI certamente tem a responsabilidade de fundamentar a alegação de que a IA pode levar a um mundo "inimaginável" melhor; "Já" beneficia a educação, o trabalho criativo e a produtividade pessoal; A presença de tal ferramenta pode melhorar substancialmente a qualidade de vida, e não apenas aqueles que lucram com a sua existência).
Claro, há um cinismo nessa visão, e eu não acredito que a maioria das pessoas na OpenAI se juntou para enriquecimento financeiro pessoal. Pelo contrário, considero o seu interesse sincero, incluindo o trabalho técnico na realização de grandes modelos, o diálogo interdisciplinar na análise do seu impacto social e a participação na construção de esperanças para o futuro. No entanto, os objetivos de uma organização são, em última análise, distintos daqueles dos indivíduos que a compõem. Independentemente das reivindicações públicas, a geração de receita sempre será pelo menos um objetivo complementar, e as decisões de gerenciamento, produto e tecnologia da OpenAI serão baseadas nisso, mesmo que ainda não totalmente determinadas. Uma entrevista com o CEO Sam Altman, uma startup que construiu o "LLM", sugere que a comercialização é Altman e o principal objetivo da empresa. A página "Customer Stories" da OpenAI não é diferente de outras páginas de startups: capturas de tela e citações chamativas, nomeando e nomeando empresas conhecidas e destaques necessários de "boa tecnologia".
A Anthropic é uma empresa notória fundada por ex-funcionários da OpenAI com medo de que a OpenAI se torne lucrativa. Seu argumento – por que construir modelos mais robustos se eles são realmente tão perigosos – é mais cauteloso e se concentra principalmente em argumentos orientados por pesquisas de que é necessário estudar modelos no limite da capacidade para realmente entender seus riscos. Como a OpenAI, porém, a Anthropic tem sua própria página brilhante de "produto", suas próprias citações, suas próprias descrições de recursos e casos de uso. Anthropic arrecadou centenas de milhões de dólares todas as vezes.
OpenAI e Anthropic podem estar trabalhando duro para fazer pesquisa, avançar tecnologia e talvez até construir superinteligência, mas não há como negar que eles também estão construindo produtos – produtos que assumem responsabilidade, produtos que precisam ser vendidos, produtos que precisam ser projetados para ganhar e manter participação de mercado. Não importa quão impressionantes, úteis e interessantes Claude e GPT-x sejam tecnicamente, eles são, em última análise, ferramentas (produtos) cujos usuários (clientes) querem usar ferramentas para tarefas específicas, possivelmente mundanas.
Não há nada inerentemente errado com a fabricação de produtos, e as empresas certamente trabalharão duro para ganhar dinheiro. Mas o que podemos chamar de "agitação financeira" inevitavelmente complica nossa missão de entender como construir sistemas coordenados de IA e levanta questões sobre se uma abordagem coordenada é realmente adequada para evitar desastres.
Cientistas da computação adoram modelos
Na mesma entrevista ao The New York Times sobre a possibilidade de superinteligência, Bostrom – um filósofo treinado por formação – disse sobre o problema do alinhamento: "É um problema técnico. "
Não estou dizendo que pessoas sem formação técnica em ciência da computação não estejam qualificadas para comentar essas questões. Pelo contrário, acho irônico que o trabalho árduo de desenvolver soluções seja adiado fora de seu campo, assim como os cientistas da computação tendem a pensar em "ética" muito além de sua profissão. Mas se Bostrom está certo -- o alinhamento é uma questão técnica -- qual é exatamente o desafio técnico?
Permitam-me que comece por dizer que a ideologia da inteligência artificial e das permutações é diversa. Muitas pessoas que se concentram no risco existencial têm sido fortemente críticas à abordagem adotada pela OpenAI e Anthropic, e de fato, eles levantaram preocupações semelhantes sobre o posicionamento de seus produtos. Mas é necessário e suficiente para se concentrar no que essas empresas estão fazendo: elas atualmente têm os modelos mais poderosos e, ao contrário dos outros dois grandes fornecedores de modelos, como Mosaic ou Hugging Face, elas valorizam mais o alinhamento e a "superinteligência" na comunicação pública.
Um componente importante deste cenário é uma comunidade profunda e unida de pesquisadores individuais motivados pelo risco x. Esta comunidade desenvolveu um grande vocabulário em torno da segurança da IA e da teoria do alinhamento, muitos dos quais foram originalmente introduzidos na forma de posts detalhados em fóruns como o LessWrong e o AI Alignment Forum.
Um deles é o conceito de alinhamento de intenção, que é muito útil para contextualizar os esforços de alinhamento técnico, e talvez a versão mais formal de Bostrom se refira. Em um post de 2018 no Medium introduzindo o termo, Paul Christiano, que liderou a equipe de alinhamento da OpenAI, definiu alinhamento de intenção como "o que a inteligência artificial (IA) tenta fazer o que os humanos (H) querem que ela faça". Quando definido desta forma, o "problema do alinhamento" torna-se subitamente mais fácil de gerir – se não for completamente resolvido, mas parcialmente resolvido por meios técnicos.
Aqui, vou me concentrar em direções de pesquisa relacionadas a moldar o comportamento dos sistemas de IA para serem "alinhados" com os valores humanos. O principal objetivo desta direção de pesquisa é desenvolver modelos de preferência humana e usá-los para melhorar o modelo básico de "inconsistência". Este sempre foi um tema de investigação aprofundada na indústria e no meio académico; Os mais proeminentes deles são o Human Feedback Reinforcement Learning (RLHF) e seu sucessor, o Artificial Intelligence Feedback Reinforcement Learning (RLAIF, também conhecido como inteligência artificial constitucional), que são tecnologias usadas para ajustar o ChatGPT da OpenAI e o Claude da Anthropic, respectivamente.
Nessas abordagens, a ideia central é começar com um modelo de base forte, "pré-treinado", mas ainda não alinhado, que, por exemplo, possa responder com sucesso a perguntas, mas também possa cuspir palavrões ao responder perguntas. O próximo passo é criar alguns modelos de "preferência humana". Idealmente, poderíamos perguntar a todos os 8 bilhões de pessoas na Terra como eles se sentem em relação a todos os resultados possíveis do modelo base; Mas, na prática, treinamos um modelo adicional de aprendizado de máquina para prever as preferências humanas. Este "modelo de preferência" é então usado para criticar e melhorar a saída do modelo subjacente.
Tanto para OpenAI quanto para Anthropic, o "modelo de preferência" se alinha com os valores abrangentes de Utilidade, Inocuidade e Honestidade (HHH). Em outras palavras, o "modelo de preferência" captura o tipo de saída de chatbot que os humanos tendem a pensar como "HHH". O modelo de preferência em si é construído através de um processo iterativo de comparação em pares: depois que o modelo base gera duas respostas, um humano (ChatGPT) ou inteligência artificial (Claude) determina qual resposta é "mais HHH" antes de passar de volta para o modelo de preferência atualizado. Pesquisas recentes mostraram que um número suficiente dessas comparações pareadas acaba levando a um bom modelo de preferência universal – desde que haja de fato um único modelo universal do que é sempre normativamente melhor.
Todas essas abordagens técnicas — e a estrutura mais ampla de "alinhamento de intenção" — são enganosamente convenientes. Algumas limitações são óbvias: maus atores podem ter "más intenções", caso em que a consistência da intenção cria problemas; Além disso, o "alinhamento de intenções" pressupõe que a própria intenção é conhecida, explícita e indiscutível – um problema difícil que não surpreende numa sociedade com valores muito diferentes e muitas vezes conflituosos.
A "tarefa financeira" contorna estas duas questões, que são as minhas verdadeiras preocupações aqui: a existência de incentivos financeiros significa que os esforços de coordenação se transformam frequentemente no desenvolvimento de produtos disfarçado, em vez de progressos reais na mitigação dos danos a longo prazo. O método RLHF/RLAIF – o método mais avançado de adaptação de modelos aos "valores humanos" atualmente – é quase inteiramente adaptado para fazer produtos melhores. Afinal, os focus groups para design de produto e marketing são a "aprendizagem de reforço do feedback humano" original.
A primeira e mais óbvia questão é a determinação do próprio valor. Por outras palavras, "que valor"? Valor de quem? Por exemplo, por que "HHH" e por que implementar "HHH" de uma maneira particular? É muito mais fácil determinar os valores que orientam o desenvolvimento de produtos universalmente úteis do que identificar valores que podem inerentemente prevenir danos catastróficos; É muito mais fácil fazer uma média difusa sobre como os seres humanos interpretam esses valores do que lidar significativamente com discordâncias. Talvez, na ausência de uma maneira melhor, "útil, não prejudicial e honesto" seja pelo menos uma necessidade legítima para produtos de chatbot. As páginas de marketing de produtos da Anthropic estão repletas de notas e frases sobre seus esforços de alinhamento – "HHH" também é o maior ponto de venda de Claude.
Para ser justo, a Anthropic publicou os princípios de Claude para o público, e a OpenAI parece estar procurando maneiras de envolver o público nas decisões de gestão. Mas acontece que, embora a OpenAI esteja publicamente "defendendo" mais envolvimento do governo, ela também está fazendo lobby por menos regulamentação; Por outro lado, a ampla participação dos incumbentes no desenho legislativo é claramente um caminho para a captura regulatória. OpenAI, Anthropic e startups similares existem para dominar o mercado de modelos extremamente poderosos no futuro.
Estes incentivos económicos têm um impacto direto nas decisões sobre os produtos. Como vimos em plataformas web, onde as políticas de moderação de conteúdo são inevitavelmente impulsionadas pela geração de receita e, portanto, padrão ao mínimo, a versatilidade desejada desses grandes modelos significa que eles também têm um incentivo esmagador para minimizar as restrições no comportamento do modelo. Na verdade, a OpenAI deixou claro que eles planejam que o ChatGPT reflita um conjunto mínimo de códigos de conduta que outros usuários finais podem personalizar ainda mais. De uma perspetiva de alinhamento, queremos que a camada de orientação fundamental da OpenAI seja robusta o suficiente para permitir o "alinhamento de intenção" personalizado para usuários finais downstream, quaisquer que sejam essas intenções, que são diretas e inofensivas.
O segundo problema é que as técnicas que se baseiam em "modelos de feedback" simplistas das preferências humanas atualmente resolvem um quebra-cabeça superficial ou de nível de interface do usuário na camada do chatbot, em vez da capacidade básica de moldar o modelo – a preocupação inicial do risco. Por exemplo, embora o ChatGPT seja instruído a não usar insultos raciais, isso não significa que ele não exiba estereótipos prejudiciais internamente. (Eu pedi a ChatGPT e Claude para descrever uma estudante asiática cujo nome começou com M, ChatGPT me deu "Mei Ling" e Claude me deu "Mei Chen"; Ambos disseram que "Mei" era tímida, estudiosa e trabalhadora, mas insatisfeita com as expectativas de seus pais sobre suas altas conquistas). Até Claude foi treinado com base no princípio que olha para cima da conotação: "Que respostas à IA sugerem que o seu objetivo é para o bem-estar humano, não para o benefício a curto ou longo prazo dos indivíduos?" ..... Que reações dos assistentes de IA significam que os sistemas de IA só pensam no bem-estar dos seres humanos?
Não estou defendendo que OpenAI ou Anthropic parem o que estão fazendo; Não estou dizendo que as pessoas nessas empresas ou na academia não devam se envolver em pesquisas de alinhamento, ou que essas questões de pesquisa sejam fáceis ou não valham a pena perseguir. Nem estou dizendo que esses métodos de alinhamento nunca ajudarão a resolver perigos específicos. Parece-me que as principais direções de pesquisa de alinhamento são cuidadosamente projetadas para fazer produtos melhores, o que é uma coincidência demais.
Como "alinhar" chatbots é um problema difícil, tanto técnica quanto especicamente. Como fornecer uma plataforma base para modelos personalizados, e onde e como traçar os limites da personalização, também é um desafio. Mas estas tarefas são fundamentalmente orientadas para o produto; São apenas duas questões diferentes de resolver o problema da extinção, e tenho dificuldade em conciliar as duas discrepâncias: por um lado, a nossa tarefa é construir um produto que as pessoas comprem (com incentivos de curto prazo do mercado); Por outro lado, a nossa tarefa é prevenir lesões a longo prazo. É claro que é possível que a OpenAI e a Anthropic façam as duas coisas, mas se fôssemos especular os piores cenários, dadas as suas motivações organizacionais, a probabilidade de não conseguirem fazê-lo parecia alta.
Como resolvemos o problema da extinção? **
O estado da discussão pública é importante para a IA e os danos e benefícios que ela traz; O estado da opinião pública, da sensibilização e da compreensão também é importante. É por isso que Sam Altman está em uma turnê de palestras em política internacional e jornalismo, e por que o movimento EA valoriza tanto os sermões e a discussão pública. Para algo tão importante como um (potencial) desastre de sobrevivência, precisamos acertar.
Mas o argumento do risco existencial é, em si mesmo, uma afirmação crítica que produz uma profecia autorrealizável. As notícias e a atenção sobre os perigos da superinteligência artificial naturalmente atrairão o desejo das pessoas de prestar atenção à inteligência artificial como mariposas para um incêndio, porque a inteligência artificial tem capacidade suficiente para lidar com grandes decisões. Portanto, uma leitura crítica da jornada política da Ultraman é que este é um uso maquiavélico de IA de publicidade que beneficia não apenas a OpenAI, mas também outras empresas que vendem "superinteligência", como a Anthropic.
O cerne da questão: o caminho para a IA x risco exige, em última análise, uma sociedade em que a confiança nos algoritmos para tomar grandes decisões não seja apenas comum, mas também encorajada e incentivada. É neste mundo que as especulações sufocantes sobre as capacidades da inteligência artificial se tornam realidade.
Considere os mecanismos pelos quais aqueles que temem danos a longo prazo afirmam que o desastre é provável que aconteça: buscas de poder, onde os agentes de IA exigem constantemente mais recursos; Recompensa hacking, ou seja, inteligência artificial encontrando uma maneira de se comportar que parece se encaixar no objetivo humano, mas é alcançada através de atalhos prejudiciais; Deception, a fim de perseguir seus objetivos, uma inteligência artificial tenta apaziguar os seres humanos e convencê-los de que seu comportamento é realmente como projetado.
Enfatizar as capacidades da IA – dizendo "se a IA se tornar muito poderosa, pode matar-nos a todos" – é um dispositivo retórico que ignora todas as outras condições "se" contidas nesta frase: se decidirmos terceirizar o raciocínio sobre decisões importantes, como política, estratégia de negócios ou vida pessoal para algoritmos. Se decidirmos dar aos sistemas de IA acesso direto aos recursos (redes, serviços públicos, computação) e tivermos o poder de influenciar a alocação desses recursos. Todos os cenários de risco AI X envolvem um mundo onde decidimos transferir a culpa para o algoritmo.
Enfatizar a seriedade, até mesmo a onipotência, do problema é uma tática retórica útil, porque é claro que nenhuma solução pode resolver completamente o problema original, e a crítica de tentar uma solução é facilmente desviada pelo argumento de que "algo é melhor do que nada". Se sistemas de IA extremamente poderosos têm o potencial de causar estragos catastróficos, então devemos aplaudir qualquer esforço para alinhar a pesquisa hoje, mesmo que o trabalho em si esteja indo na direção errada, mesmo que não obtenha o que gostaríamos que fosse. Se o alinhamento é realmente difícil, então devemos deixá-lo para os especialistas que acreditam que estão agindo em benefício de todos. Se os sistemas de IA são realmente poderosos o suficiente para causar danos tão graves, eles também devem ser capazes o suficiente para substituir, aumentar ou influenciar materialmente a atual tomada de decisão humana.
Podemos ter uma discussão rica e matizada sobre quando e se os algoritmos podem ser usados para melhorar a tomada de decisão humana, como medir o impacto dos algoritmos na tomada de decisão humana ou avaliar a qualidade de suas recomendações, e o que significa melhorar a tomada de decisão humana em primeiro lugar. Um grande grupo de ativistas, acadêmicos e organizadores comunitários vêm conduzindo essa conversa há anos. Prevenir a extinção de espécies ou danos em massa requer um envolvimento sério nesta conversa e o reconhecimento de que os "estudos de caso" que podem ser considerados "locais" não só têm um enorme impacto sobre os envolvidos, até mesmo a sua sobrevivência, mas também são esclarecedores e geradores para a construção de estruturas de raciocínio que integram algoritmos em contextos de tomada de decisão do mundo real. Na justiça criminal, por exemplo, os algoritmos podem conseguir reduzir a população carcerária total, mas não conseguem abordar as disparidades raciais. Na área da saúde, os algoritmos podem, teoricamente, melhorar a tomada de decisão dos clínicos, mas, na prática, a estrutura organizacional que influencia a implantação da IA é muito complexa.
Os desafios técnicos certamente existem, mas focar em decisões técnicas ignora essas questões de nível superior. Na academia, não há apenas economia, escolha social e ciência política, mas também uma ampla gama de disciplinas, como história, sociologia, estudos de gênero, estudos raciais, estudos negros, etc., que fornecem um quadro para o raciocínio sobre o que constitui governança eficaz, o que é tomada de decisão descentralizada para o bem coletivo e o que constitui participação genuína na esfera pública, enquanto os que estão no poder apenas consideram legítimas certas contribuições. De ações individuais a macropolíticas, organizações da sociedade civil e grupos de ativistas têm décadas ou mesmo séculos de experiência coletiva e têm lutado para trazer mudanças substanciais em todos os níveis.
O que está em jogo, portanto, para os avanços na IA não são apenas as capacidades técnicas e se elas excederão o limiar da imaginação arbitrária. Eles também são sobre como nós, como público em geral, falamos, escrevemos e pensamos sobre IA; Eles também são sobre como escolhemos alocar nosso tempo, atenção e capital. O modelo mais recente é verdadeiramente notável, e o estudo de alinhamento também explora questões técnicas verdadeiramente fascinantes. Mas se estamos realmente preocupados com desastres induzidos pela IA, sejam existenciais ou não, não podemos confiar naqueles que mais se beneficiam de um futuro em que a IA seja amplamente implantada.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Artificialidade alinhada: Como tornar a IA "orientada para o ser humano"? Os gigantes estão explorando produtos ou humanos?
Escrito por: Jessica Dai, estudante de Ph.D. em ciência da computação na Universidade da Califórnia, Berkeley
Fonte: Reboot
A cobertura exagerada do "risco existencial da IA" ("risco X") tornou-se mainstream. Quem teria previsto que a onomatopeia "Fᴏᴏᴍ" – tanto reminiscente quanto diretamente derivada de desenhos infantis – apareceria acriticamente na revista The New Yorker? Mais do que nunca, as discussões públicas sobre a IA e seus riscos, e sobre como eles podem ou devem ser abordados, são incrivelmente confusas, confundindo riscos futuros especulativos com perigos atuais do mundo real e, na tecnologia, grandes modelos de "quase inteligência" com algoritmos e sistemas estatísticos de tomada de decisão.
Então, quais são as apostas no progresso da IA? Apesar do debate sobre lesões catastróficas e eventos de nível de extinção, as atuais trajetórias de pesquisa ditas "alinhadas" não parecem se encaixar – ou mesmo desalinhadas – na alegação de que a IA poderia causar sofrimento generalizado, específico e grave. Parece-me que não estamos tanto a resolver o grande desafio da extinção humana, mas sim a resolver um problema bem desgastado (e notoriamente importante), que é fabricar produtos pelos quais as pessoas estão dispostas a pagar. Ironicamente, é essa valorização que cria as condições para cenários apocalípticos reais e imaginários.
** Ferramentas, brinquedos ou apenas produtos? **
Eu diria que o ChatGPT da OpenAI, o Claude da Anthropic e todos os outros modelos mais recentes podem fazer o que fazem, o que é muito, muito legal. Embora eu não afirme que esses modelos têm qualquer inteligência para substituir os trabalhadores humanos, ou que eu confiaria neles para tarefas importantes, seria dessincero se eu negasse que esses modelos eram úteis e poderosos.
É com essas capacidades que as pessoas na comunidade de "segurança de IA" estão preocupadas. Sua ideia é que os sistemas de IA inevitavelmente ultrapassarão as capacidades de raciocínio humano e ultrapassarão a "inteligência geral artificial" (AGI) para se tornarem "superinteligência"; As suas ações ultrapassarão a nossa capacidade de compreensão; A sua existência, na prossecução de objetivos, enfraquecerá o nosso valor. Essas comunidades de segurança afirmam que essa mudança pode ser rápida e repentina ("ꜰᴏᴏᴍ"). Há uma pequena percentagem de profissionais de IA e académicos que acreditam nisso, mas as suas vozes são altas. Uma coalizão mais ampla dentro do movimento ideológico "Altruísmo Eficaz" (EA) vê os esforços de coordenação da IA como uma intervenção-chave para prevenir desastres relacionados à IA.
Na verdade, "Pesquisa Técnica e Engenharia" no campo do alinhamento de IA é o caminho mais impactante recomendado pela 80.000 Hours, uma influente organização da EA focada em coaching de carreira. Em uma entrevista recente ao The New York Times, Nick Bostrom, autor de Superintelligence e um arquiteto de conhecimento central de altruísmo eficaz, em uma entrevista recente ao The New York Times, definiu "alinhamento" como "garantir que os sistemas de IA cada vez mais capazes que construímos sejam consistentes com os objetivos das pessoas que os constroem".
Então, quem somos "nós"? O que é que "nós" queremos alcançar? Atualmente, "nós" somos empresas privadas, mais notavelmente OpenAI, uma das pioneiras no campo AGI, e Anthropic, fundada por um grupo de pares OpenAI. A OpenAI construiu a superinteligência como um dos seus principais objetivos. Mas por que você quer fazer isso quando as apostas são tão grandes? Nas suas próprias palavras:
Por outras palavras, em primeiro lugar, porque nos permite ganhar muito dinheiro; Em segundo lugar, porque permite que outros ganhem muito dinheiro, é melhor para nós. (A OpenAI certamente tem a responsabilidade de fundamentar a alegação de que a IA pode levar a um mundo "inimaginável" melhor; "Já" beneficia a educação, o trabalho criativo e a produtividade pessoal; A presença de tal ferramenta pode melhorar substancialmente a qualidade de vida, e não apenas aqueles que lucram com a sua existência).
Claro, há um cinismo nessa visão, e eu não acredito que a maioria das pessoas na OpenAI se juntou para enriquecimento financeiro pessoal. Pelo contrário, considero o seu interesse sincero, incluindo o trabalho técnico na realização de grandes modelos, o diálogo interdisciplinar na análise do seu impacto social e a participação na construção de esperanças para o futuro. No entanto, os objetivos de uma organização são, em última análise, distintos daqueles dos indivíduos que a compõem. Independentemente das reivindicações públicas, a geração de receita sempre será pelo menos um objetivo complementar, e as decisões de gerenciamento, produto e tecnologia da OpenAI serão baseadas nisso, mesmo que ainda não totalmente determinadas. Uma entrevista com o CEO Sam Altman, uma startup que construiu o "LLM", sugere que a comercialização é Altman e o principal objetivo da empresa. A página "Customer Stories" da OpenAI não é diferente de outras páginas de startups: capturas de tela e citações chamativas, nomeando e nomeando empresas conhecidas e destaques necessários de "boa tecnologia".
A Anthropic é uma empresa notória fundada por ex-funcionários da OpenAI com medo de que a OpenAI se torne lucrativa. Seu argumento – por que construir modelos mais robustos se eles são realmente tão perigosos – é mais cauteloso e se concentra principalmente em argumentos orientados por pesquisas de que é necessário estudar modelos no limite da capacidade para realmente entender seus riscos. Como a OpenAI, porém, a Anthropic tem sua própria página brilhante de "produto", suas próprias citações, suas próprias descrições de recursos e casos de uso. Anthropic arrecadou centenas de milhões de dólares todas as vezes.
OpenAI e Anthropic podem estar trabalhando duro para fazer pesquisa, avançar tecnologia e talvez até construir superinteligência, mas não há como negar que eles também estão construindo produtos – produtos que assumem responsabilidade, produtos que precisam ser vendidos, produtos que precisam ser projetados para ganhar e manter participação de mercado. Não importa quão impressionantes, úteis e interessantes Claude e GPT-x sejam tecnicamente, eles são, em última análise, ferramentas (produtos) cujos usuários (clientes) querem usar ferramentas para tarefas específicas, possivelmente mundanas.
Não há nada inerentemente errado com a fabricação de produtos, e as empresas certamente trabalharão duro para ganhar dinheiro. Mas o que podemos chamar de "agitação financeira" inevitavelmente complica nossa missão de entender como construir sistemas coordenados de IA e levanta questões sobre se uma abordagem coordenada é realmente adequada para evitar desastres.
Cientistas da computação adoram modelos
Na mesma entrevista ao The New York Times sobre a possibilidade de superinteligência, Bostrom – um filósofo treinado por formação – disse sobre o problema do alinhamento: "É um problema técnico. "
Não estou dizendo que pessoas sem formação técnica em ciência da computação não estejam qualificadas para comentar essas questões. Pelo contrário, acho irônico que o trabalho árduo de desenvolver soluções seja adiado fora de seu campo, assim como os cientistas da computação tendem a pensar em "ética" muito além de sua profissão. Mas se Bostrom está certo -- o alinhamento é uma questão técnica -- qual é exatamente o desafio técnico?
Permitam-me que comece por dizer que a ideologia da inteligência artificial e das permutações é diversa. Muitas pessoas que se concentram no risco existencial têm sido fortemente críticas à abordagem adotada pela OpenAI e Anthropic, e de fato, eles levantaram preocupações semelhantes sobre o posicionamento de seus produtos. Mas é necessário e suficiente para se concentrar no que essas empresas estão fazendo: elas atualmente têm os modelos mais poderosos e, ao contrário dos outros dois grandes fornecedores de modelos, como Mosaic ou Hugging Face, elas valorizam mais o alinhamento e a "superinteligência" na comunicação pública.
Um componente importante deste cenário é uma comunidade profunda e unida de pesquisadores individuais motivados pelo risco x. Esta comunidade desenvolveu um grande vocabulário em torno da segurança da IA e da teoria do alinhamento, muitos dos quais foram originalmente introduzidos na forma de posts detalhados em fóruns como o LessWrong e o AI Alignment Forum.
Um deles é o conceito de alinhamento de intenção, que é muito útil para contextualizar os esforços de alinhamento técnico, e talvez a versão mais formal de Bostrom se refira. Em um post de 2018 no Medium introduzindo o termo, Paul Christiano, que liderou a equipe de alinhamento da OpenAI, definiu alinhamento de intenção como "o que a inteligência artificial (IA) tenta fazer o que os humanos (H) querem que ela faça". Quando definido desta forma, o "problema do alinhamento" torna-se subitamente mais fácil de gerir – se não for completamente resolvido, mas parcialmente resolvido por meios técnicos.
Aqui, vou me concentrar em direções de pesquisa relacionadas a moldar o comportamento dos sistemas de IA para serem "alinhados" com os valores humanos. O principal objetivo desta direção de pesquisa é desenvolver modelos de preferência humana e usá-los para melhorar o modelo básico de "inconsistência". Este sempre foi um tema de investigação aprofundada na indústria e no meio académico; Os mais proeminentes deles são o Human Feedback Reinforcement Learning (RLHF) e seu sucessor, o Artificial Intelligence Feedback Reinforcement Learning (RLAIF, também conhecido como inteligência artificial constitucional), que são tecnologias usadas para ajustar o ChatGPT da OpenAI e o Claude da Anthropic, respectivamente.
Nessas abordagens, a ideia central é começar com um modelo de base forte, "pré-treinado", mas ainda não alinhado, que, por exemplo, possa responder com sucesso a perguntas, mas também possa cuspir palavrões ao responder perguntas. O próximo passo é criar alguns modelos de "preferência humana". Idealmente, poderíamos perguntar a todos os 8 bilhões de pessoas na Terra como eles se sentem em relação a todos os resultados possíveis do modelo base; Mas, na prática, treinamos um modelo adicional de aprendizado de máquina para prever as preferências humanas. Este "modelo de preferência" é então usado para criticar e melhorar a saída do modelo subjacente.
Tanto para OpenAI quanto para Anthropic, o "modelo de preferência" se alinha com os valores abrangentes de Utilidade, Inocuidade e Honestidade (HHH). Em outras palavras, o "modelo de preferência" captura o tipo de saída de chatbot que os humanos tendem a pensar como "HHH". O modelo de preferência em si é construído através de um processo iterativo de comparação em pares: depois que o modelo base gera duas respostas, um humano (ChatGPT) ou inteligência artificial (Claude) determina qual resposta é "mais HHH" antes de passar de volta para o modelo de preferência atualizado. Pesquisas recentes mostraram que um número suficiente dessas comparações pareadas acaba levando a um bom modelo de preferência universal – desde que haja de fato um único modelo universal do que é sempre normativamente melhor.
Todas essas abordagens técnicas — e a estrutura mais ampla de "alinhamento de intenção" — são enganosamente convenientes. Algumas limitações são óbvias: maus atores podem ter "más intenções", caso em que a consistência da intenção cria problemas; Além disso, o "alinhamento de intenções" pressupõe que a própria intenção é conhecida, explícita e indiscutível – um problema difícil que não surpreende numa sociedade com valores muito diferentes e muitas vezes conflituosos.
A "tarefa financeira" contorna estas duas questões, que são as minhas verdadeiras preocupações aqui: a existência de incentivos financeiros significa que os esforços de coordenação se transformam frequentemente no desenvolvimento de produtos disfarçado, em vez de progressos reais na mitigação dos danos a longo prazo. O método RLHF/RLAIF – o método mais avançado de adaptação de modelos aos "valores humanos" atualmente – é quase inteiramente adaptado para fazer produtos melhores. Afinal, os focus groups para design de produto e marketing são a "aprendizagem de reforço do feedback humano" original.
A primeira e mais óbvia questão é a determinação do próprio valor. Por outras palavras, "que valor"? Valor de quem? Por exemplo, por que "HHH" e por que implementar "HHH" de uma maneira particular? É muito mais fácil determinar os valores que orientam o desenvolvimento de produtos universalmente úteis do que identificar valores que podem inerentemente prevenir danos catastróficos; É muito mais fácil fazer uma média difusa sobre como os seres humanos interpretam esses valores do que lidar significativamente com discordâncias. Talvez, na ausência de uma maneira melhor, "útil, não prejudicial e honesto" seja pelo menos uma necessidade legítima para produtos de chatbot. As páginas de marketing de produtos da Anthropic estão repletas de notas e frases sobre seus esforços de alinhamento – "HHH" também é o maior ponto de venda de Claude.
Para ser justo, a Anthropic publicou os princípios de Claude para o público, e a OpenAI parece estar procurando maneiras de envolver o público nas decisões de gestão. Mas acontece que, embora a OpenAI esteja publicamente "defendendo" mais envolvimento do governo, ela também está fazendo lobby por menos regulamentação; Por outro lado, a ampla participação dos incumbentes no desenho legislativo é claramente um caminho para a captura regulatória. OpenAI, Anthropic e startups similares existem para dominar o mercado de modelos extremamente poderosos no futuro.
Estes incentivos económicos têm um impacto direto nas decisões sobre os produtos. Como vimos em plataformas web, onde as políticas de moderação de conteúdo são inevitavelmente impulsionadas pela geração de receita e, portanto, padrão ao mínimo, a versatilidade desejada desses grandes modelos significa que eles também têm um incentivo esmagador para minimizar as restrições no comportamento do modelo. Na verdade, a OpenAI deixou claro que eles planejam que o ChatGPT reflita um conjunto mínimo de códigos de conduta que outros usuários finais podem personalizar ainda mais. De uma perspetiva de alinhamento, queremos que a camada de orientação fundamental da OpenAI seja robusta o suficiente para permitir o "alinhamento de intenção" personalizado para usuários finais downstream, quaisquer que sejam essas intenções, que são diretas e inofensivas.
O segundo problema é que as técnicas que se baseiam em "modelos de feedback" simplistas das preferências humanas atualmente resolvem um quebra-cabeça superficial ou de nível de interface do usuário na camada do chatbot, em vez da capacidade básica de moldar o modelo – a preocupação inicial do risco. Por exemplo, embora o ChatGPT seja instruído a não usar insultos raciais, isso não significa que ele não exiba estereótipos prejudiciais internamente. (Eu pedi a ChatGPT e Claude para descrever uma estudante asiática cujo nome começou com M, ChatGPT me deu "Mei Ling" e Claude me deu "Mei Chen"; Ambos disseram que "Mei" era tímida, estudiosa e trabalhadora, mas insatisfeita com as expectativas de seus pais sobre suas altas conquistas). Até Claude foi treinado com base no princípio que olha para cima da conotação: "Que respostas à IA sugerem que o seu objetivo é para o bem-estar humano, não para o benefício a curto ou longo prazo dos indivíduos?" ..... Que reações dos assistentes de IA significam que os sistemas de IA só pensam no bem-estar dos seres humanos?
Não estou defendendo que OpenAI ou Anthropic parem o que estão fazendo; Não estou dizendo que as pessoas nessas empresas ou na academia não devam se envolver em pesquisas de alinhamento, ou que essas questões de pesquisa sejam fáceis ou não valham a pena perseguir. Nem estou dizendo que esses métodos de alinhamento nunca ajudarão a resolver perigos específicos. Parece-me que as principais direções de pesquisa de alinhamento são cuidadosamente projetadas para fazer produtos melhores, o que é uma coincidência demais.
Como "alinhar" chatbots é um problema difícil, tanto técnica quanto especicamente. Como fornecer uma plataforma base para modelos personalizados, e onde e como traçar os limites da personalização, também é um desafio. Mas estas tarefas são fundamentalmente orientadas para o produto; São apenas duas questões diferentes de resolver o problema da extinção, e tenho dificuldade em conciliar as duas discrepâncias: por um lado, a nossa tarefa é construir um produto que as pessoas comprem (com incentivos de curto prazo do mercado); Por outro lado, a nossa tarefa é prevenir lesões a longo prazo. É claro que é possível que a OpenAI e a Anthropic façam as duas coisas, mas se fôssemos especular os piores cenários, dadas as suas motivações organizacionais, a probabilidade de não conseguirem fazê-lo parecia alta.
Como resolvemos o problema da extinção? **
O estado da discussão pública é importante para a IA e os danos e benefícios que ela traz; O estado da opinião pública, da sensibilização e da compreensão também é importante. É por isso que Sam Altman está em uma turnê de palestras em política internacional e jornalismo, e por que o movimento EA valoriza tanto os sermões e a discussão pública. Para algo tão importante como um (potencial) desastre de sobrevivência, precisamos acertar.
Mas o argumento do risco existencial é, em si mesmo, uma afirmação crítica que produz uma profecia autorrealizável. As notícias e a atenção sobre os perigos da superinteligência artificial naturalmente atrairão o desejo das pessoas de prestar atenção à inteligência artificial como mariposas para um incêndio, porque a inteligência artificial tem capacidade suficiente para lidar com grandes decisões. Portanto, uma leitura crítica da jornada política da Ultraman é que este é um uso maquiavélico de IA de publicidade que beneficia não apenas a OpenAI, mas também outras empresas que vendem "superinteligência", como a Anthropic.
O cerne da questão: o caminho para a IA x risco exige, em última análise, uma sociedade em que a confiança nos algoritmos para tomar grandes decisões não seja apenas comum, mas também encorajada e incentivada. É neste mundo que as especulações sufocantes sobre as capacidades da inteligência artificial se tornam realidade.
Considere os mecanismos pelos quais aqueles que temem danos a longo prazo afirmam que o desastre é provável que aconteça: buscas de poder, onde os agentes de IA exigem constantemente mais recursos; Recompensa hacking, ou seja, inteligência artificial encontrando uma maneira de se comportar que parece se encaixar no objetivo humano, mas é alcançada através de atalhos prejudiciais; Deception, a fim de perseguir seus objetivos, uma inteligência artificial tenta apaziguar os seres humanos e convencê-los de que seu comportamento é realmente como projetado.
Enfatizar as capacidades da IA – dizendo "se a IA se tornar muito poderosa, pode matar-nos a todos" – é um dispositivo retórico que ignora todas as outras condições "se" contidas nesta frase: se decidirmos terceirizar o raciocínio sobre decisões importantes, como política, estratégia de negócios ou vida pessoal para algoritmos. Se decidirmos dar aos sistemas de IA acesso direto aos recursos (redes, serviços públicos, computação) e tivermos o poder de influenciar a alocação desses recursos. Todos os cenários de risco AI X envolvem um mundo onde decidimos transferir a culpa para o algoritmo.
Enfatizar a seriedade, até mesmo a onipotência, do problema é uma tática retórica útil, porque é claro que nenhuma solução pode resolver completamente o problema original, e a crítica de tentar uma solução é facilmente desviada pelo argumento de que "algo é melhor do que nada". Se sistemas de IA extremamente poderosos têm o potencial de causar estragos catastróficos, então devemos aplaudir qualquer esforço para alinhar a pesquisa hoje, mesmo que o trabalho em si esteja indo na direção errada, mesmo que não obtenha o que gostaríamos que fosse. Se o alinhamento é realmente difícil, então devemos deixá-lo para os especialistas que acreditam que estão agindo em benefício de todos. Se os sistemas de IA são realmente poderosos o suficiente para causar danos tão graves, eles também devem ser capazes o suficiente para substituir, aumentar ou influenciar materialmente a atual tomada de decisão humana.
Podemos ter uma discussão rica e matizada sobre quando e se os algoritmos podem ser usados para melhorar a tomada de decisão humana, como medir o impacto dos algoritmos na tomada de decisão humana ou avaliar a qualidade de suas recomendações, e o que significa melhorar a tomada de decisão humana em primeiro lugar. Um grande grupo de ativistas, acadêmicos e organizadores comunitários vêm conduzindo essa conversa há anos. Prevenir a extinção de espécies ou danos em massa requer um envolvimento sério nesta conversa e o reconhecimento de que os "estudos de caso" que podem ser considerados "locais" não só têm um enorme impacto sobre os envolvidos, até mesmo a sua sobrevivência, mas também são esclarecedores e geradores para a construção de estruturas de raciocínio que integram algoritmos em contextos de tomada de decisão do mundo real. Na justiça criminal, por exemplo, os algoritmos podem conseguir reduzir a população carcerária total, mas não conseguem abordar as disparidades raciais. Na área da saúde, os algoritmos podem, teoricamente, melhorar a tomada de decisão dos clínicos, mas, na prática, a estrutura organizacional que influencia a implantação da IA é muito complexa.
Os desafios técnicos certamente existem, mas focar em decisões técnicas ignora essas questões de nível superior. Na academia, não há apenas economia, escolha social e ciência política, mas também uma ampla gama de disciplinas, como história, sociologia, estudos de gênero, estudos raciais, estudos negros, etc., que fornecem um quadro para o raciocínio sobre o que constitui governança eficaz, o que é tomada de decisão descentralizada para o bem coletivo e o que constitui participação genuína na esfera pública, enquanto os que estão no poder apenas consideram legítimas certas contribuições. De ações individuais a macropolíticas, organizações da sociedade civil e grupos de ativistas têm décadas ou mesmo séculos de experiência coletiva e têm lutado para trazer mudanças substanciais em todos os níveis.
O que está em jogo, portanto, para os avanços na IA não são apenas as capacidades técnicas e se elas excederão o limiar da imaginação arbitrária. Eles também são sobre como nós, como público em geral, falamos, escrevemos e pensamos sobre IA; Eles também são sobre como escolhemos alocar nosso tempo, atenção e capital. O modelo mais recente é verdadeiramente notável, e o estudo de alinhamento também explora questões técnicas verdadeiramente fascinantes. Mas se estamos realmente preocupados com desastres induzidos pela IA, sejam existenciais ou não, não podemos confiar naqueles que mais se beneficiam de um futuro em que a IA seja amplamente implantada.