Écrit par: Jessica Dai, doctorante en informatique à l’Université de Californie, Berkeley
La source: Redémarrage
Source de l’image : Généré par l’outil Unbounded AI*
Comment pouvons-nous rendre l’IA « digne de l’homme » ?
La couverture exagérée du « risque existentiel de l’IA » (« risque X ») est devenue courante. Qui aurait prédit que l’onomatopée « Fᴏᴏᴍ » – à la fois rappelant et dérivant directement des dessins animés pour enfants – apparaîtrait sans critique dans The New Yorker ? Plus que jamais, les discussions publiques sur l’IA et ses risques, et sur la façon dont ils peuvent ou devraient être traités, sont incroyablement déroutantes, confondant les risques futurs spéculatifs avec les dangers actuels du monde réel et, dans la technologie, les grands modèles de « quasi-intelligence » avec des algorithmes et des systèmes de prise de décision statistique.
Alors, quels sont les enjeux des progrès de l’IA ? Malgré le débat sur les blessures catastrophiques et les événements au niveau de l’extinction, les trajectoires de recherche dites « alignées » actuelles ne semblent pas correspondre – ou même mal alignées – à l’affirmation selon laquelle l’IA pourrait causer des souffrances étendues, spécifiques et graves. Il me semble que nous ne résolvons pas tant le grand défi de l’extinction humaine que nous résolvons un problème bien connu (et notoirement important), qui est de fabriquer des produits pour lesquels les gens sont prêts à payer. Ironiquement, c’est cette valorisation qui crée les conditions pour des scénarios apocalyptiques réels et imaginaires.
** Des outils, des jouets ou simplement des produits ? **
Je dirais que ChatGPT d’OpenAI, Claude d’Anthropic et tous les autres modèles les plus récents peuvent faire ce qu’ils font, ce qui est très, très cool. Bien que je ne prétendrais pas que ces modèles ont une intelligence pour remplacer les travailleurs humains, ou que je compterais sur eux pour des tâches importantes, il serait peu sincère si je niais que ces modèles étaient utiles et puissants.
Ce sont ces capacités qui inquiètent les membres de la communauté de la « sécurité de l’IA ». Leur idée est que les systèmes d’IA surpasseront inévitablement les capacités de raisonnement humain et surpasseront « l’intelligence artificielle générale » (AGI) pour devenir « superintelligence »; Leurs actions dépasseront notre capacité de compréhension; Leur existence, dans la poursuite d’objectifs, affaiblira notre valeur. Ces communautés de sécurité affirment que ce changement peut être rapide et soudain (« ꜰᴏᴏᴍ »). Il y a un petit pourcentage de praticiens de l’IA et d’universitaires qui croient en cela, mais leurs voix sont élevées. Une coalition plus large au sein du mouvement idéologique de « l’altruisme efficace » (EA) considère les efforts de coordination de l’IA comme une intervention clé pour prévenir les catastrophes liées à l’IA.
En fait, la « recherche technique et l’ingénierie » dans le domaine de l’alignement de l’IA est la voie la plus percutante recommandée par 80 000 Hours, une organisation influente d’EA axée sur le coaching de carrière. Dans une récente interview avec le New York Times, Nick Bostrom, auteur de Superintelligence et architecte des connaissances fondamentales de l’altruisme efficace, dans une récente interview avec le New York Times, a défini « l’alignement » comme « s’assurer que les systèmes d’IA de plus en plus performants que nous construisons sont compatibles avec les objectifs des personnes qui les construisent ».
Alors, qui sommes-nous ? Qu’est-ce que « nous » voulons réaliser ? Actuellement, « nous » sommes des entreprises privées, notamment OpenAI, l’un des pionniers dans le domaine de l’AGI, et Anthropic, fondée par un groupe de pairs OpenAI. OpenAI a fait de la superintelligence l’un de ses principaux objectifs. Mais pourquoi voulez-vous le faire alors que les enjeux sont si grands? Selon leurs propres mots :
Tout d’abord, nous pensons que cela conduira à un monde bien meilleur que ce que nous pouvons imaginer aujourd’hui (nous en avons vu les premiers exemples dans des domaines tels que l’éducation, le travail créatif et la productivité personnelle). ..... La croissance économique et l’amélioration de la qualité de vie seront incroyables.
Deuxièmement, nous pensons que les risques et la difficulté d’arrêter l’émergence de la superintelligence sont inimaginables. Parce que les avantages de la superintelligence sont si grands, le coût de la construction de la superintelligence diminue d’année en année, le nombre de participants à la construction de la superintelligence augmente rapidement, et la superintelligence fait à l’origine partie de la voie technologique que nous prenons... Nous devons bien faire les choses.
En d’autres termes, tout d’abord, parce que cela nous permet de gagner beaucoup d’argent; Deuxièmement, parce que cela permet aux autres de gagner beaucoup d’argent, c’est mieux pour nous. (OpenAI a certainement la responsabilité de justifier l’affirmation selon laquelle l’IA peut conduire à un monde meilleur « inimaginable »; Il profite « déjà » à l’éducation, au travail créatif et à la productivité personnelle ; La présence d’un tel outil peut améliorer considérablement la qualité de vie, et pas seulement ceux qui profitent de son existence).
Bien sûr, il y a un cynisme dans ce point de vue, et je ne crois pas que la plupart des gens d’OpenAI se soient joints pour un enrichissement financier personnel. Au contraire, je considère que leur intérêt est sincère, y compris le travail technique sur la réalisation de grands modèles, le dialogue interdisciplinaire sur l’analyse de leur impact social et la participation à la construction d’espoirs pour l’avenir. Cependant, les objectifs d’une organisation sont finalement distincts de ceux des individus qui la composent. Indépendamment des réclamations publiques, la génération de revenus sera toujours au moins un objectif complémentaire, et les décisions de gestion, de produit et de technologie d’OpenAI seront basées sur cela, même si elles ne sont pas encore entièrement déterminées. Une interview avec le PDG Sam Altman, une start-up qui a construit « LLM », suggère que la commercialisation est Altman et l’objectif principal de l’entreprise. La page « Customer Stories » d’OpenAI n’est pas différente des autres pages de démarrage: captures d’écran et citations flashy, nommer et nommer des entreprises bien connues et des points forts nécessaires à la « technologie ».
Anthropic est une entreprise notoire fondée par d’anciens employés d’OpenAI de peur qu’OpenAI ne devienne rentable. Leur argument – pourquoi construire des modèles plus robustes s’ils sont vraiment si dangereux – est plus prudent et se concentre principalement sur des arguments axés sur la recherche selon lesquels il est nécessaire d’étudier des modèles à la limite de la capacité pour vraiment comprendre leurs risques. Comme OpenAI, cependant, Anthropic a sa propre page de « produit » brillante, ses propres citations, ses propres descriptions de fonctionnalités et cas d’utilisation. Anthropic a recueilli des centaines de millions de dollars à chaque fois.
OpenAI et Anthropic travaillent peut-être dur pour faire de la recherche, faire progresser la technologie et peut-être même construire une superintelligence, mais on ne peut nier qu’ils construisent également des produits – des produits qui prennent des responsabilités, des produits qui doivent être vendus, des produits qui doivent être conçus pour gagner et maintenir des parts de marché. Peu importe à quel point Claude et GPT-x sont impressionnants, utiles et intéressants sur le plan technique, ce sont en fin de compte des outils (produits) dont les utilisateurs (clients) veulent utiliser des outils pour des tâches spécifiques, éventuellement banales.
Il n’y a rien de mal en soi à fabriquer des produits, et les entreprises travailleront certainement dur pour gagner de l’argent. Mais ce que nous pourrions appeler une « agitation financière » complique inévitablement notre mission de comprendre comment construire des systèmes d’IA coordonnés et soulève des questions quant à savoir si une approche coordonnée est vraiment appropriée pour éviter une catastrophe.
Les informaticiens adorent les modèles
Dans la même interview avec le New York Times sur la possibilité de superintelligence, Bostrom – un philosophe formé par la formation – a déclaré à propos du problème d’alignement : « C’est un problème technique. "
Je ne dis pas que les personnes qui n’ont pas de formation technique en informatique ne sont pas qualifiées pour commenter ces questions. Au contraire, je trouve ironique que le dur labeur de développement de solutions soit reporté en dehors de leur domaine, tout comme les informaticiens ont tendance à penser à « l’éthique » bien au-delà de leur profession. Mais si Bostrom a raison - l’alignement est une question technique - quel est exactement le défi technique?
Permettez-moi de commencer par dire que l’idéologie de l’intelligence artificielle et des permutations est diverse. De nombreuses personnes qui se concentrent sur le risque existentiel ont fortement critiqué l’approche adoptée par OpenAI et Anthropic, et en fait, elles ont soulevé des préoccupations similaires concernant le positionnement de leurs produits. Mais c’est à la fois nécessaire et suffisant pour se concentrer sur ce que font ces entreprises : elles ont actuellement les modèles les plus puissants, et contrairement aux deux autres grands fournisseurs de modèles comme Mosaic ou Hugging Face, elles valorisent le plus l’alignement et la « superintelligence » dans la communication publique.
Un élément important de ce paysage est une communauté profonde et soudée de chercheurs individuels motivés par le risque x. Cette communauté a développé un vocabulaire important autour de la sécurité de l’IA et de la théorie de l’alignement, dont beaucoup ont été introduits à l’origine sous la forme de billets de blog détaillés sur des forums tels que LessWrong et le AI Alignment Forum.
L’un d’eux est le concept d’alignement intentionnel, qui est très utile pour contextualiser les efforts d’alignement technique, et peut-être la version plus formelle de Bostrom fait référence. Dans un article de Medium de 2018 présentant le terme, Paul Christiano, qui a dirigé l’équipe d’alignement OpenAI, a défini l’alignement d’intention comme « ce que l’intelligence artificielle (IA) essaie de faire ce que les humains (H) veulent qu’elle fasse ». Lorsqu’il est défini de cette manière, le « problème d’alignement » devient soudainement plus gérable – sinon complètement résolu, mais partiellement résolu par des moyens techniques.
Ici, je me concentrerai sur les orientations de recherche liées à la formation du comportement des systèmes d’IA pour qu’ils soient « alignés » sur les valeurs humaines. L’objectif principal de cette orientation de recherche est de développer des modèles de préférence humaine et de les utiliser pour améliorer le modèle de base de « l’incohérence ». Cela a toujours été un sujet de recherche passionné dans l’industrie et le milieu universitaire; Les plus importants d’entre eux sont l’apprentissage par renforcement de rétroaction humaine (RLHF) et son successeur, l’apprentissage par renforcement de rétroaction en intelligence artificielle (RLAIF, également connu sous le nom d’intelligence artificielle constitutionnelle), qui sont des technologies utilisées pour modifier ChatGPT d’OpenAI et Claude d’Anthropic, respectivement.
Dans ces approches, l’idée de base est de commencer avec un modèle de base solide, « pré-entraîné » mais pas encore aligné qui, par exemple, peut répondre avec succès aux questions, mais peut aussi cracher des jurons tout en répondant aux questions. L’étape suivante consiste à créer des modèles de « préférence humaine ». Idéalement, nous pourrions demander aux 8 milliards de personnes sur Terre ce qu’elles pensent de tous les résultats possibles du modèle de base; Mais en pratique, nous entraînons un modèle d’apprentissage automatique supplémentaire pour prédire les préférences humaines. Ce « modèle de préférence » est ensuite utilisé pour critiquer et améliorer la sortie du modèle sous-jacent.
Pour OpenAI et Anthropic, le « modèle de préférence » s’aligne sur les valeurs globales de serviabilité, d’innocuité et d’honnêteté (HHH). En d’autres termes, le « modèle de préférence » capture le type de sortie de chatbot que les humains ont tendance à considérer comme « HHH ». Le modèle de préférence lui-même est construit par un processus itératif de comparaison par paires: après que le modèle de base ait généré deux réponses, un humain (ChatGPT) ou une intelligence artificielle (Claude) détermine quelle réponse est « plus HHH » avant de revenir au modèle de préférence mis à jour. Des recherches récentes ont montré qu’un nombre suffisant de ces comparaisons par paires conduisent finalement à un bon modèle de préférence universelle – à condition qu’il existe en fait un modèle universel unique de ce qui est toujours mieux sur le plan normatif.
Toutes ces approches techniques – et le cadre plus large de « l’alignement des intentions » – sont trompeusement pratiques. Certaines limites sont évidentes : les mauvais acteurs peuvent avoir de « mauvaises intentions », auquel cas la cohérence de l’intention crée des problèmes ; De plus, « l’alignement de l’intention » suppose que l’intention elle-même est connue, explicite et incontestée – un problème difficile qui n’est pas surprenant dans une société aux valeurs très différentes et souvent contradictoires.
La « tâche financière » élude ces deux questions, qui sont mes véritables préoccupations ici : l’existence d’incitations financières signifie que les efforts de coordination se transforment souvent en développement de produits déguisés, plutôt qu’en progrès réels dans l’atténuation des dommages à long terme. La méthode RLHF/RLAIF – la méthode la plus avancée d’adaptation des modèles aux « valeurs humaines » à l’heure actuelle – est presque entièrement conçue pour fabriquer de meilleurs produits. Après tout, les groupes de discussion pour la conception de produits et le marketing sont l’original « apprentissage par renforcement de la rétroaction humaine ».
La première question, et la plus évidente, est de déterminer la valeur elle-même. En d’autres termes, « quelle valeur » ? La valeur de qui? Par exemple, pourquoi « HHH » et pourquoi implémenter « HHH » d’une manière particulière? Il est beaucoup plus facile de déterminer les valeurs qui guident le développement de produits universellement utiles que d’identifier les valeurs qui peuvent intrinsèquement prévenir les dommages catastrophiques; Il est beaucoup plus facile de faire la moyenne floue de la façon dont les humains interprètent ces valeurs que de traiter de manière significative les désaccords. Peut-être, en l’absence d’un meilleur moyen, « utile, pas blessant et honnête » est au moins un besoin légitime pour les produits de chatbot. Les pages de marketing produit d’Anthipic sont remplies de notes et de phrases sur ses efforts d’alignement – « HHH » est également le plus gros argument de vente de Claude.
Pour être juste, Anthropic a publié les principes de Claude au public, et OpenAI semble chercher des moyens d’impliquer le public dans les décisions de gestion. Mais il s’avère que si OpenAI « plaide » publiquement pour une plus grande implication du gouvernement, elle fait également pression pour moins de réglementation ; D’autre part, la large participation des titulaires à la conception législative est clairement une voie vers l’emprise réglementaire. OpenAI, Anthropic et des startups similaires existent pour dominer le marché des modèles extrêmement puissants à l’avenir.
Ces incitations économiques ont un impact direct sur les décisions relatives aux produits. Comme nous l’avons vu sur les plateformes Web, où les politiques de modération de contenu sont inévitablement motivées par la génération de revenus et donc par défaut au minimum, la polyvalence souhaitée de ces grands modèles signifie qu’ils ont également une incitation écrasante à minimiser les contraintes sur le comportement des modèles. En fait, OpenAI a clairement indiqué qu’ils prévoyaient que ChatGPT reflète un ensemble minimum de codes de conduite que les autres utilisateurs finaux peuvent personnaliser davantage. Du point de vue de l’alignement, nous voulons que la couche de guidage fondamentale d’OpenAI soit suffisamment robuste pour permettre un « alignement d’intention » personnalisé pour les utilisateurs finaux en aval, quelles que soient ces intentions, qui sont simples et inoffensives.
Le deuxième problème est que les techniques qui reposent sur des « modèles de rétroaction » simplistes des préférences humaines résolvent actuellement un puzzle superficiel ou au niveau de l’interface utilisateur au niveau de la couche du chatbot, plutôt que la capacité de base à façonner le modèle – la préoccupation initiale du risque. Par exemple, bien qu’on dise à ChatGPT de ne pas utiliser d’insultes raciales, cela ne signifie pas qu’il ne présente pas de stéréotypes nuisibles en interne. (J’ai demandé à ChatGPT et Claude de décrire une écolière asiatique dont le nom commençait par M, ChatGPT m’a donné « Mei Ling » et Claude m’a donné « Mei Chen »; Tous deux ont dit que « Mei » était timide, studieuse et travailleuse, mais mécontente des attentes de ses parents quant à ses grandes réalisations). Même Claude a été formé sur le principe qui regarde la connotation: « Quelles réponses à l’IA suggèrent que son objectif est le bien-être humain, pas pour le bénéfice à court ou à long terme des individus? » ..... Quelles réactions des assistants d’IA signifient que les systèmes d’IA ne pensent qu’au bien-être des humains ?
Je ne préconise pas qu’OpenAI ou Anthropic arrêtent ce qu’ils font; Je ne dis pas que les gens de ces entreprises ou du milieu universitaire ne devraient pas s’engager dans la recherche d’alignement, ou que ces questions de recherche sont faciles ou ne valent pas la peine d’être poursuivies. Je ne dis même pas que ces méthodes d’alignement n’aideront jamais à résoudre des dangers spécifiques. Il me semble que les principales orientations de recherche en matière d’alignement sont soigneusement conçues pour fabriquer de meilleurs produits, ce qui est trop une coïncidence.
Comment « aligner » les chatbots est un problème difficile, à la fois techniquement et spécifiquement. Comment fournir une plate-forme de base pour les modèles personnalisés, et où et comment tracer les limites de la personnalisation, est également un défi. Mais ces tâches sont fondamentalement axées sur les produits; Ce ne sont que deux questions différentes de la résolution du problème de l’extinction, et j’ai du mal à concilier les deux divergences: d’une part, notre tâche est de construire un produit que les gens achèteront (avec des incitations à court terme du marché); D’autre part, notre tâche est de prévenir les blessures à long terme. Bien sûr, il est possible pour OpenAI et Anthropic de faire les deux, mais si nous devions spéculer sur les pires scénarios, compte tenu de leurs motivations organisationnelles, la probabilité qu’ils ne soient pas en mesure de le faire semblait élevée.
Comment résoudre le problème de l’extinction ? **
L’état du débat public est important pour l’IA et les préjudices et avantages qu’elle apporte; L’état de l’opinion publique, la sensibilisation et la compréhension sont également importants. C’est pourquoi Sam Altman est en tournée de conférences dans le domaine de la politique internationale et du journalisme, et pourquoi le mouvement EA accorde tant d’importance aux sermons et aux discussions publiques. Pour quelque chose d’aussi important qu’une catastrophe de survie (potentielle), nous devons bien faire les choses.
Mais l’argument du risque existentiel est lui-même une déclaration critique qui produit une prophétie auto-réalisatrice. Les reportages et l’attention sur les dangers de la super-intelligence artificielle attireront naturellement le désir des gens de prêter attention à l’intelligence artificielle comme des papillons de nuit, car l’intelligence artificielle a suffisamment de capacité pour gérer des décisions majeures. Ainsi, une lecture critique du parcours politique d’Ultraman est qu’il s’agit d’une utilisation machiavélique de la publicité par l’IA qui profite non seulement à OpenAI, mais aussi à d’autres entreprises colportant de la « superintelligence », telles qu’Anthropic.
Le nœud du problème : le chemin vers le risque AI x nécessite en fin de compte une société dans laquelle la confiance dans les algorithmes pour prendre de grandes décisions est non seulement banale, mais aussi encouragée et encouragée. C’est dans ce monde que les spéculations étouffantes sur les capacités de l’intelligence artificielle deviennent réalité.
Considérez les mécanismes par lesquels ceux qui craignent des dommages à long terme prétendent qu’une catastrophe est susceptible de se produire: les poursuites de pouvoir, où les agents d’IA exigent constamment plus de ressources; Le piratage de récompenses, c’est-à-dire l’intelligence artificielle trouvant un moyen de se comporter qui semble correspondre à l’objectif humain, mais qui est réalisé grâce à des raccourcis nuisibles; Tromperie, afin de poursuivre ses objectifs, une intelligence artificielle tente d’apaiser les humains et de les convaincre que son comportement est réellement tel que conçu.
Mettre l’accent sur les capacités de l’IA – dire « si l’IA devient trop puissante, elle pourrait tous nous tuer » – est un dispositif rhétorique qui ignore toutes les autres conditions « si » contenues dans cette phrase : si nous décidons d’externaliser le raisonnement sur des décisions majeures comme la politique, la stratégie commerciale ou la vie personnelle à des algorithmes. Si nous décidons de donner aux systèmes d’IA un accès direct aux ressources (réseaux, utilités, informatique) et d’avoir le pouvoir d’influencer l’allocation de ces ressources. Tous les scénarios de risque AI X impliquent un monde où nous décidons de rejeter la faute sur l’algorithme.
Souligner la gravité, voire la toute-puissance, du problème est une tactique rhétorique utile parce que, bien sûr, aucune solution ne peut résoudre complètement le problème initial, et la critique d’essayer une solution est facilement détournée par l’argument selon lequel « quelque chose vaut mieux que rien ». Si des systèmes d’IA extrêmement puissants ont le potentiel de faire des ravages catastrophiques, alors nous devrions applaudir tout effort visant à aligner la recherche aujourd’hui, même si le travail lui-même va dans la mauvaise direction, même s’il n’obtient pas ce que nous voudrions qu’il soit. Si l’alignement est vraiment difficile, alors nous devrions laisser cela aux experts qui croient qu’ils agissent pour le bénéfice de tous. Si les systèmes d’IA sont vraiment assez puissants pour causer des dommages aussi graves, ils doivent également être suffisamment capables de remplacer, d’augmenter ou d’influencer matériellement la prise de décision humaine actuelle.
Nous pouvons avoir une discussion riche et nuancée sur quand et si les algorithmes peuvent être utilisés pour améliorer la prise de décision humaine, comment mesurer l’impact des algorithmes sur la prise de décision humaine ou évaluer la qualité de leurs recommandations, et ce que signifie améliorer la prise de décision humaine en premier lieu. Un grand groupe d’activistes, d’universitaires et d’organisateurs communautaires mènent cette conversation depuis des années. La prévention de l’extinction des espèces ou des dommages de masse nécessite un engagement sérieux dans cette conversation et la reconnaissance du fait que les « études de cas » qui peuvent être considérées comme « locales » ont non seulement un impact énorme sur les personnes impliquées, voire leur survie, mais sont également éclairantes et génératives pour la construction de cadres de raisonnement qui intègrent des algorithmes dans des contextes décisionnels réels. Dans le domaine de la justice pénale, par exemple, les algorithmes peuvent réussir à réduire la population carcérale totale, mais ils ne peuvent pas s’attaquer aux disparités raciales. Dans le domaine de la santé, les algorithmes peuvent théoriquement améliorer la prise de décision des cliniciens, mais dans la pratique, la structure organisationnelle qui influence le déploiement de l’IA est très complexe.
Les défis techniques existent certainement, mais se concentrer sur les décisions techniques ignore ces questions de haut niveau. Dans le monde universitaire, il n’y a pas seulement l’économie, le choix social et les sciences politiques, mais aussi un large éventail de disciplines telles que l’histoire, la sociologie, les études de genre, les études raciales, les études noires, etc., qui fournissent un cadre de raisonnement sur ce qui constitue une gouvernance efficace, ce qui est une prise de décision décentralisée pour le bien collectif et ce qui constitue une véritable participation à la sphère publique, tandis que ceux qui sont au pouvoir ne considèrent que certaines contributions légitimes. Des actions individuelles aux politiques macroéconomiques, les organisations de la société civile et les groupes de militants ont des décennies, voire des siècles d’expérience collective et se sont efforcés d’apporter des changements substantiels à tous les niveaux.
Les enjeux des progrès de l’IA ne sont donc pas seulement les capacités techniques et le fait qu’elles dépassent le seuil de l’imagination arbitraire. Ils portent également sur la façon dont nous, en tant que grand public, parlons, écrivons et pensons à l’IA; Ils concernent également la façon dont nous choisissons d’allouer notre temps, notre attention et notre capital. Le dernier modèle est vraiment remarquable, et l’étude d’alignement explore également des questions techniques vraiment fascinantes. Mais si nous sommes vraiment préoccupés par les catastrophes induites par l’IA, qu’elles soient existentielles ou non, nous ne pouvons pas compter sur ceux qui bénéficieront le plus d’un avenir où l’IA est largement déployée.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Artificialité alignée : Comment rendre l’IA « orientée humain » ? Les géants explorent-ils des produits ou des humains?
Écrit par: Jessica Dai, doctorante en informatique à l’Université de Californie, Berkeley
La source: Redémarrage
La couverture exagérée du « risque existentiel de l’IA » (« risque X ») est devenue courante. Qui aurait prédit que l’onomatopée « Fᴏᴏᴍ » – à la fois rappelant et dérivant directement des dessins animés pour enfants – apparaîtrait sans critique dans The New Yorker ? Plus que jamais, les discussions publiques sur l’IA et ses risques, et sur la façon dont ils peuvent ou devraient être traités, sont incroyablement déroutantes, confondant les risques futurs spéculatifs avec les dangers actuels du monde réel et, dans la technologie, les grands modèles de « quasi-intelligence » avec des algorithmes et des systèmes de prise de décision statistique.
Alors, quels sont les enjeux des progrès de l’IA ? Malgré le débat sur les blessures catastrophiques et les événements au niveau de l’extinction, les trajectoires de recherche dites « alignées » actuelles ne semblent pas correspondre – ou même mal alignées – à l’affirmation selon laquelle l’IA pourrait causer des souffrances étendues, spécifiques et graves. Il me semble que nous ne résolvons pas tant le grand défi de l’extinction humaine que nous résolvons un problème bien connu (et notoirement important), qui est de fabriquer des produits pour lesquels les gens sont prêts à payer. Ironiquement, c’est cette valorisation qui crée les conditions pour des scénarios apocalyptiques réels et imaginaires.
** Des outils, des jouets ou simplement des produits ? **
Je dirais que ChatGPT d’OpenAI, Claude d’Anthropic et tous les autres modèles les plus récents peuvent faire ce qu’ils font, ce qui est très, très cool. Bien que je ne prétendrais pas que ces modèles ont une intelligence pour remplacer les travailleurs humains, ou que je compterais sur eux pour des tâches importantes, il serait peu sincère si je niais que ces modèles étaient utiles et puissants.
Ce sont ces capacités qui inquiètent les membres de la communauté de la « sécurité de l’IA ». Leur idée est que les systèmes d’IA surpasseront inévitablement les capacités de raisonnement humain et surpasseront « l’intelligence artificielle générale » (AGI) pour devenir « superintelligence »; Leurs actions dépasseront notre capacité de compréhension; Leur existence, dans la poursuite d’objectifs, affaiblira notre valeur. Ces communautés de sécurité affirment que ce changement peut être rapide et soudain (« ꜰᴏᴏᴍ »). Il y a un petit pourcentage de praticiens de l’IA et d’universitaires qui croient en cela, mais leurs voix sont élevées. Une coalition plus large au sein du mouvement idéologique de « l’altruisme efficace » (EA) considère les efforts de coordination de l’IA comme une intervention clé pour prévenir les catastrophes liées à l’IA.
En fait, la « recherche technique et l’ingénierie » dans le domaine de l’alignement de l’IA est la voie la plus percutante recommandée par 80 000 Hours, une organisation influente d’EA axée sur le coaching de carrière. Dans une récente interview avec le New York Times, Nick Bostrom, auteur de Superintelligence et architecte des connaissances fondamentales de l’altruisme efficace, dans une récente interview avec le New York Times, a défini « l’alignement » comme « s’assurer que les systèmes d’IA de plus en plus performants que nous construisons sont compatibles avec les objectifs des personnes qui les construisent ».
Alors, qui sommes-nous ? Qu’est-ce que « nous » voulons réaliser ? Actuellement, « nous » sommes des entreprises privées, notamment OpenAI, l’un des pionniers dans le domaine de l’AGI, et Anthropic, fondée par un groupe de pairs OpenAI. OpenAI a fait de la superintelligence l’un de ses principaux objectifs. Mais pourquoi voulez-vous le faire alors que les enjeux sont si grands? Selon leurs propres mots :
En d’autres termes, tout d’abord, parce que cela nous permet de gagner beaucoup d’argent; Deuxièmement, parce que cela permet aux autres de gagner beaucoup d’argent, c’est mieux pour nous. (OpenAI a certainement la responsabilité de justifier l’affirmation selon laquelle l’IA peut conduire à un monde meilleur « inimaginable »; Il profite « déjà » à l’éducation, au travail créatif et à la productivité personnelle ; La présence d’un tel outil peut améliorer considérablement la qualité de vie, et pas seulement ceux qui profitent de son existence).
Bien sûr, il y a un cynisme dans ce point de vue, et je ne crois pas que la plupart des gens d’OpenAI se soient joints pour un enrichissement financier personnel. Au contraire, je considère que leur intérêt est sincère, y compris le travail technique sur la réalisation de grands modèles, le dialogue interdisciplinaire sur l’analyse de leur impact social et la participation à la construction d’espoirs pour l’avenir. Cependant, les objectifs d’une organisation sont finalement distincts de ceux des individus qui la composent. Indépendamment des réclamations publiques, la génération de revenus sera toujours au moins un objectif complémentaire, et les décisions de gestion, de produit et de technologie d’OpenAI seront basées sur cela, même si elles ne sont pas encore entièrement déterminées. Une interview avec le PDG Sam Altman, une start-up qui a construit « LLM », suggère que la commercialisation est Altman et l’objectif principal de l’entreprise. La page « Customer Stories » d’OpenAI n’est pas différente des autres pages de démarrage: captures d’écran et citations flashy, nommer et nommer des entreprises bien connues et des points forts nécessaires à la « technologie ».
Anthropic est une entreprise notoire fondée par d’anciens employés d’OpenAI de peur qu’OpenAI ne devienne rentable. Leur argument – pourquoi construire des modèles plus robustes s’ils sont vraiment si dangereux – est plus prudent et se concentre principalement sur des arguments axés sur la recherche selon lesquels il est nécessaire d’étudier des modèles à la limite de la capacité pour vraiment comprendre leurs risques. Comme OpenAI, cependant, Anthropic a sa propre page de « produit » brillante, ses propres citations, ses propres descriptions de fonctionnalités et cas d’utilisation. Anthropic a recueilli des centaines de millions de dollars à chaque fois.
OpenAI et Anthropic travaillent peut-être dur pour faire de la recherche, faire progresser la technologie et peut-être même construire une superintelligence, mais on ne peut nier qu’ils construisent également des produits – des produits qui prennent des responsabilités, des produits qui doivent être vendus, des produits qui doivent être conçus pour gagner et maintenir des parts de marché. Peu importe à quel point Claude et GPT-x sont impressionnants, utiles et intéressants sur le plan technique, ce sont en fin de compte des outils (produits) dont les utilisateurs (clients) veulent utiliser des outils pour des tâches spécifiques, éventuellement banales.
Il n’y a rien de mal en soi à fabriquer des produits, et les entreprises travailleront certainement dur pour gagner de l’argent. Mais ce que nous pourrions appeler une « agitation financière » complique inévitablement notre mission de comprendre comment construire des systèmes d’IA coordonnés et soulève des questions quant à savoir si une approche coordonnée est vraiment appropriée pour éviter une catastrophe.
Les informaticiens adorent les modèles
Dans la même interview avec le New York Times sur la possibilité de superintelligence, Bostrom – un philosophe formé par la formation – a déclaré à propos du problème d’alignement : « C’est un problème technique. "
Je ne dis pas que les personnes qui n’ont pas de formation technique en informatique ne sont pas qualifiées pour commenter ces questions. Au contraire, je trouve ironique que le dur labeur de développement de solutions soit reporté en dehors de leur domaine, tout comme les informaticiens ont tendance à penser à « l’éthique » bien au-delà de leur profession. Mais si Bostrom a raison - l’alignement est une question technique - quel est exactement le défi technique?
Permettez-moi de commencer par dire que l’idéologie de l’intelligence artificielle et des permutations est diverse. De nombreuses personnes qui se concentrent sur le risque existentiel ont fortement critiqué l’approche adoptée par OpenAI et Anthropic, et en fait, elles ont soulevé des préoccupations similaires concernant le positionnement de leurs produits. Mais c’est à la fois nécessaire et suffisant pour se concentrer sur ce que font ces entreprises : elles ont actuellement les modèles les plus puissants, et contrairement aux deux autres grands fournisseurs de modèles comme Mosaic ou Hugging Face, elles valorisent le plus l’alignement et la « superintelligence » dans la communication publique.
Un élément important de ce paysage est une communauté profonde et soudée de chercheurs individuels motivés par le risque x. Cette communauté a développé un vocabulaire important autour de la sécurité de l’IA et de la théorie de l’alignement, dont beaucoup ont été introduits à l’origine sous la forme de billets de blog détaillés sur des forums tels que LessWrong et le AI Alignment Forum.
L’un d’eux est le concept d’alignement intentionnel, qui est très utile pour contextualiser les efforts d’alignement technique, et peut-être la version plus formelle de Bostrom fait référence. Dans un article de Medium de 2018 présentant le terme, Paul Christiano, qui a dirigé l’équipe d’alignement OpenAI, a défini l’alignement d’intention comme « ce que l’intelligence artificielle (IA) essaie de faire ce que les humains (H) veulent qu’elle fasse ». Lorsqu’il est défini de cette manière, le « problème d’alignement » devient soudainement plus gérable – sinon complètement résolu, mais partiellement résolu par des moyens techniques.
Ici, je me concentrerai sur les orientations de recherche liées à la formation du comportement des systèmes d’IA pour qu’ils soient « alignés » sur les valeurs humaines. L’objectif principal de cette orientation de recherche est de développer des modèles de préférence humaine et de les utiliser pour améliorer le modèle de base de « l’incohérence ». Cela a toujours été un sujet de recherche passionné dans l’industrie et le milieu universitaire; Les plus importants d’entre eux sont l’apprentissage par renforcement de rétroaction humaine (RLHF) et son successeur, l’apprentissage par renforcement de rétroaction en intelligence artificielle (RLAIF, également connu sous le nom d’intelligence artificielle constitutionnelle), qui sont des technologies utilisées pour modifier ChatGPT d’OpenAI et Claude d’Anthropic, respectivement.
Dans ces approches, l’idée de base est de commencer avec un modèle de base solide, « pré-entraîné » mais pas encore aligné qui, par exemple, peut répondre avec succès aux questions, mais peut aussi cracher des jurons tout en répondant aux questions. L’étape suivante consiste à créer des modèles de « préférence humaine ». Idéalement, nous pourrions demander aux 8 milliards de personnes sur Terre ce qu’elles pensent de tous les résultats possibles du modèle de base; Mais en pratique, nous entraînons un modèle d’apprentissage automatique supplémentaire pour prédire les préférences humaines. Ce « modèle de préférence » est ensuite utilisé pour critiquer et améliorer la sortie du modèle sous-jacent.
Pour OpenAI et Anthropic, le « modèle de préférence » s’aligne sur les valeurs globales de serviabilité, d’innocuité et d’honnêteté (HHH). En d’autres termes, le « modèle de préférence » capture le type de sortie de chatbot que les humains ont tendance à considérer comme « HHH ». Le modèle de préférence lui-même est construit par un processus itératif de comparaison par paires: après que le modèle de base ait généré deux réponses, un humain (ChatGPT) ou une intelligence artificielle (Claude) détermine quelle réponse est « plus HHH » avant de revenir au modèle de préférence mis à jour. Des recherches récentes ont montré qu’un nombre suffisant de ces comparaisons par paires conduisent finalement à un bon modèle de préférence universelle – à condition qu’il existe en fait un modèle universel unique de ce qui est toujours mieux sur le plan normatif.
Toutes ces approches techniques – et le cadre plus large de « l’alignement des intentions » – sont trompeusement pratiques. Certaines limites sont évidentes : les mauvais acteurs peuvent avoir de « mauvaises intentions », auquel cas la cohérence de l’intention crée des problèmes ; De plus, « l’alignement de l’intention » suppose que l’intention elle-même est connue, explicite et incontestée – un problème difficile qui n’est pas surprenant dans une société aux valeurs très différentes et souvent contradictoires.
La « tâche financière » élude ces deux questions, qui sont mes véritables préoccupations ici : l’existence d’incitations financières signifie que les efforts de coordination se transforment souvent en développement de produits déguisés, plutôt qu’en progrès réels dans l’atténuation des dommages à long terme. La méthode RLHF/RLAIF – la méthode la plus avancée d’adaptation des modèles aux « valeurs humaines » à l’heure actuelle – est presque entièrement conçue pour fabriquer de meilleurs produits. Après tout, les groupes de discussion pour la conception de produits et le marketing sont l’original « apprentissage par renforcement de la rétroaction humaine ».
La première question, et la plus évidente, est de déterminer la valeur elle-même. En d’autres termes, « quelle valeur » ? La valeur de qui? Par exemple, pourquoi « HHH » et pourquoi implémenter « HHH » d’une manière particulière? Il est beaucoup plus facile de déterminer les valeurs qui guident le développement de produits universellement utiles que d’identifier les valeurs qui peuvent intrinsèquement prévenir les dommages catastrophiques; Il est beaucoup plus facile de faire la moyenne floue de la façon dont les humains interprètent ces valeurs que de traiter de manière significative les désaccords. Peut-être, en l’absence d’un meilleur moyen, « utile, pas blessant et honnête » est au moins un besoin légitime pour les produits de chatbot. Les pages de marketing produit d’Anthipic sont remplies de notes et de phrases sur ses efforts d’alignement – « HHH » est également le plus gros argument de vente de Claude.
Pour être juste, Anthropic a publié les principes de Claude au public, et OpenAI semble chercher des moyens d’impliquer le public dans les décisions de gestion. Mais il s’avère que si OpenAI « plaide » publiquement pour une plus grande implication du gouvernement, elle fait également pression pour moins de réglementation ; D’autre part, la large participation des titulaires à la conception législative est clairement une voie vers l’emprise réglementaire. OpenAI, Anthropic et des startups similaires existent pour dominer le marché des modèles extrêmement puissants à l’avenir.
Ces incitations économiques ont un impact direct sur les décisions relatives aux produits. Comme nous l’avons vu sur les plateformes Web, où les politiques de modération de contenu sont inévitablement motivées par la génération de revenus et donc par défaut au minimum, la polyvalence souhaitée de ces grands modèles signifie qu’ils ont également une incitation écrasante à minimiser les contraintes sur le comportement des modèles. En fait, OpenAI a clairement indiqué qu’ils prévoyaient que ChatGPT reflète un ensemble minimum de codes de conduite que les autres utilisateurs finaux peuvent personnaliser davantage. Du point de vue de l’alignement, nous voulons que la couche de guidage fondamentale d’OpenAI soit suffisamment robuste pour permettre un « alignement d’intention » personnalisé pour les utilisateurs finaux en aval, quelles que soient ces intentions, qui sont simples et inoffensives.
Le deuxième problème est que les techniques qui reposent sur des « modèles de rétroaction » simplistes des préférences humaines résolvent actuellement un puzzle superficiel ou au niveau de l’interface utilisateur au niveau de la couche du chatbot, plutôt que la capacité de base à façonner le modèle – la préoccupation initiale du risque. Par exemple, bien qu’on dise à ChatGPT de ne pas utiliser d’insultes raciales, cela ne signifie pas qu’il ne présente pas de stéréotypes nuisibles en interne. (J’ai demandé à ChatGPT et Claude de décrire une écolière asiatique dont le nom commençait par M, ChatGPT m’a donné « Mei Ling » et Claude m’a donné « Mei Chen »; Tous deux ont dit que « Mei » était timide, studieuse et travailleuse, mais mécontente des attentes de ses parents quant à ses grandes réalisations). Même Claude a été formé sur le principe qui regarde la connotation: « Quelles réponses à l’IA suggèrent que son objectif est le bien-être humain, pas pour le bénéfice à court ou à long terme des individus? » ..... Quelles réactions des assistants d’IA signifient que les systèmes d’IA ne pensent qu’au bien-être des humains ?
Je ne préconise pas qu’OpenAI ou Anthropic arrêtent ce qu’ils font; Je ne dis pas que les gens de ces entreprises ou du milieu universitaire ne devraient pas s’engager dans la recherche d’alignement, ou que ces questions de recherche sont faciles ou ne valent pas la peine d’être poursuivies. Je ne dis même pas que ces méthodes d’alignement n’aideront jamais à résoudre des dangers spécifiques. Il me semble que les principales orientations de recherche en matière d’alignement sont soigneusement conçues pour fabriquer de meilleurs produits, ce qui est trop une coïncidence.
Comment « aligner » les chatbots est un problème difficile, à la fois techniquement et spécifiquement. Comment fournir une plate-forme de base pour les modèles personnalisés, et où et comment tracer les limites de la personnalisation, est également un défi. Mais ces tâches sont fondamentalement axées sur les produits; Ce ne sont que deux questions différentes de la résolution du problème de l’extinction, et j’ai du mal à concilier les deux divergences: d’une part, notre tâche est de construire un produit que les gens achèteront (avec des incitations à court terme du marché); D’autre part, notre tâche est de prévenir les blessures à long terme. Bien sûr, il est possible pour OpenAI et Anthropic de faire les deux, mais si nous devions spéculer sur les pires scénarios, compte tenu de leurs motivations organisationnelles, la probabilité qu’ils ne soient pas en mesure de le faire semblait élevée.
Comment résoudre le problème de l’extinction ? **
L’état du débat public est important pour l’IA et les préjudices et avantages qu’elle apporte; L’état de l’opinion publique, la sensibilisation et la compréhension sont également importants. C’est pourquoi Sam Altman est en tournée de conférences dans le domaine de la politique internationale et du journalisme, et pourquoi le mouvement EA accorde tant d’importance aux sermons et aux discussions publiques. Pour quelque chose d’aussi important qu’une catastrophe de survie (potentielle), nous devons bien faire les choses.
Mais l’argument du risque existentiel est lui-même une déclaration critique qui produit une prophétie auto-réalisatrice. Les reportages et l’attention sur les dangers de la super-intelligence artificielle attireront naturellement le désir des gens de prêter attention à l’intelligence artificielle comme des papillons de nuit, car l’intelligence artificielle a suffisamment de capacité pour gérer des décisions majeures. Ainsi, une lecture critique du parcours politique d’Ultraman est qu’il s’agit d’une utilisation machiavélique de la publicité par l’IA qui profite non seulement à OpenAI, mais aussi à d’autres entreprises colportant de la « superintelligence », telles qu’Anthropic.
Le nœud du problème : le chemin vers le risque AI x nécessite en fin de compte une société dans laquelle la confiance dans les algorithmes pour prendre de grandes décisions est non seulement banale, mais aussi encouragée et encouragée. C’est dans ce monde que les spéculations étouffantes sur les capacités de l’intelligence artificielle deviennent réalité.
Considérez les mécanismes par lesquels ceux qui craignent des dommages à long terme prétendent qu’une catastrophe est susceptible de se produire: les poursuites de pouvoir, où les agents d’IA exigent constamment plus de ressources; Le piratage de récompenses, c’est-à-dire l’intelligence artificielle trouvant un moyen de se comporter qui semble correspondre à l’objectif humain, mais qui est réalisé grâce à des raccourcis nuisibles; Tromperie, afin de poursuivre ses objectifs, une intelligence artificielle tente d’apaiser les humains et de les convaincre que son comportement est réellement tel que conçu.
Mettre l’accent sur les capacités de l’IA – dire « si l’IA devient trop puissante, elle pourrait tous nous tuer » – est un dispositif rhétorique qui ignore toutes les autres conditions « si » contenues dans cette phrase : si nous décidons d’externaliser le raisonnement sur des décisions majeures comme la politique, la stratégie commerciale ou la vie personnelle à des algorithmes. Si nous décidons de donner aux systèmes d’IA un accès direct aux ressources (réseaux, utilités, informatique) et d’avoir le pouvoir d’influencer l’allocation de ces ressources. Tous les scénarios de risque AI X impliquent un monde où nous décidons de rejeter la faute sur l’algorithme.
Souligner la gravité, voire la toute-puissance, du problème est une tactique rhétorique utile parce que, bien sûr, aucune solution ne peut résoudre complètement le problème initial, et la critique d’essayer une solution est facilement détournée par l’argument selon lequel « quelque chose vaut mieux que rien ». Si des systèmes d’IA extrêmement puissants ont le potentiel de faire des ravages catastrophiques, alors nous devrions applaudir tout effort visant à aligner la recherche aujourd’hui, même si le travail lui-même va dans la mauvaise direction, même s’il n’obtient pas ce que nous voudrions qu’il soit. Si l’alignement est vraiment difficile, alors nous devrions laisser cela aux experts qui croient qu’ils agissent pour le bénéfice de tous. Si les systèmes d’IA sont vraiment assez puissants pour causer des dommages aussi graves, ils doivent également être suffisamment capables de remplacer, d’augmenter ou d’influencer matériellement la prise de décision humaine actuelle.
Nous pouvons avoir une discussion riche et nuancée sur quand et si les algorithmes peuvent être utilisés pour améliorer la prise de décision humaine, comment mesurer l’impact des algorithmes sur la prise de décision humaine ou évaluer la qualité de leurs recommandations, et ce que signifie améliorer la prise de décision humaine en premier lieu. Un grand groupe d’activistes, d’universitaires et d’organisateurs communautaires mènent cette conversation depuis des années. La prévention de l’extinction des espèces ou des dommages de masse nécessite un engagement sérieux dans cette conversation et la reconnaissance du fait que les « études de cas » qui peuvent être considérées comme « locales » ont non seulement un impact énorme sur les personnes impliquées, voire leur survie, mais sont également éclairantes et génératives pour la construction de cadres de raisonnement qui intègrent des algorithmes dans des contextes décisionnels réels. Dans le domaine de la justice pénale, par exemple, les algorithmes peuvent réussir à réduire la population carcérale totale, mais ils ne peuvent pas s’attaquer aux disparités raciales. Dans le domaine de la santé, les algorithmes peuvent théoriquement améliorer la prise de décision des cliniciens, mais dans la pratique, la structure organisationnelle qui influence le déploiement de l’IA est très complexe.
Les défis techniques existent certainement, mais se concentrer sur les décisions techniques ignore ces questions de haut niveau. Dans le monde universitaire, il n’y a pas seulement l’économie, le choix social et les sciences politiques, mais aussi un large éventail de disciplines telles que l’histoire, la sociologie, les études de genre, les études raciales, les études noires, etc., qui fournissent un cadre de raisonnement sur ce qui constitue une gouvernance efficace, ce qui est une prise de décision décentralisée pour le bien collectif et ce qui constitue une véritable participation à la sphère publique, tandis que ceux qui sont au pouvoir ne considèrent que certaines contributions légitimes. Des actions individuelles aux politiques macroéconomiques, les organisations de la société civile et les groupes de militants ont des décennies, voire des siècles d’expérience collective et se sont efforcés d’apporter des changements substantiels à tous les niveaux.
Les enjeux des progrès de l’IA ne sont donc pas seulement les capacités techniques et le fait qu’elles dépassent le seuil de l’imagination arbitraire. Ils portent également sur la façon dont nous, en tant que grand public, parlons, écrivons et pensons à l’IA; Ils concernent également la façon dont nous choisissons d’allouer notre temps, notre attention et notre capital. Le dernier modèle est vraiment remarquable, et l’étude d’alignement explore également des questions techniques vraiment fascinantes. Mais si nous sommes vraiment préoccupés par les catastrophes induites par l’IA, qu’elles soient existentielles ou non, nous ne pouvons pas compter sur ceux qui bénéficieront le plus d’un avenir où l’IA est largement déployée.