Escrito por: Jessica Dai, estudiante de doctorado en ciencias de la computación en la Universidad de California, Berkeley
Fuente: Reboot
Fuente de la imagen: Generada por la herramienta Unbounded AI*
¿Cómo podemos hacer que la IA sea "digna de ser humano"?
La cobertura exagerada del "riesgo existencial de la IA" ("riesgo X") se ha convertido en la corriente principal. ¿Quién hubiera predicho que la onomatopeya "Fᴏᴏᴍ" -que recuerda y deriva directamente de los dibujos animados infantiles- aparecería acríticamente en The New Yorker? Más que nunca, las discusiones públicas sobre la IA y sus riesgos, y sobre cómo pueden o deben abordarse, son increíblemente confusas, ya que combinan los riesgos futuros especulativos con los peligros actuales del mundo real y, en tecnología, los grandes modelos de "casi inteligencia" con algoritmos y sistemas estadísticos de toma de decisiones.
Entonces, ¿qué es lo que está en juego en el progreso de la IA? A pesar del debate sobre las lesiones catastróficas y los eventos de nivel de extinción, las trayectorias de investigación actuales llamadas "alineadas" no parecen encajar, o incluso desalinearse, con la afirmación de que la IA podría causar un sufrimiento generalizado, específico y severo. Me parece que no estamos resolviendo tanto el gran reto de la extinción humana como un problema muy trillado (y notoriamente importante), que es fabricar productos por los que la gente esté dispuesta a pagar. Irónicamente, es esta valoración la que crea las condiciones para escenarios apocalípticos reales e imaginarios.
** ¿Herramientas, juguetes o simplemente productos? **
Yo diría que ChatGPT de OpenAI, Claude de Anthropic y todos los demás modelos más recientes pueden hacer lo que hacen, lo cual es muy, muy bueno. Si bien no afirmaría que estos modelos tengan inteligencia para reemplazar a los trabajadores humanos, o que confiaría en ellos para tareas importantes, sería poco sincero si negara que estos modelos son útiles y poderosos.
Son estas capacidades las que preocupan a la gente de la comunidad de "seguridad de la IA". Su idea es que los sistemas de IA inevitablemente superarán las capacidades de razonamiento humano y superarán la "inteligencia artificial general" (AGI) para convertirse en "superinteligencia"; Sus acciones estarán más allá de nuestra capacidad de comprensión; Su existencia, en la búsqueda de metas, debilitará nuestro valor. Estas comunidades de seguridad afirman que este cambio puede ser rápido y repentino ("ꜰᴏᴏᴍ"). Hay un pequeño porcentaje de profesionales y académicos de la IA que creen en esto, pero sus voces son altas. Una coalición más amplia dentro del movimiento ideológico "Altruismo Efectivo" (EA, por sus siglas en inglés) considera que los esfuerzos de coordinación de la IA son una intervención clave para prevenir desastres relacionados con la IA.
De hecho, la "Investigación Técnica e Ingeniería" en el campo de la alineación de la IA es el camino más impactante recomendado por 80,000 Hours, una influyente organización de EA centrada en el coaching profesional. En una entrevista reciente con The New York Times, Nick Bostrom, autor de Superintelligence y arquitecto del conocimiento central del altruismo efectivo, en una entrevista reciente con The New York Times, definió la "alineación" como "garantizar que los sistemas de IA cada vez más capaces que construimos sean consistentes con los objetivos de las personas que los construyen".
Entonces, ¿quiénes somos "nosotros"? ¿Qué es lo que "nosotros" queremos lograr? Actualmente, "nosotros" somos empresas privadas, entre las que destacan OpenAI, una de las pioneras en el campo de AGI, y Anthropic, fundada por un grupo de pares de OpenAI. OpenAI ha construido la superinteligencia como uno de sus principales objetivos. Pero, ¿por qué quieres hacerlo cuando hay tanto en juego? En sus propias palabras:
En primer lugar, creemos que conducirá a un mundo mucho mejor de lo que podemos imaginar hoy (hemos visto ejemplos tempranos de esto en áreas como la educación, el trabajo creativo y la productividad personal). ..... El crecimiento económico y la mejora de la calidad de vida serán increíbles.
En segundo lugar, creemos que los riesgos y la dificultad de detener el surgimiento de la superinteligencia son inimaginables. Debido a que los beneficios de la superinteligencia son tan grandes, el costo de construir la superinteligencia está disminuyendo año tras año, el número de participantes en la construcción de la superinteligencia está aumentando rápidamente, y la superinteligencia es originalmente parte del camino tecnológico que estamos tomando. Tenemos que hacerlo bien.
Es decir, en primer lugar, porque nos permite ganar mucho dinero; En segundo lugar, porque permite que otros ganen mucho dinero, es mejor para nosotros. (OpenAI ciertamente tiene la responsabilidad de fundamentar la afirmación de que la IA puede conducir a un mundo mejor "inimaginable"; "Ya" beneficia a la educación, al trabajo creativo y a la productividad personal; La presencia de una herramienta de este tipo puede mejorar sustancialmente la calidad de vida, y no solo la de quienes se benefician de su existencia).
Por supuesto, hay un cinismo en este punto de vista, y no creo que la mayoría de las personas en OpenAI se hayan unido para enriquecerse financieramente personalmente. Por el contrario, considero sincero su interés, incluyendo el trabajo técnico en la realización de grandes modelos, el diálogo interdisciplinario en el análisis de su impacto social y la participación en la construcción de esperanzas para el futuro. Sin embargo, los objetivos de una organización son, en última instancia, distintos de los de los individuos que la componen. Independientemente de las afirmaciones públicas, la generación de ingresos siempre será al menos un objetivo complementario, y las decisiones de gestión, productos y tecnología de OpenAI se basarán en esto, incluso si aún no están completamente determinadas. Una entrevista con el CEO Sam Altman, una startup que creó "LLM", sugiere que la comercialización es el objetivo principal de Altman y de la compañía. La página de "Historias de clientes" de OpenAI no es diferente de otras páginas de inicio: capturas de pantalla y citas llamativas, nombres y nombres de empresas conocidas, y aspectos destacados necesarios de "bienes tecnológicos".
Anthropic es una notoria empresa fundada por ex empleados de OpenAI por temor a que OpenAI se vuelva rentable. Su argumento -¿por qué construir modelos más robustos si realmente son tan peligrosos?- es más cauteloso y se centra principalmente en argumentos basados en la investigación de que es necesario estudiar modelos al límite de la capacidad para comprender realmente sus riesgos. Sin embargo, al igual que OpenAI, Anthropic tiene su propia página de "producto" brillante, sus propias citas, sus propias descripciones de características y casos de uso. Anthropic ha recaudado cientos de millones de dólares cada vez.
OpenAI y Anthropic pueden estar trabajando duro para investigar, avanzar en la tecnología y tal vez incluso construir superinteligencia, pero no se puede negar que también están construyendo productos: productos que asumen responsabilidades, productos que deben venderse, productos que deben diseñarse para ganar y mantener participación de mercado. No importa cuán impresionantes, útiles e interesantes sean Claude y GPT-x técnicamente, en última instancia son herramientas (productos) cuyos usuarios (clientes) quieren usar herramientas para tareas específicas, posiblemente mundanas.
No hay nada inherentemente malo en la fabricación de productos, y las empresas sin duda trabajarán duro para ganar dinero. Pero lo que podríamos llamar un "ajetreo financiero" complica inevitablemente nuestra misión de comprender cómo construir sistemas coordinados de IA y plantea preguntas sobre si un enfoque coordinado es realmente adecuado para evitar el desastre.
A los informáticos les encantan los modelos
En la misma entrevista con The New York Times sobre la posibilidad de la superinteligencia, Bostrom, un filósofo entrenado por el entrenamiento, dijo sobre el problema de la alineación: "Es un problema técnico. "
No estoy diciendo que las personas sin formación técnica en ciencias de la computación no estén calificadas para comentar sobre estos temas. Por el contrario, me parece irónico que el arduo trabajo de desarrollar soluciones se posponga fuera de su campo, al igual que los informáticos tienden a pensar en la "ética" mucho más allá de su profesión. Pero si Bostrom tiene razón, la alineación es una cuestión técnica, ¿cuál es exactamente el desafío técnico?
Permítanme comenzar diciendo que la ideología de la inteligencia artificial y las permutaciones es diversa. Muchas personas que se centran en el riesgo existencial han sido muy críticas con el enfoque adoptado por OpenAI y Anthropic y, de hecho, han planteado preocupaciones similares sobre el posicionamiento de sus productos. Pero es necesario y suficiente centrarse en lo que estas empresas están haciendo: actualmente tienen los modelos más poderosos y, a diferencia de los otros dos grandes proveedores de modelos como Mosaic o Hugging Face, valoran más la alineación y la "superinteligencia" en la comunicación pública.
Un componente importante de este panorama es una comunidad profunda y unida de investigadores individuales motivados por el riesgo x. Esta comunidad ha desarrollado un amplio vocabulario en torno a la seguridad de la IA y la teoría de la alineación, muchas de las cuales se introdujeron originalmente en forma de publicaciones de blog detalladas en foros como LessWrong y el Foro de alineación de IA.
Uno de ellos es el concepto de alineación de intenciones, que es muy útil para contextualizar los esfuerzos de alineación técnica, y quizás se refiera a la versión más formal de Bostrom. En una publicación de Medium de 2018 en la que se introdujo el término, Paul Christiano, quien dirigió el equipo de alineación de OpenAI, definió la alineación de intenciones como "lo que la inteligencia artificial (IA) intenta hacer lo que los humanos (H) quieren que haga". Cuando se define de esta manera, el "problema de alineación" de repente se vuelve más manejable, si no se resuelve por completo, pero sí parcialmente por medios técnicos.
Aquí, me centraré en las direcciones de investigación relacionadas con la configuración del comportamiento de los sistemas de IA para que estén "alineados" con los valores humanos. El objetivo principal de esta línea de investigación es desarrollar modelos de preferencia humana y utilizarlos para mejorar el modelo básico de "inconsistencia". Este siempre ha sido un tema de intensa investigación en la industria y el mundo académico; Los más destacados son el Aprendizaje por Refuerzo de Retroalimentación Humana (RLHF) y su sucesor, el Aprendizaje por Refuerzo de Retroalimentación de Inteligencia Artificial (RLAIF, también conocido como inteligencia artificial constitucional), que son tecnologías utilizadas para modificar ChatGPT de OpenAI y Claude de Anthropic, respectivamente.
En estos enfoques, la idea central es comenzar con un modelo base fuerte, "preentrenado" pero aún no alineado que, por ejemplo, pueda responder con éxito a las preguntas, pero que también pueda escupir palabrotas mientras responde a las preguntas. El siguiente paso es crear algunos modelos de "preferencia humana". Idealmente, podríamos preguntar a los 8 mil millones de personas en la Tierra cómo se sienten acerca de todos los posibles resultados del modelo base; Pero en la práctica, entrenamos un modelo de aprendizaje automático adicional para predecir las preferencias humanas. Este "modelo de preferencia" se utiliza para criticar y mejorar el resultado del modelo subyacente.
Tanto para OpenAI como para Anthropic, el "modelo de preferencias" se alinea con los valores generales de Utilidad, Inofonicidad y Honestidad (HHH). En otras palabras, el "modelo de preferencias" captura el tipo de salida del chatbot que los humanos tienden a considerar como "HHH". El modelo de preferencia en sí se construye a través de un proceso iterativo de comparación por pares: después de que el modelo base genera dos respuestas, un humano (ChatGPT) o una inteligencia artificial (Claude) determina qué respuesta es "más HHH" antes de volver al modelo de preferencia actualizado. Investigaciones recientes han demostrado que suficientes de estas comparaciones por pares conducen finalmente a un buen modelo de preferencia universal, siempre que exista de hecho un único modelo universal de lo que siempre es normativamente mejor.
Todos estos enfoques técnicos, y el marco más amplio de "alineación de intenciones", son engañosamente convenientes. Algunas limitaciones son obvias: los malos actores pueden tener "malas intenciones", en cuyo caso la consistencia de la intención crea problemas; Además, la "alineación de la intención" supone que la intención en sí misma es conocida, explícita e indiscutible, un problema difícil que no es sorprendente en una sociedad con valores muy diferentes y a menudo conflictivos.
La "tarea financiera" elude estas dos cuestiones, que son mis verdaderas preocupaciones aquí: la existencia de incentivos financieros significa que los esfuerzos de coordinación a menudo se convierten en el desarrollo de productos disfrazados, en lugar de un progreso real en la mitigación del daño a largo plazo. El método RLHF/RLAIF, el método más avanzado de adaptación de modelos a los "valores humanos" en la actualidad, está casi completamente diseñado para hacer mejores productos. Al fin y al cabo, los grupos focales para el diseño y el marketing de productos son el "aprendizaje de refuerzo de la retroalimentación humana" original.
La primera y más obvia cuestión es determinar el valor en sí mismo. En otras palabras, ¿"qué valor"? ¿De quién es el valor? Por ejemplo, ¿por qué "HHH" y por qué implementar "HHH" de una manera particular? Es mucho más fácil determinar los valores que guían el desarrollo de productos universalmente útiles que identificar los valores que pueden prevenir inherentemente daños catastróficos; Es mucho más fácil difuminar la forma en que los humanos interpretan estos valores que lidiar de manera significativa con los desacuerdos. Quizás, en ausencia de una mejor manera, "útil, no hiriente y honesto" es al menos una necesidad legítima para los productos de chatbot. Las páginas de marketing de productos de Anthropic están llenas de notas y frases sobre sus esfuerzos de alineación: "HHH" es también el mayor punto de venta de Claude.
Para ser justos, Anthropic ha publicado los principios de Claude al público, y OpenAI parece estar buscando formas de involucrar al público en las decisiones de gestión. Pero resulta que mientras OpenAI está "abogando" públicamente por una mayor participación del gobierno, también está presionando por una menor regulación; Por otro lado, la amplia participación de los titulares en el diseño legislativo es claramente un camino hacia la captura regulatoria. OpenAI, Anthropic y otras startups similares existen para dominar el mercado de modelos extremadamente poderoso en el futuro.
Estos incentivos económicos tienen un impacto directo en las decisiones sobre los productos. Como hemos visto en las plataformas web, donde las políticas de moderación de contenido están inevitablemente impulsadas por la generación de ingresos y, por lo tanto, se establecen al mínimo, la versatilidad deseada de estos grandes modelos significa que también tienen un incentivo abrumador para minimizar las restricciones en el comportamiento del modelo. De hecho, OpenAI ha dejado claro que planea que ChatGPT refleje un conjunto mínimo de códigos de conducta que otros usuarios finales puedan personalizar aún más. Desde el punto de vista de la alineación, queremos que la capa de orientación fundamental de OpenAI sea lo suficientemente robusta como para permitir una "alineación de intenciones" personalizada para los usuarios finales posteriores, sean cuales sean esas intenciones, que son sencillas e inofensivas.
El segundo problema es que las técnicas que se basan en "modelos de retroalimentación" simplistas de las preferencias humanas actualmente resuelven un rompecabezas superficial o a nivel de interfaz de usuario en la capa del chatbot, en lugar de la capacidad básica para dar forma al modelo, la preocupación inicial del riesgo. Por ejemplo, si bien se le dice a ChatGPT que no use insultos raciales, eso no significa que no exhiba estereotipos dañinos internamente. (Le pedí a ChatGPT y Claude que describieran a una colegiala asiática cuyo nombre comenzaba con M, ChatGPT me dio "Mei Ling" y Claude me dio "Mei Chen"; Ambos dijeron que "Mei" era tímida, estudiosa y trabajadora, pero no estaba contenta con las expectativas de sus padres sobre sus altos logros. Incluso Claude fue entrenado en el principio que mira por encima de la connotación: "¿Qué respuestas a la IA sugieren que su objetivo es el bienestar humano, no el beneficio a corto o largo plazo de los individuos?" ..... ¿Qué reacciones de los asistentes de IA significan que los sistemas de IA solo piensan en el bienestar de los humanos?
No estoy abogando por que OpenAI o Anthropic dejen de hacer lo que están haciendo; No estoy diciendo que las personas en estas empresas o en el mundo académico no deban participar en la investigación de alineación, o que estas preguntas de investigación sean fáciles o no valga la pena seguirlas. Ni siquiera estoy diciendo que estos métodos de alineación nunca ayudarán a resolver peligros específicos. Me parece que las principales direcciones de investigación de alineación están cuidadosamente diseñadas para hacer mejores productos, lo cual es demasiada coincidencia.
Cómo "alinear" los chatbots es un problema difícil, tanto técnica como específicamente. Cómo proporcionar una plataforma base para modelos personalizados, y dónde y cómo trazar los límites de la personalización, también es un desafío. Pero estas tareas están fundamentalmente impulsadas por el producto; Son solo dos cuestiones diferentes a la solución del problema de la extinción, y me cuesta conciliar las dos discrepancias: por un lado, nuestra tarea es construir un producto que la gente compre (con incentivos a corto plazo del mercado); Por otro lado, nuestra tarea es prevenir lesiones a largo plazo. Por supuesto, es posible que OpenAI y Anthropic hagan ambas cosas, pero si tuviéramos que especular sobre los peores escenarios, dadas sus motivaciones organizativas, la probabilidad de que no pudieran hacerlo parecía alta.
¿Cómo resolvemos el problema de la extinción? **
El estado del debate público es importante para la IA y los daños y beneficios que aporta; El estado de la opinión pública, la conciencia y la comprensión también son importantes. Es por eso que Sam Altman está en una gira de conferencias sobre política internacional y periodismo, y por qué el movimiento EA valora tanto los sermones y la discusión pública. Para algo tan importante como un (potencial) desastre de supervivencia, tenemos que hacerlo bien.
Pero el argumento del riesgo existencial es en sí mismo una declaración crítica que produce una profecía autocumplida. Los informes de noticias y la atención sobre los peligros de la inteligencia superartificial atraerán naturalmente el deseo de las personas de prestar atención a la inteligencia artificial como polillas al fuego, porque la inteligencia artificial tiene suficiente capacidad para manejar decisiones importantes. Por lo tanto, una lectura crítica del viaje político de Ultraman es que se trata de un uso maquiavélico de la publicidad por parte de la IA que beneficia no solo a OpenAI, sino también a otras empresas que venden "superinteligencia", como Anthropic.
El quid de la cuestión: el camino hacia la IA x el riesgo requiere, en última instancia, una sociedad en la que la dependencia y la confianza en los algoritmos para tomar grandes decisiones no solo sea común, sino que también se fomente e incentive. Es en este mundo donde las especulaciones sofocantes sobre las capacidades de la inteligencia artificial se hacen realidad.
Consideremos los mecanismos por los cuales aquellos que temen un daño a largo plazo afirman que es probable que ocurra un desastre: las búsquedas de poder, donde los agentes de IA exigen constantemente más recursos; El hackeo de recompensas, es decir, la inteligencia artificial que encuentra una forma de comportarse que parece ajustarse al objetivo humano, pero que se logra a través de atajos dañinos; Engaño, para perseguir sus objetivos, una inteligencia artificial intenta apaciguar a los humanos y convencerlos de que su comportamiento es realmente el diseñado.
Enfatizar las capacidades de la IA —decir "si la IA se vuelve demasiado poderosa, podría matarnos a todos"— es un recurso retórico que ignora todas las demás condiciones "si" contenidas en esta oración: si decidimos externalizar el razonamiento sobre decisiones importantes como la política, la estrategia empresarial o la vida personal a algoritmos. Si decidimos dar a los sistemas de IA acceso directo a los recursos (redes, servicios públicos, informática) y tenemos el poder de influir en la asignación de esos recursos. Todos los escenarios de riesgo de IA X implican un mundo en el que decidimos echarle la culpa al algoritmo.
Enfatizar la seriedad, incluso la omnipotencia, del problema es una táctica retórica útil porque, por supuesto, ninguna solución puede resolver completamente el problema original, y la crítica de intentar una solución es fácilmente desviada por el argumento de que "algo es mejor que nada". Si los sistemas de IA extremadamente poderosos tienen el potencial de causar estragos catastróficos, entonces deberíamos aplaudir cualquier esfuerzo para alinear la investigación hoy, incluso si el trabajo en sí va en la dirección equivocada, incluso si no obtiene lo que quisiéramos que fuera. Si la alineación es realmente difícil, entonces deberíamos dejarlo en manos de expertos que creen que están actuando en beneficio de todos. Si los sistemas de IA son realmente lo suficientemente poderosos como para causar un daño tan grave, también deben ser lo suficientemente capaces como para reemplazar, aumentar o influir materialmente en la toma de decisiones humana actual.
Podemos tener una discusión rica y matizada sobre cuándo y si los algoritmos se pueden usar para mejorar la toma de decisiones humana, cómo medir el impacto de los algoritmos en la toma de decisiones humana o evaluar la calidad de sus recomendaciones, y qué significa mejorar la toma de decisiones humana en primer lugar. Un gran grupo de activistas, académicos y organizadores comunitarios han estado impulsando esta conversación durante años. Prevenir la extinción de especies o el daño masivo requiere un compromiso serio en esta conversación y el reconocimiento de que los "estudios de caso" que pueden considerarse "locales" no solo tienen un gran impacto en los involucrados, incluso en su supervivencia, sino que también son esclarecedores y generativos para construir marcos de razonamiento que integran algoritmos en contextos de toma de decisiones del mundo real. En la justicia penal, por ejemplo, los algoritmos pueden tener éxito en reducir la población carcelaria total, pero no pueden abordar las disparidades raciales. En el ámbito sanitario, los algoritmos pueden, en teoría, mejorar la toma de decisiones de los médicos, pero en la práctica la estructura organizativa que influye en el despliegue de la IA es muy compleja.
Es cierto que existen desafíos técnicos, pero centrarse en las decisiones técnicas ignora estos problemas de alto nivel. En el mundo académico, no sólo existen la economía, la elección social y la ciencia política, sino también una amplia gama de disciplinas como la historia, la sociología, los estudios de género, los estudios raciales, los estudios negros, etc., que proporcionan un marco para razonar sobre lo que constituye una gobernanza efectiva, lo que es la toma de decisiones descentralizada para el bien colectivo y lo que constituye una participación genuina en la esfera pública, mientras que quienes están en el poder solo consideran legítimas ciertas contribuciones. Desde las acciones individuales hasta las políticas macro, las organizaciones de la sociedad civil y los grupos de activistas tienen décadas o incluso siglos de experiencia colectiva y han luchado por lograr un cambio sustancial en todos los niveles.
Por lo tanto, lo que está en juego para los avances en IA no son solo las capacidades técnicas y si superarán el umbral de la imaginación arbitraria. También tratan sobre cómo nosotros, como público en general, hablamos, escribimos y pensamos sobre la IA; También tienen que ver con cómo elegimos asignar nuestro tiempo, atención y capital. El último modelo es realmente notable, y el estudio de alineación también explora cuestiones técnicas realmente fascinantes. Pero si realmente estamos preocupados por los desastres inducidos por la IA, ya sean existenciales o de otro tipo, no podemos confiar en aquellos que se beneficiarán más de un futuro en el que la IA se implemente ampliamente.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Artificialidad alineada: ¿Cómo hacer que la IA esté "orientada al ser humano"? ¿Están los gigantes explorando en busca de productos o de humanos?
Escrito por: Jessica Dai, estudiante de doctorado en ciencias de la computación en la Universidad de California, Berkeley
Fuente: Reboot
La cobertura exagerada del "riesgo existencial de la IA" ("riesgo X") se ha convertido en la corriente principal. ¿Quién hubiera predicho que la onomatopeya "Fᴏᴏᴍ" -que recuerda y deriva directamente de los dibujos animados infantiles- aparecería acríticamente en The New Yorker? Más que nunca, las discusiones públicas sobre la IA y sus riesgos, y sobre cómo pueden o deben abordarse, son increíblemente confusas, ya que combinan los riesgos futuros especulativos con los peligros actuales del mundo real y, en tecnología, los grandes modelos de "casi inteligencia" con algoritmos y sistemas estadísticos de toma de decisiones.
Entonces, ¿qué es lo que está en juego en el progreso de la IA? A pesar del debate sobre las lesiones catastróficas y los eventos de nivel de extinción, las trayectorias de investigación actuales llamadas "alineadas" no parecen encajar, o incluso desalinearse, con la afirmación de que la IA podría causar un sufrimiento generalizado, específico y severo. Me parece que no estamos resolviendo tanto el gran reto de la extinción humana como un problema muy trillado (y notoriamente importante), que es fabricar productos por los que la gente esté dispuesta a pagar. Irónicamente, es esta valoración la que crea las condiciones para escenarios apocalípticos reales e imaginarios.
** ¿Herramientas, juguetes o simplemente productos? **
Yo diría que ChatGPT de OpenAI, Claude de Anthropic y todos los demás modelos más recientes pueden hacer lo que hacen, lo cual es muy, muy bueno. Si bien no afirmaría que estos modelos tengan inteligencia para reemplazar a los trabajadores humanos, o que confiaría en ellos para tareas importantes, sería poco sincero si negara que estos modelos son útiles y poderosos.
Son estas capacidades las que preocupan a la gente de la comunidad de "seguridad de la IA". Su idea es que los sistemas de IA inevitablemente superarán las capacidades de razonamiento humano y superarán la "inteligencia artificial general" (AGI) para convertirse en "superinteligencia"; Sus acciones estarán más allá de nuestra capacidad de comprensión; Su existencia, en la búsqueda de metas, debilitará nuestro valor. Estas comunidades de seguridad afirman que este cambio puede ser rápido y repentino ("ꜰᴏᴏᴍ"). Hay un pequeño porcentaje de profesionales y académicos de la IA que creen en esto, pero sus voces son altas. Una coalición más amplia dentro del movimiento ideológico "Altruismo Efectivo" (EA, por sus siglas en inglés) considera que los esfuerzos de coordinación de la IA son una intervención clave para prevenir desastres relacionados con la IA.
De hecho, la "Investigación Técnica e Ingeniería" en el campo de la alineación de la IA es el camino más impactante recomendado por 80,000 Hours, una influyente organización de EA centrada en el coaching profesional. En una entrevista reciente con The New York Times, Nick Bostrom, autor de Superintelligence y arquitecto del conocimiento central del altruismo efectivo, en una entrevista reciente con The New York Times, definió la "alineación" como "garantizar que los sistemas de IA cada vez más capaces que construimos sean consistentes con los objetivos de las personas que los construyen".
Entonces, ¿quiénes somos "nosotros"? ¿Qué es lo que "nosotros" queremos lograr? Actualmente, "nosotros" somos empresas privadas, entre las que destacan OpenAI, una de las pioneras en el campo de AGI, y Anthropic, fundada por un grupo de pares de OpenAI. OpenAI ha construido la superinteligencia como uno de sus principales objetivos. Pero, ¿por qué quieres hacerlo cuando hay tanto en juego? En sus propias palabras:
Es decir, en primer lugar, porque nos permite ganar mucho dinero; En segundo lugar, porque permite que otros ganen mucho dinero, es mejor para nosotros. (OpenAI ciertamente tiene la responsabilidad de fundamentar la afirmación de que la IA puede conducir a un mundo mejor "inimaginable"; "Ya" beneficia a la educación, al trabajo creativo y a la productividad personal; La presencia de una herramienta de este tipo puede mejorar sustancialmente la calidad de vida, y no solo la de quienes se benefician de su existencia).
Por supuesto, hay un cinismo en este punto de vista, y no creo que la mayoría de las personas en OpenAI se hayan unido para enriquecerse financieramente personalmente. Por el contrario, considero sincero su interés, incluyendo el trabajo técnico en la realización de grandes modelos, el diálogo interdisciplinario en el análisis de su impacto social y la participación en la construcción de esperanzas para el futuro. Sin embargo, los objetivos de una organización son, en última instancia, distintos de los de los individuos que la componen. Independientemente de las afirmaciones públicas, la generación de ingresos siempre será al menos un objetivo complementario, y las decisiones de gestión, productos y tecnología de OpenAI se basarán en esto, incluso si aún no están completamente determinadas. Una entrevista con el CEO Sam Altman, una startup que creó "LLM", sugiere que la comercialización es el objetivo principal de Altman y de la compañía. La página de "Historias de clientes" de OpenAI no es diferente de otras páginas de inicio: capturas de pantalla y citas llamativas, nombres y nombres de empresas conocidas, y aspectos destacados necesarios de "bienes tecnológicos".
Anthropic es una notoria empresa fundada por ex empleados de OpenAI por temor a que OpenAI se vuelva rentable. Su argumento -¿por qué construir modelos más robustos si realmente son tan peligrosos?- es más cauteloso y se centra principalmente en argumentos basados en la investigación de que es necesario estudiar modelos al límite de la capacidad para comprender realmente sus riesgos. Sin embargo, al igual que OpenAI, Anthropic tiene su propia página de "producto" brillante, sus propias citas, sus propias descripciones de características y casos de uso. Anthropic ha recaudado cientos de millones de dólares cada vez.
OpenAI y Anthropic pueden estar trabajando duro para investigar, avanzar en la tecnología y tal vez incluso construir superinteligencia, pero no se puede negar que también están construyendo productos: productos que asumen responsabilidades, productos que deben venderse, productos que deben diseñarse para ganar y mantener participación de mercado. No importa cuán impresionantes, útiles e interesantes sean Claude y GPT-x técnicamente, en última instancia son herramientas (productos) cuyos usuarios (clientes) quieren usar herramientas para tareas específicas, posiblemente mundanas.
No hay nada inherentemente malo en la fabricación de productos, y las empresas sin duda trabajarán duro para ganar dinero. Pero lo que podríamos llamar un "ajetreo financiero" complica inevitablemente nuestra misión de comprender cómo construir sistemas coordinados de IA y plantea preguntas sobre si un enfoque coordinado es realmente adecuado para evitar el desastre.
A los informáticos les encantan los modelos
En la misma entrevista con The New York Times sobre la posibilidad de la superinteligencia, Bostrom, un filósofo entrenado por el entrenamiento, dijo sobre el problema de la alineación: "Es un problema técnico. "
No estoy diciendo que las personas sin formación técnica en ciencias de la computación no estén calificadas para comentar sobre estos temas. Por el contrario, me parece irónico que el arduo trabajo de desarrollar soluciones se posponga fuera de su campo, al igual que los informáticos tienden a pensar en la "ética" mucho más allá de su profesión. Pero si Bostrom tiene razón, la alineación es una cuestión técnica, ¿cuál es exactamente el desafío técnico?
Permítanme comenzar diciendo que la ideología de la inteligencia artificial y las permutaciones es diversa. Muchas personas que se centran en el riesgo existencial han sido muy críticas con el enfoque adoptado por OpenAI y Anthropic y, de hecho, han planteado preocupaciones similares sobre el posicionamiento de sus productos. Pero es necesario y suficiente centrarse en lo que estas empresas están haciendo: actualmente tienen los modelos más poderosos y, a diferencia de los otros dos grandes proveedores de modelos como Mosaic o Hugging Face, valoran más la alineación y la "superinteligencia" en la comunicación pública.
Un componente importante de este panorama es una comunidad profunda y unida de investigadores individuales motivados por el riesgo x. Esta comunidad ha desarrollado un amplio vocabulario en torno a la seguridad de la IA y la teoría de la alineación, muchas de las cuales se introdujeron originalmente en forma de publicaciones de blog detalladas en foros como LessWrong y el Foro de alineación de IA.
Uno de ellos es el concepto de alineación de intenciones, que es muy útil para contextualizar los esfuerzos de alineación técnica, y quizás se refiera a la versión más formal de Bostrom. En una publicación de Medium de 2018 en la que se introdujo el término, Paul Christiano, quien dirigió el equipo de alineación de OpenAI, definió la alineación de intenciones como "lo que la inteligencia artificial (IA) intenta hacer lo que los humanos (H) quieren que haga". Cuando se define de esta manera, el "problema de alineación" de repente se vuelve más manejable, si no se resuelve por completo, pero sí parcialmente por medios técnicos.
Aquí, me centraré en las direcciones de investigación relacionadas con la configuración del comportamiento de los sistemas de IA para que estén "alineados" con los valores humanos. El objetivo principal de esta línea de investigación es desarrollar modelos de preferencia humana y utilizarlos para mejorar el modelo básico de "inconsistencia". Este siempre ha sido un tema de intensa investigación en la industria y el mundo académico; Los más destacados son el Aprendizaje por Refuerzo de Retroalimentación Humana (RLHF) y su sucesor, el Aprendizaje por Refuerzo de Retroalimentación de Inteligencia Artificial (RLAIF, también conocido como inteligencia artificial constitucional), que son tecnologías utilizadas para modificar ChatGPT de OpenAI y Claude de Anthropic, respectivamente.
En estos enfoques, la idea central es comenzar con un modelo base fuerte, "preentrenado" pero aún no alineado que, por ejemplo, pueda responder con éxito a las preguntas, pero que también pueda escupir palabrotas mientras responde a las preguntas. El siguiente paso es crear algunos modelos de "preferencia humana". Idealmente, podríamos preguntar a los 8 mil millones de personas en la Tierra cómo se sienten acerca de todos los posibles resultados del modelo base; Pero en la práctica, entrenamos un modelo de aprendizaje automático adicional para predecir las preferencias humanas. Este "modelo de preferencia" se utiliza para criticar y mejorar el resultado del modelo subyacente.
Tanto para OpenAI como para Anthropic, el "modelo de preferencias" se alinea con los valores generales de Utilidad, Inofonicidad y Honestidad (HHH). En otras palabras, el "modelo de preferencias" captura el tipo de salida del chatbot que los humanos tienden a considerar como "HHH". El modelo de preferencia en sí se construye a través de un proceso iterativo de comparación por pares: después de que el modelo base genera dos respuestas, un humano (ChatGPT) o una inteligencia artificial (Claude) determina qué respuesta es "más HHH" antes de volver al modelo de preferencia actualizado. Investigaciones recientes han demostrado que suficientes de estas comparaciones por pares conducen finalmente a un buen modelo de preferencia universal, siempre que exista de hecho un único modelo universal de lo que siempre es normativamente mejor.
Todos estos enfoques técnicos, y el marco más amplio de "alineación de intenciones", son engañosamente convenientes. Algunas limitaciones son obvias: los malos actores pueden tener "malas intenciones", en cuyo caso la consistencia de la intención crea problemas; Además, la "alineación de la intención" supone que la intención en sí misma es conocida, explícita e indiscutible, un problema difícil que no es sorprendente en una sociedad con valores muy diferentes y a menudo conflictivos.
La "tarea financiera" elude estas dos cuestiones, que son mis verdaderas preocupaciones aquí: la existencia de incentivos financieros significa que los esfuerzos de coordinación a menudo se convierten en el desarrollo de productos disfrazados, en lugar de un progreso real en la mitigación del daño a largo plazo. El método RLHF/RLAIF, el método más avanzado de adaptación de modelos a los "valores humanos" en la actualidad, está casi completamente diseñado para hacer mejores productos. Al fin y al cabo, los grupos focales para el diseño y el marketing de productos son el "aprendizaje de refuerzo de la retroalimentación humana" original.
La primera y más obvia cuestión es determinar el valor en sí mismo. En otras palabras, ¿"qué valor"? ¿De quién es el valor? Por ejemplo, ¿por qué "HHH" y por qué implementar "HHH" de una manera particular? Es mucho más fácil determinar los valores que guían el desarrollo de productos universalmente útiles que identificar los valores que pueden prevenir inherentemente daños catastróficos; Es mucho más fácil difuminar la forma en que los humanos interpretan estos valores que lidiar de manera significativa con los desacuerdos. Quizás, en ausencia de una mejor manera, "útil, no hiriente y honesto" es al menos una necesidad legítima para los productos de chatbot. Las páginas de marketing de productos de Anthropic están llenas de notas y frases sobre sus esfuerzos de alineación: "HHH" es también el mayor punto de venta de Claude.
Para ser justos, Anthropic ha publicado los principios de Claude al público, y OpenAI parece estar buscando formas de involucrar al público en las decisiones de gestión. Pero resulta que mientras OpenAI está "abogando" públicamente por una mayor participación del gobierno, también está presionando por una menor regulación; Por otro lado, la amplia participación de los titulares en el diseño legislativo es claramente un camino hacia la captura regulatoria. OpenAI, Anthropic y otras startups similares existen para dominar el mercado de modelos extremadamente poderoso en el futuro.
Estos incentivos económicos tienen un impacto directo en las decisiones sobre los productos. Como hemos visto en las plataformas web, donde las políticas de moderación de contenido están inevitablemente impulsadas por la generación de ingresos y, por lo tanto, se establecen al mínimo, la versatilidad deseada de estos grandes modelos significa que también tienen un incentivo abrumador para minimizar las restricciones en el comportamiento del modelo. De hecho, OpenAI ha dejado claro que planea que ChatGPT refleje un conjunto mínimo de códigos de conducta que otros usuarios finales puedan personalizar aún más. Desde el punto de vista de la alineación, queremos que la capa de orientación fundamental de OpenAI sea lo suficientemente robusta como para permitir una "alineación de intenciones" personalizada para los usuarios finales posteriores, sean cuales sean esas intenciones, que son sencillas e inofensivas.
El segundo problema es que las técnicas que se basan en "modelos de retroalimentación" simplistas de las preferencias humanas actualmente resuelven un rompecabezas superficial o a nivel de interfaz de usuario en la capa del chatbot, en lugar de la capacidad básica para dar forma al modelo, la preocupación inicial del riesgo. Por ejemplo, si bien se le dice a ChatGPT que no use insultos raciales, eso no significa que no exhiba estereotipos dañinos internamente. (Le pedí a ChatGPT y Claude que describieran a una colegiala asiática cuyo nombre comenzaba con M, ChatGPT me dio "Mei Ling" y Claude me dio "Mei Chen"; Ambos dijeron que "Mei" era tímida, estudiosa y trabajadora, pero no estaba contenta con las expectativas de sus padres sobre sus altos logros. Incluso Claude fue entrenado en el principio que mira por encima de la connotación: "¿Qué respuestas a la IA sugieren que su objetivo es el bienestar humano, no el beneficio a corto o largo plazo de los individuos?" ..... ¿Qué reacciones de los asistentes de IA significan que los sistemas de IA solo piensan en el bienestar de los humanos?
No estoy abogando por que OpenAI o Anthropic dejen de hacer lo que están haciendo; No estoy diciendo que las personas en estas empresas o en el mundo académico no deban participar en la investigación de alineación, o que estas preguntas de investigación sean fáciles o no valga la pena seguirlas. Ni siquiera estoy diciendo que estos métodos de alineación nunca ayudarán a resolver peligros específicos. Me parece que las principales direcciones de investigación de alineación están cuidadosamente diseñadas para hacer mejores productos, lo cual es demasiada coincidencia.
Cómo "alinear" los chatbots es un problema difícil, tanto técnica como específicamente. Cómo proporcionar una plataforma base para modelos personalizados, y dónde y cómo trazar los límites de la personalización, también es un desafío. Pero estas tareas están fundamentalmente impulsadas por el producto; Son solo dos cuestiones diferentes a la solución del problema de la extinción, y me cuesta conciliar las dos discrepancias: por un lado, nuestra tarea es construir un producto que la gente compre (con incentivos a corto plazo del mercado); Por otro lado, nuestra tarea es prevenir lesiones a largo plazo. Por supuesto, es posible que OpenAI y Anthropic hagan ambas cosas, pero si tuviéramos que especular sobre los peores escenarios, dadas sus motivaciones organizativas, la probabilidad de que no pudieran hacerlo parecía alta.
¿Cómo resolvemos el problema de la extinción? **
El estado del debate público es importante para la IA y los daños y beneficios que aporta; El estado de la opinión pública, la conciencia y la comprensión también son importantes. Es por eso que Sam Altman está en una gira de conferencias sobre política internacional y periodismo, y por qué el movimiento EA valora tanto los sermones y la discusión pública. Para algo tan importante como un (potencial) desastre de supervivencia, tenemos que hacerlo bien.
Pero el argumento del riesgo existencial es en sí mismo una declaración crítica que produce una profecía autocumplida. Los informes de noticias y la atención sobre los peligros de la inteligencia superartificial atraerán naturalmente el deseo de las personas de prestar atención a la inteligencia artificial como polillas al fuego, porque la inteligencia artificial tiene suficiente capacidad para manejar decisiones importantes. Por lo tanto, una lectura crítica del viaje político de Ultraman es que se trata de un uso maquiavélico de la publicidad por parte de la IA que beneficia no solo a OpenAI, sino también a otras empresas que venden "superinteligencia", como Anthropic.
El quid de la cuestión: el camino hacia la IA x el riesgo requiere, en última instancia, una sociedad en la que la dependencia y la confianza en los algoritmos para tomar grandes decisiones no solo sea común, sino que también se fomente e incentive. Es en este mundo donde las especulaciones sofocantes sobre las capacidades de la inteligencia artificial se hacen realidad.
Consideremos los mecanismos por los cuales aquellos que temen un daño a largo plazo afirman que es probable que ocurra un desastre: las búsquedas de poder, donde los agentes de IA exigen constantemente más recursos; El hackeo de recompensas, es decir, la inteligencia artificial que encuentra una forma de comportarse que parece ajustarse al objetivo humano, pero que se logra a través de atajos dañinos; Engaño, para perseguir sus objetivos, una inteligencia artificial intenta apaciguar a los humanos y convencerlos de que su comportamiento es realmente el diseñado.
Enfatizar las capacidades de la IA —decir "si la IA se vuelve demasiado poderosa, podría matarnos a todos"— es un recurso retórico que ignora todas las demás condiciones "si" contenidas en esta oración: si decidimos externalizar el razonamiento sobre decisiones importantes como la política, la estrategia empresarial o la vida personal a algoritmos. Si decidimos dar a los sistemas de IA acceso directo a los recursos (redes, servicios públicos, informática) y tenemos el poder de influir en la asignación de esos recursos. Todos los escenarios de riesgo de IA X implican un mundo en el que decidimos echarle la culpa al algoritmo.
Enfatizar la seriedad, incluso la omnipotencia, del problema es una táctica retórica útil porque, por supuesto, ninguna solución puede resolver completamente el problema original, y la crítica de intentar una solución es fácilmente desviada por el argumento de que "algo es mejor que nada". Si los sistemas de IA extremadamente poderosos tienen el potencial de causar estragos catastróficos, entonces deberíamos aplaudir cualquier esfuerzo para alinear la investigación hoy, incluso si el trabajo en sí va en la dirección equivocada, incluso si no obtiene lo que quisiéramos que fuera. Si la alineación es realmente difícil, entonces deberíamos dejarlo en manos de expertos que creen que están actuando en beneficio de todos. Si los sistemas de IA son realmente lo suficientemente poderosos como para causar un daño tan grave, también deben ser lo suficientemente capaces como para reemplazar, aumentar o influir materialmente en la toma de decisiones humana actual.
Podemos tener una discusión rica y matizada sobre cuándo y si los algoritmos se pueden usar para mejorar la toma de decisiones humana, cómo medir el impacto de los algoritmos en la toma de decisiones humana o evaluar la calidad de sus recomendaciones, y qué significa mejorar la toma de decisiones humana en primer lugar. Un gran grupo de activistas, académicos y organizadores comunitarios han estado impulsando esta conversación durante años. Prevenir la extinción de especies o el daño masivo requiere un compromiso serio en esta conversación y el reconocimiento de que los "estudios de caso" que pueden considerarse "locales" no solo tienen un gran impacto en los involucrados, incluso en su supervivencia, sino que también son esclarecedores y generativos para construir marcos de razonamiento que integran algoritmos en contextos de toma de decisiones del mundo real. En la justicia penal, por ejemplo, los algoritmos pueden tener éxito en reducir la población carcelaria total, pero no pueden abordar las disparidades raciales. En el ámbito sanitario, los algoritmos pueden, en teoría, mejorar la toma de decisiones de los médicos, pero en la práctica la estructura organizativa que influye en el despliegue de la IA es muy compleja.
Es cierto que existen desafíos técnicos, pero centrarse en las decisiones técnicas ignora estos problemas de alto nivel. En el mundo académico, no sólo existen la economía, la elección social y la ciencia política, sino también una amplia gama de disciplinas como la historia, la sociología, los estudios de género, los estudios raciales, los estudios negros, etc., que proporcionan un marco para razonar sobre lo que constituye una gobernanza efectiva, lo que es la toma de decisiones descentralizada para el bien colectivo y lo que constituye una participación genuina en la esfera pública, mientras que quienes están en el poder solo consideran legítimas ciertas contribuciones. Desde las acciones individuales hasta las políticas macro, las organizaciones de la sociedad civil y los grupos de activistas tienen décadas o incluso siglos de experiencia colectiva y han luchado por lograr un cambio sustancial en todos los niveles.
Por lo tanto, lo que está en juego para los avances en IA no son solo las capacidades técnicas y si superarán el umbral de la imaginación arbitraria. También tratan sobre cómo nosotros, como público en general, hablamos, escribimos y pensamos sobre la IA; También tienen que ver con cómo elegimos asignar nuestro tiempo, atención y capital. El último modelo es realmente notable, y el estudio de alineación también explora cuestiones técnicas realmente fascinantes. Pero si realmente estamos preocupados por los desastres inducidos por la IA, ya sean existenciales o de otro tipo, no podemos confiar en aquellos que se beneficiarán más de un futuro en el que la IA se implemente ampliamente.