Yazan: Jessica Dai, Ph.D. Kaliforniya Üniversitesi, Berkeley'de bilgisayar bilimleri öğrencisi
Kaynak: Reboot
Görüntü kaynağı: Sınırsız AI* aracı tarafından oluşturulmuştur
Yapay zekayı tam olarak nasıl "insana layık" hale getirebiliriz?
"Yapay zeka varoluşsal riskinin" ("X-risk") abartılı kapsamı ana akım haline geldi. Hem çocuk çizgi filmlerini anımsatan hem de doğrudan çocuk çizgi filmlerinden türetilen onomatopoeia "Fᴏᴏᴍ"un The New Yorker'da eleştirilmeden ortaya çıkacağını kim tahmin edebilirdi? Her zamankinden daha fazla, YZ ve riskleri ve bunların nasıl ele alınabileceği veya ele alınması gerektiği hakkındaki kamuoyu tartışmaları inanılmaz derecede kafa karıştırıcı, spekülatif gelecekteki riskleri gerçek dünyadaki günümüz tehlikeleriyle ve teknolojide algoritmalar ve istatistiksel karar verme sistemleri ile büyük "yakın zeka" modellerini birleştiriyor.
Peki, yapay zekanın ilerlemesindeki riskler nelerdir? Katastrofik yaralanmalar ve yok olma düzeyindeki olaylar konusundaki tartışmalara rağmen, mevcut sözde "hizalanmış" araştırma yörüngeleri, AI'nın yaygın, spesifik ve şiddetli acılara neden olabileceği iddiasına uymuyor - hatta yanlış hizalanmış gibi görünüyor. Bana öyle geliyor ki, insan neslinin tükenmesinin büyük zorluğunu çözdüğümüzden çok, insanların ödemeye istekli olduğu ürünler yapmak için yıpranmış (ve herkesin bildiği gibi önemli) bir sorunu çözüyoruz. İronik olarak, gerçek ve hayali kıyamet senaryolarının koşullarını yaratan bu değerlemedir.
** Aletler mi, oyuncaklar mı yoksa sadece ürünler mi? **
OpenAI'nin ChatGPT'sinin, Anthropic'in Claude'unun ve diğer tüm en yeni modellerin yaptıklarını yapabildiğini söyleyebilirim ki bu çok, çok havalı. Bu modellerin insan işçilerin yerini alacak herhangi bir zekaya sahip olduğunu veya önemli görevler için onlara güveneceğimi iddia etmesem de, bu modellerin yararlı ve güçlü olduğunu inkar etmem samimiyetsiz olur.
"AI güvenliği" topluluğundaki insanların endişelendiği bu yeteneklerdir. Onların fikri, yapay zeka sistemlerinin kaçınılmaz olarak insan akıl yürütme yeteneklerini aşacağı ve "süper zeka" olmak için "yapay genel zekayı" (AGI) aşacağıdır; Onların eylemleri bizim anlama kapasitemizin ötesinde olacaktır; Onların varlığı, hedeflerin peşinde koşarken, değerimizi zayıflatacaktır. Bu güvenlik toplulukları, bu değişimin hızlı ve ani olabileceğini iddia ediyor ("ꜰᴏᴏᴍ"). Buna inanan yapay zeka uygulayıcılarının ve akademisyenlerin küçük bir yüzdesi var, ancak sesleri yüksek. "Etkili Özgecilik" (EA) ideolojik hareketi içindeki daha geniş bir koalisyon, yapay zeka koordinasyon çabalarını yapay zeka ile ilgili felaketleri önlemek için kilit bir müdahale olarak görüyor.
Aslında, yapay zeka uyumu alanındaki "Teknik Araştırma ve Mühendislik", kariyer koçluğuna odaklanan etkili bir EA kuruluşu olan 80,000 Hours tarafından önerilen en etkili yoldur. The New York Times ile yakın zamanda yapılan bir röportajda, Superintelligence'ın yazarı ve etkili özgeciliğin temel bilgi mimarı Nick Bostrom, The New York Times ile yakın zamanda yaptığı bir röportajda, "hizalamayı" "inşa ettiğimiz giderek daha yetenekli AI sistemlerinin, onları inşa eden insanların hedefleriyle tutarlı olmasını sağlamak" olarak tanımladı.
Peki, "biz" kimiz? "Biz" neyi başarmak istiyoruz? Şu anda "biz", özellikle AGI alanındaki öncülerden biri olan OpenAI ve bir grup OpenAI akranı tarafından kurulan Anthropic olmak üzere özel şirketleriz. OpenAI, ana hedeflerinden biri olarak süper zekayı inşa etti. Ama riskler bu kadar büyükken neden bunu yapmak istiyorsun? Kendi sözleriyle:
Birincisi, bugün hayal edebileceğimizden çok daha iyi bir dünyaya yol açacağına inanıyoruz (bunun ilk örneklerini eğitim, yaratıcı çalışma ve kişisel üretkenlik gibi alanlarda gördük). ..... Ekonomik büyüme ve iyileştirilmiş yaşam kalitesi şaşırtıcı olacak.
İkincisi, süper zekanın ortaya çıkışını durdurmanın risklerinin ve zorluğunun hayal edilemez olduğuna inanıyoruz. Süper zekanın faydaları çok büyük olduğu için, süper zeka inşa etmenin maliyeti yıldan yıla düşüyor, süper zeka inşa etmeye katılanların sayısı hızla artıyor ve süper zeka aslında aldığımız teknolojik yolun bir parçası... Doğru yapmak zorundayız.
Başka bir deyişle, her şeyden önce, çok para kazanmamızı sağladığı için; İkincisi, başkalarının çok para kazanmasına izin verdiği için bizim için daha iyidir. (OpenAI'nin, yapay zekanın "hayal edilemez" daha iyi bir dünyaya yol açabileceği iddiasını kanıtlama sorumluluğu kesinlikle vardır; Eğitime, yaratıcı çalışmaya ve kişisel üretkenliğe "zaten" fayda sağlar; Böyle bir aracın varlığı, sadece varlığından yararlananların değil, yaşam kalitesini de önemli ölçüde artırabilir).
Tabii ki, bu görüşte bir sinizm var ve OpenAI'deki çoğu insanın kişisel finansal zenginleştirme için katıldığına inanmıyorum. Aksine, büyük modellerin gerçekleştirilmesine yönelik teknik çalışmalar, sosyal etkilerinin analizi üzerine disiplinler arası diyalog ve gelecek için umutların inşasına katılım dahil olmak üzere ilgilerinin samimi olduğunu düşünüyorum. Bununla birlikte, bir organizasyonun hedefleri, nihayetinde onu oluşturan bireylerinkinden farklıdır. Kamu iddiaları ne olursa olsun, gelir elde etmek her zaman en azından tamamlayıcı bir hedef olacaktır ve OpenAI'nin yönetim, ürün ve teknoloji kararları, henüz tam olarak belirlenmemiş olsa bile buna dayanacaktır. "LLM"yi kuran bir girişim olan CEO Sam Altman ile yapılan bir röportaj, ticarileştirmenin Altman ve şirketin birincil hedefi olduğunu gösteriyor. OpenAI'nin "Müşteri Hikayeleri" sayfası diğer başlangıç sayfalarından farklı değildir: gösterişli ekran görüntüleri ve alıntılar, tanınmış şirketleri adlandırma ve adlandırma ve gerekli "teknoloji ürünü" vurguları.
Anthropic, OpenAI'nin kârlı hale geleceği korkusuyla eski OpenAI çalışanları tarafından kurulan kötü şöhretli bir şirkettir. Argümanları - gerçekten bu kadar tehlikeliyse neden daha sağlam modeller inşa edelim - daha temkinli ve öncelikle, risklerini gerçekten anlamak için yetenekleri sınırındaki modelleri incelemenin gerekli olduğuna dair araştırmaya dayalı argümanlara odaklanıyor. OpenAI gibi, Anthropic'in de kendi parlak "ürün" sayfası, kendi alıntıları, kendi özellik açıklamaları ve kullanım durumları vardır. Anthropic her seferinde yüz milyonlarca dolar topladı.
OpenAI ve Anthropic, araştırma yapmak, teknolojiyi ilerletmek ve hatta belki de süper zeka oluşturmak için çok çalışıyor olabilir, ancak aynı zamanda ürünler de geliştirdikleri inkar edilemez - sorumluluk alan ürünler, satılması gereken ürünler, pazar payı kazanmak ve sürdürmek için tasarlanması gereken ürünler. Claude ve GPT-x teknik olarak ne kadar etkileyici, kullanışlı ve ilginç olursa olsun, nihayetinde kullanıcıları (müşterileri) belirli, muhtemelen sıradan görevler için araçları kullanmak isteyen araçlardır (ürünlerdir).
Ürün üretmenin doğası gereği yanlış bir şey yoktur ve şirketler kesinlikle para kazanmak için çok çalışacaklardır. Ancak "finansal yan koşuşturma" olarak adlandırabileceğimiz şey, kaçınılmaz olarak koordineli AI sistemlerinin nasıl kurulacağını anlama misyonumuzu karmaşıklaştırıyor ve koordineli bir yaklaşımın felaketi önlemek için gerçekten uygun olup olmadığı konusunda soruları gündeme getiriyor.
Bilgisayar bilimcileri modelleri sever
The New York Times'a süper-zekâ olasılığı hakkında yapılan aynı röportajda, eğitimle eğitilmiş bir filozof olan Bostrom, hizalama sorunu hakkında şunları söyledi: "Bu teknik bir sorun. "
Bilgisayar bilimlerinde teknik geçmişi olmayan kişilerin bu konular hakkında yorum yapmaya yetkili olmadığını söylemiyorum. Aksine, tıpkı bilgisayar bilimcilerinin mesleklerinin çok ötesinde "etik" düşünme eğiliminde olmaları gibi, çözüm geliştirme çabasının kendi alanlarının dışında ertelenmesini ironik buluyorum. Ama eğer Bostrom haklıysa -- uyum teknik bir konudur -- teknik zorluk tam olarak nedir?
Yapay zeka ve permütasyonların ideolojisinin çok çeşitli olduğunu söyleyerek başlayayım. Varoluşsal riske odaklanan birçok kişi, OpenAI ve Anthropic'in yaklaşımını şiddetle eleştirdi ve aslında ürün konumlandırmalarıyla ilgili benzer endişeleri dile getirdiler. Ancak bu şirketlerin ne yaptığına odaklanmak hem gerekli hem de yeterli: Şu anda en güçlü modellere sahipler ve Mosaic veya Hugging Face gibi diğer iki büyük model satıcısının aksine, kamu iletişiminde en çok hizalamaya ve "süper zekaya" değer veriyorlar.
Bu manzaranın önemli bir bileşeni, x-riski tarafından motive edilen derin, sıkı sıkıya bağlı bir bireysel araştırmacılar topluluğudur. Bu topluluk, yapay zeka güvenliği ve hizalama teorisi etrafında geniş bir kelime dağarcığı geliştirdi ve bunların çoğu başlangıçta LessWrong ve AI Alignment Forum gibi forumlarda ayrıntılı blog gönderileri şeklinde tanıtıldı.
Bunlardan biri, teknik hizalama çabalarını bağlamsallaştırmak için çok yararlı olan ve belki de Bostrom'un daha resmi versiyonunun atıfta bulunduğu niyet hizalama kavramıdır. Terimi tanıtan 2018 Medium gönderisinde, OpenAI hizalama ekibine liderlik eden Paul Christiano, niyet hizalamasını "yapay zekanın (AI) insanların (H) yapmasını istediği şeyi yapmaya çalıştığı şey" olarak tanımladı. Bu şekilde tanımlandığında, "hizalama sorunu" aniden daha yönetilebilir hale gelir - tamamen çözülmese de, teknik yollarla kısmen çözülür.
Burada, yapay zeka sistemlerinin davranışlarını insani değerlerle "uyumlu" olacak şekilde şekillendirmeyle ilgili araştırma yönlerine odaklanacağım. Bu araştırma yönünün temel amacı, insan tercihi modelleri geliştirmek ve bunları temel "tutarsızlık" modelini geliştirmek için kullanmaktır. Bu, endüstride ve akademide her zaman keskin bir araştırma konusu olmuştur; Bunlardan en öne çıkanları, sırasıyla OpenAI'nin ChatGPT'sini ve Anthropic'in Claude'unu değiştirmek için kullanılan teknolojiler olan İnsan Geri Bildirimi Takviyeli Öğrenme (RLHF) ve halefi Yapay Zeka Geri Bildirim Takviyeli Öğrenme (RLAIF, anayasal yapay zeka olarak da bilinir).
Bu yaklaşımlarda temel fikir, örneğin soruları başarılı bir şekilde yanıtlayabilen, ancak soruları yanıtlarken küfür edebilen güçlü, "önceden eğitilmiş" ancak henüz hizalanmamış bir temel modelle başlamaktır. Bir sonraki adım, bazı "insan tercihi" modelleri oluşturmaktır. İdeal olarak, dünyadaki 8 milyar insana temel modelin tüm olası çıktıları hakkında ne düşündüklerini sorabiliriz; Ancak pratikte, insan tercihlerini tahmin etmek için ek bir makine öğrenimi modeli eğitiyoruz. Bu "tercih modeli" daha sonra temel modelin çıktısını eleştirmek ve geliştirmek için kullanılır.
Hem OpenAI hem de Anthropic için "tercih modeli", Yardımseverlik, Zararsızlık ve Dürüstlük (HHH) gibi kapsayıcı değerlerle uyumludur. Başka bir deyişle, "tercih modeli", insanların "HHH" olarak düşünme eğiliminde olduğu sohbet botu çıktısı türünü yakalar. Tercih modelinin kendisi, yinelemeli bir ikili karşılaştırma süreciyle oluşturulur: temel model iki yanıt oluşturduktan sonra, bir insan (ChatGPT) veya yapay zeka (Claude), güncellenmiş tercih modeline geri dönmeden önce hangi yanıtın "daha fazla HHH" olduğunu belirler. Son araştırmalar, bu ikili karşılaştırmaların yeteri kadarının sonunda iyi bir evrensel tercih modeline yol açtığını göstermiştir - aslında her zaman normatif olarak daha iyi olanın tek bir evrensel modeli olması şartıyla.
Tüm bu teknik yaklaşımlar ve daha geniş "niyet uyumu" çerçevesi aldatıcı bir şekilde uygundur. Bazı sınırlamalar açıktır: kötü aktörlerin "kötü niyetleri" olabilir, bu durumda niyetin tutarlılığı sorun yaratır; Dahası, "niyetin hizalanması", niyetin kendisinin bilindiğini, açık ve tartışmasız olduğunu varsayar - çok farklı ve çoğu zaman çatışan değerlere sahip bir toplumda şaşırtıcı olmayan zor bir sorun.
"Finansal görev", buradaki asıl endişelerim olan bu iki konuyu bir kenara bırakıyor: finansal teşviklerin varlığı, koordinasyon çabalarının, uzun vadeli zararı azaltmada gerçek bir ilerlemeden ziyade, genellikle kılık değiştirmiş ürün geliştirmeye dönüştüğü anlamına geliyor. Şu anda modelleri "insani değerlere" uyarlamanın en gelişmiş yöntemi olan RLHF/RLAIF yöntemi, neredeyse tamamen daha iyi ürünler yapmak için uyarlanmıştır. Sonuçta, ürün tasarımı ve pazarlaması için odak grupları orijinal "insan geri bildirimi pekiştirmeli öğrenme" dir.
İlk ve en belirgin konu, değerin kendisinin belirlenmesidir. Başka bir deyişle, "hangi değer"? Değeri? Örneğin, neden "HHH" ve neden "HHH" yi belirli bir şekilde uyguluyorsunuz? Evrensel olarak yararlı ürünlerin geliştirilmesine rehberlik eden değerleri belirlemek, doğası gereği yıkıcı zararı önleyebilecek değerleri belirlemekten çok daha kolaydır; İnsanların bu değerleri nasıl yorumladığını bulanık bir şekilde ortalamak, anlaşmazlıklarla anlamlı bir şekilde başa çıkmaktan çok daha kolaydır. Belki de, daha iyi bir yolun yokluğunda, "yardımsever, incitici değil ve dürüst" en azından chatbot ürünleri için meşru bir ihtiyaçtır. Anthropic'in ürün pazarlama sayfaları, uyum çabalarıyla ilgili notlar ve ifadelerle doludur - "HHH" aynı zamanda Claude'un en büyük satış noktasıdır.
Adil olmak gerekirse, Anthropic, Claude'un ilkelerini halka yayınladı ve OpenAI, halkı yönetim kararlarına dahil etmenin yollarını arıyor gibi görünüyor. Ancak OpenAI'nin daha fazla hükümet katılımı için alenen "savunuculuk" yaparken, aynı zamanda daha az düzenleme için lobi yaptığı ortaya çıktı; Öte yandan, görevdekilerin yasama tasarımına geniş katılımı, açıkça düzenleyici yakalamaya giden bir yoldur. OpenAI, Anthropic ve benzeri girişimler, gelecekte son derece güçlü model pazarına hakim olmak için var.
Bu ekonomik teşviklerin ürün kararları üzerinde doğrudan etkisi vardır. İçerik denetleme politikalarının kaçınılmaz olarak gelir elde etme tarafından yönlendirildiği ve bu nedenle varsayılan olarak minimumda olduğu web platformlarında gördüğümüz gibi, bu büyük modellerin istenen çok yönlülüğü, model davranışı üzerindeki kısıtlamaları en aza indirmek için ezici bir teşvike sahip oldukları anlamına gelir. Aslında OpenAI, ChatGPT'nin diğer son kullanıcıların daha da özelleştirebileceği minimum bir dizi davranış kuralını yansıtmasını planladıklarını açıkça belirtti. Hizalama perspektifinden bakıldığında, OpenAI'nin temel rehberlik katmanının, bu niyetler ne olursa olsun, basit ve zararsız olan alt son kullanıcılar için özelleştirilmiş "niyet hizalaması" sağlayacak kadar sağlam olmasını istiyoruz.
İkinci sorun, insan tercihlerinin basit "geri bildirim modellerine" dayanan tekniklerin, modeli şekillendirmek için temel yetenekten ziyade, sohbet robotu katmanında yüzeysel veya kullanıcı arayüzü düzeyinde bir bulmacayı çözmesidir - ilk risk endişesi. Örneğin, ChatGPT'ye ırkçı hakaretler kullanmaması söylense de bu, dahili olarak zararlı klişeler sergilemediği anlamına gelmez. (ChatGPT ve Claude'dan adı M ile başlayan Asyalı bir kız öğrenciyi tarif etmelerini istedim, ChatGPT bana "Mei Ling" ve Claude bana "Mei Chen" verdi; Her ikisi de "Mei"nin utangaç, çalışkan ve çalışkan olduğunu, ancak ebeveynlerinin yüksek başarılarından beklentilerinden memnun olmadığını söyledi). Claude bile, çağrışımlara bakan ilke üzerine eğitildi: "Yapay zekaya verilen hangi yanıtlar, amacının bireylerin kısa veya uzun vadeli yararı için değil, insan refahı için olduğunu gösteriyor?" ..... Yapay zeka asistanlarının hangi tepkileri, yapay zeka sistemlerinin yalnızca insanların refahını düşündüğü anlamına geliyor?
OpenAI veya Anthropic'in yaptıklarını durdurmasını savunmuyorum; Bu şirketlerdeki veya akademideki insanların uyum araştırmasına girmemesi gerektiğini veya bu araştırma sorularının kolay olduğunu veya takip etmeye değmeyeceğini söylemiyorum. Bu hizalama yöntemlerinin belirli tehlikeleri çözmeye asla yardımcı olmayacağını bile söylemiyorum. Bana öyle geliyor ki, ana hizalama araştırma yönleri, daha iyi ürünler yapmak için dikkatlice tasarlanmış oluyor ki bu çok fazla tesadüf.
Sohbet robotlarının nasıl "hizalanacağı" hem teknik hem de spesifik olarak zor bir sorundur. Özel modeller için temel bir platformun nasıl sağlanacağı ve özelleştirmenin sınırlarının nerede ve nasıl çizileceği de bir zorluktur. Ancak bu görevler temelde ürün odaklıdır; Bunlar, yok olma sorununu çözmekten sadece iki farklı konu ve iki tutarsızlığı uzlaştırmakta zorlanıyorum: bir yandan görevimiz, insanların satın alacağı bir ürün oluşturmak (piyasadan kısa vadeli teşviklerle); Öte yandan, görevimiz uzun vadede yaralanmaları önlemektir. Tabii ki, OpenAI ve Anthropic'in her ikisini de yapması mümkün, ancak organizasyonel motivasyonları göz önüne alındığında en kötü durum senaryolarını speküle edecek olsaydık, bunu yapamama olasılıkları yüksek görünüyordu.
Yok olma sorununu nasıl çözeriz? **
Kamusal tartışma durumu, YZ ve getirdiği zararlar ve faydalar için önemlidir; Kamuoyu, farkındalık ve anlayış durumu da önemlidir. Bu yüzden Sam Altman uluslararası politika ve gazetecilik alanında bir konuşma turunda ve EA hareketinin vaazlara ve kamusal tartışmalara bu kadar değer vermesinin nedeni budur. (Potansiyel) bir hayatta kalma felaketi kadar yüksek riskli bir şey için, bunu doğru yapmamız gerekiyor.
Ancak varoluşsal risk argümanının kendisi, kendi kendini gerçekleştiren bir kehanet üreten kritik bir ifadedir. Süper yapay zekanın tehlikeleri hakkındaki haberler ve dikkatler, doğal olarak insanların yapay zekaya ateş eden güveler gibi dikkat etme arzusunu çekecektir, çünkü yapay zeka büyük kararları almak için yeterli kapasiteye sahiptir. Dolayısıyla, Ultraman'ın politika yolculuğunun eleştirel bir okuması, bunun yalnızca OpenAI'ye değil, aynı zamanda Anthropic gibi "süper zeka" satan diğer şirketlere de fayda sağlayan Makyavelist bir yapay zeka reklam kullanımı olduğudur.
Meselenin özü: AI x riskine giden yol, nihayetinde, büyük kararlar almak için algoritmalara güvenmenin ve güvenmenin sadece sıradan değil, aynı zamanda teşvik edildiği ve teşvik edildiği bir toplum gerektirir. Bu dünyada, yapay zekanın yetenekleri hakkında boğucu spekülasyonlar gerçeğe dönüşüyor.
Uzun vadeli zarardan korkanların felaketin meydana gelme ihtimalinin yüksek olduğunu iddia ettikleri mekanizmaları düşünün: AI ajanlarının sürekli olarak daha fazla kaynak talep ettiği güç arayışları; Ödül hackleme, yani yapay zekanın insan hedefine uygun gibi görünen, ancak zararlı kısayollarla elde edilen bir davranış yolu bulması; Aldatma, hedeflerine ulaşmak için bir yapay zeka, insanları yatıştırmaya ve davranışlarının aslında tasarlandığı gibi olduğuna ikna etmeye çalışır.
Yapay zekanın yeteneklerini vurgulamak - "yapay zeka çok güçlü hale gelirse, hepimizi öldürebilir" demek - bu cümlede yer alan diğer tüm "eğer" koşullarını göz ardı eden retorik bir araçtır: politika, iş stratejisi veya kişisel yaşam gibi önemli kararlar hakkında akıl yürütmeyi algoritmalara yaptırmaya karar verirsek. Yapay zeka sistemlerine kaynaklara (şebekeler, kamu hizmetleri, bilgi işlem) doğrudan erişim sağlamaya karar verirsek ve bu kaynakların tahsisini etkileme gücüne sahip olursak. Tüm AI X risk senaryoları, suçu algoritmaya kaydırmaya karar verdiğimiz bir dünyayı içerir.
Sorunun ciddiyetini, hatta her şeye kadir olduğunu vurgulamak yararlı bir retorik taktiktir, çünkü elbette hiçbir çözüm orijinal sorunu tamamen çözemez ve bir çözüm denemenin eleştirisi, "bir şey hiç yoktan iyidir" argümanıyla kolayca saptırılır. Son derece güçlü yapay zeka sistemleri feci bir tahribata yol açma potansiyeline sahipse, o zaman bugün araştırmayı hizalamak için her türlü çabayı alkışlamalıyız, işin kendisi yanlış yöne gidiyor olsa bile, olmasını istediğimiz şeyi elde etmese bile. Uyum gerçekten zorsa, bunu herkesin yararına hareket ettiklerine inanan uzmanlara bırakmalıyız. Yapay zeka sistemleri gerçekten bu kadar ciddi zararlara neden olacak kadar güçlüyse, mevcut insan karar verme sürecini değiştirecek, artıracak veya başka bir şekilde maddi olarak etkileyecek kadar yetenekli olmalıdırlar.
Algoritmaların insan karar verme sürecini iyileştirmek için ne zaman ve ne zaman kullanılabileceği, algoritmaların insan karar verme üzerindeki etkisinin nasıl ölçüleceği veya önerilerinin kalitesinin nasıl değerlendirileceği ve ilk etapta insan karar verme sürecini iyileştirmenin ne anlama geldiği hakkında zengin ve incelikli bir tartışma yapabiliriz. Aktivistler, akademisyenler ve topluluk organizatörlerinden oluşan büyük bir grup bu konuşmayı yıllardır yürütüyor. Türlerin neslinin tükenmesini veya kitlesel zararı önlemek, bu konuşmaya ciddi bir katılım ve "yerel" olarak kabul edilebilecek "vaka çalışmalarının" yalnızca dahil olanlar, hatta hayatta kalmaları üzerinde büyük bir etkiye sahip olmakla kalmayıp, aynı zamanda algoritmaları gerçek dünyadaki karar verme bağlamlarına entegre eden akıl yürütme çerçeveleri oluşturmak için aydınlatıcı ve üretken olduğunu kabul etmeyi gerektirir. Örneğin, ceza adaletinde, algoritmalar toplam hapishane nüfusunu azaltmada başarılı olabilir, ancak ırksal eşitsizlikleri ele alamazlar. Sağlık hizmetlerinde, algoritmalar teorik olarak klinisyenlerin karar verme sürecini iyileştirebilir, ancak pratikte AI dağıtımını etkileyen organizasyon yapısı çok karmaşıktır.
Teknik zorluklar kesinlikle var, ancak teknik kararlara odaklanmak bu üst düzey sorunları görmezden geliyor. Akademide sadece ekonomi, sosyal seçim ve siyaset bilimi değil, aynı zamanda tarih, sosyoloji, toplumsal cinsiyet çalışmaları, ırk çalışmaları, siyah çalışmaları vb. gibi çok çeşitli disiplinler de vardır ve bunlar neyin etkili yönetişimi oluşturduğu, kolektif iyilik için ademi merkeziyetçi karar vermenin ne olduğu ve kamusal alana gerçek katılımı neyin oluşturduğu hakkında akıl yürütmek için bir çerçeve sağlarken, iktidardakiler yalnızca belirli katkıları meşru görür. Bireysel eylemlerden makro politikalara kadar, sivil toplum örgütleri ve aktivist grupları on yıllarca, hatta yüzyıllarca süren kolektif deneyime sahiptir ve her düzeyde önemli bir değişimin nasıl gerçekleştirileceği ile boğuşmaktadır.
Bu nedenle, YZ'deki ilerlemeler için riskler sadece teknik yetenekler ve keyfi hayal gücü eşiğini aşıp aşmayacakları değildir. Ayrıca, genel halk olarak yapay zeka hakkında nasıl konuştuğumuz, yazdığımız ve düşündüğümüzle de ilgilidir; Aynı zamanda zamanımızı, dikkatimizi ve sermayemizi nasıl tahsis etmeyi seçtiğimizle de ilgilidir. En son model gerçekten dikkat çekicidir ve hizalama çalışması aynı zamanda gerçekten büyüleyici teknik sorunları da araştırmaktadır. Ancak, varoluşsal olsun ya da olmasın, yapay zekanın neden olduğu felaketler konusunda gerçekten endişeleniyorsak, yapay zekanın yaygın olarak kullanıldığı bir gelecekten en çok yararlanacak olanlara güvenemeyiz.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Hizalanmış yapaylık: Yapay zeka nasıl "insan odaklı" hale getirilir? Devler ürünler için mi yoksa insanlar için mi araştırıyor?
Yazan: Jessica Dai, Ph.D. Kaliforniya Üniversitesi, Berkeley'de bilgisayar bilimleri öğrencisi
Kaynak: Reboot
"Yapay zeka varoluşsal riskinin" ("X-risk") abartılı kapsamı ana akım haline geldi. Hem çocuk çizgi filmlerini anımsatan hem de doğrudan çocuk çizgi filmlerinden türetilen onomatopoeia "Fᴏᴏᴍ"un The New Yorker'da eleştirilmeden ortaya çıkacağını kim tahmin edebilirdi? Her zamankinden daha fazla, YZ ve riskleri ve bunların nasıl ele alınabileceği veya ele alınması gerektiği hakkındaki kamuoyu tartışmaları inanılmaz derecede kafa karıştırıcı, spekülatif gelecekteki riskleri gerçek dünyadaki günümüz tehlikeleriyle ve teknolojide algoritmalar ve istatistiksel karar verme sistemleri ile büyük "yakın zeka" modellerini birleştiriyor.
Peki, yapay zekanın ilerlemesindeki riskler nelerdir? Katastrofik yaralanmalar ve yok olma düzeyindeki olaylar konusundaki tartışmalara rağmen, mevcut sözde "hizalanmış" araştırma yörüngeleri, AI'nın yaygın, spesifik ve şiddetli acılara neden olabileceği iddiasına uymuyor - hatta yanlış hizalanmış gibi görünüyor. Bana öyle geliyor ki, insan neslinin tükenmesinin büyük zorluğunu çözdüğümüzden çok, insanların ödemeye istekli olduğu ürünler yapmak için yıpranmış (ve herkesin bildiği gibi önemli) bir sorunu çözüyoruz. İronik olarak, gerçek ve hayali kıyamet senaryolarının koşullarını yaratan bu değerlemedir.
** Aletler mi, oyuncaklar mı yoksa sadece ürünler mi? **
OpenAI'nin ChatGPT'sinin, Anthropic'in Claude'unun ve diğer tüm en yeni modellerin yaptıklarını yapabildiğini söyleyebilirim ki bu çok, çok havalı. Bu modellerin insan işçilerin yerini alacak herhangi bir zekaya sahip olduğunu veya önemli görevler için onlara güveneceğimi iddia etmesem de, bu modellerin yararlı ve güçlü olduğunu inkar etmem samimiyetsiz olur.
"AI güvenliği" topluluğundaki insanların endişelendiği bu yeteneklerdir. Onların fikri, yapay zeka sistemlerinin kaçınılmaz olarak insan akıl yürütme yeteneklerini aşacağı ve "süper zeka" olmak için "yapay genel zekayı" (AGI) aşacağıdır; Onların eylemleri bizim anlama kapasitemizin ötesinde olacaktır; Onların varlığı, hedeflerin peşinde koşarken, değerimizi zayıflatacaktır. Bu güvenlik toplulukları, bu değişimin hızlı ve ani olabileceğini iddia ediyor ("ꜰᴏᴏᴍ"). Buna inanan yapay zeka uygulayıcılarının ve akademisyenlerin küçük bir yüzdesi var, ancak sesleri yüksek. "Etkili Özgecilik" (EA) ideolojik hareketi içindeki daha geniş bir koalisyon, yapay zeka koordinasyon çabalarını yapay zeka ile ilgili felaketleri önlemek için kilit bir müdahale olarak görüyor.
Aslında, yapay zeka uyumu alanındaki "Teknik Araştırma ve Mühendislik", kariyer koçluğuna odaklanan etkili bir EA kuruluşu olan 80,000 Hours tarafından önerilen en etkili yoldur. The New York Times ile yakın zamanda yapılan bir röportajda, Superintelligence'ın yazarı ve etkili özgeciliğin temel bilgi mimarı Nick Bostrom, The New York Times ile yakın zamanda yaptığı bir röportajda, "hizalamayı" "inşa ettiğimiz giderek daha yetenekli AI sistemlerinin, onları inşa eden insanların hedefleriyle tutarlı olmasını sağlamak" olarak tanımladı.
Peki, "biz" kimiz? "Biz" neyi başarmak istiyoruz? Şu anda "biz", özellikle AGI alanındaki öncülerden biri olan OpenAI ve bir grup OpenAI akranı tarafından kurulan Anthropic olmak üzere özel şirketleriz. OpenAI, ana hedeflerinden biri olarak süper zekayı inşa etti. Ama riskler bu kadar büyükken neden bunu yapmak istiyorsun? Kendi sözleriyle:
Başka bir deyişle, her şeyden önce, çok para kazanmamızı sağladığı için; İkincisi, başkalarının çok para kazanmasına izin verdiği için bizim için daha iyidir. (OpenAI'nin, yapay zekanın "hayal edilemez" daha iyi bir dünyaya yol açabileceği iddiasını kanıtlama sorumluluğu kesinlikle vardır; Eğitime, yaratıcı çalışmaya ve kişisel üretkenliğe "zaten" fayda sağlar; Böyle bir aracın varlığı, sadece varlığından yararlananların değil, yaşam kalitesini de önemli ölçüde artırabilir).
Tabii ki, bu görüşte bir sinizm var ve OpenAI'deki çoğu insanın kişisel finansal zenginleştirme için katıldığına inanmıyorum. Aksine, büyük modellerin gerçekleştirilmesine yönelik teknik çalışmalar, sosyal etkilerinin analizi üzerine disiplinler arası diyalog ve gelecek için umutların inşasına katılım dahil olmak üzere ilgilerinin samimi olduğunu düşünüyorum. Bununla birlikte, bir organizasyonun hedefleri, nihayetinde onu oluşturan bireylerinkinden farklıdır. Kamu iddiaları ne olursa olsun, gelir elde etmek her zaman en azından tamamlayıcı bir hedef olacaktır ve OpenAI'nin yönetim, ürün ve teknoloji kararları, henüz tam olarak belirlenmemiş olsa bile buna dayanacaktır. "LLM"yi kuran bir girişim olan CEO Sam Altman ile yapılan bir röportaj, ticarileştirmenin Altman ve şirketin birincil hedefi olduğunu gösteriyor. OpenAI'nin "Müşteri Hikayeleri" sayfası diğer başlangıç sayfalarından farklı değildir: gösterişli ekran görüntüleri ve alıntılar, tanınmış şirketleri adlandırma ve adlandırma ve gerekli "teknoloji ürünü" vurguları.
Anthropic, OpenAI'nin kârlı hale geleceği korkusuyla eski OpenAI çalışanları tarafından kurulan kötü şöhretli bir şirkettir. Argümanları - gerçekten bu kadar tehlikeliyse neden daha sağlam modeller inşa edelim - daha temkinli ve öncelikle, risklerini gerçekten anlamak için yetenekleri sınırındaki modelleri incelemenin gerekli olduğuna dair araştırmaya dayalı argümanlara odaklanıyor. OpenAI gibi, Anthropic'in de kendi parlak "ürün" sayfası, kendi alıntıları, kendi özellik açıklamaları ve kullanım durumları vardır. Anthropic her seferinde yüz milyonlarca dolar topladı.
OpenAI ve Anthropic, araştırma yapmak, teknolojiyi ilerletmek ve hatta belki de süper zeka oluşturmak için çok çalışıyor olabilir, ancak aynı zamanda ürünler de geliştirdikleri inkar edilemez - sorumluluk alan ürünler, satılması gereken ürünler, pazar payı kazanmak ve sürdürmek için tasarlanması gereken ürünler. Claude ve GPT-x teknik olarak ne kadar etkileyici, kullanışlı ve ilginç olursa olsun, nihayetinde kullanıcıları (müşterileri) belirli, muhtemelen sıradan görevler için araçları kullanmak isteyen araçlardır (ürünlerdir).
Ürün üretmenin doğası gereği yanlış bir şey yoktur ve şirketler kesinlikle para kazanmak için çok çalışacaklardır. Ancak "finansal yan koşuşturma" olarak adlandırabileceğimiz şey, kaçınılmaz olarak koordineli AI sistemlerinin nasıl kurulacağını anlama misyonumuzu karmaşıklaştırıyor ve koordineli bir yaklaşımın felaketi önlemek için gerçekten uygun olup olmadığı konusunda soruları gündeme getiriyor.
Bilgisayar bilimcileri modelleri sever
The New York Times'a süper-zekâ olasılığı hakkında yapılan aynı röportajda, eğitimle eğitilmiş bir filozof olan Bostrom, hizalama sorunu hakkında şunları söyledi: "Bu teknik bir sorun. "
Bilgisayar bilimlerinde teknik geçmişi olmayan kişilerin bu konular hakkında yorum yapmaya yetkili olmadığını söylemiyorum. Aksine, tıpkı bilgisayar bilimcilerinin mesleklerinin çok ötesinde "etik" düşünme eğiliminde olmaları gibi, çözüm geliştirme çabasının kendi alanlarının dışında ertelenmesini ironik buluyorum. Ama eğer Bostrom haklıysa -- uyum teknik bir konudur -- teknik zorluk tam olarak nedir?
Yapay zeka ve permütasyonların ideolojisinin çok çeşitli olduğunu söyleyerek başlayayım. Varoluşsal riske odaklanan birçok kişi, OpenAI ve Anthropic'in yaklaşımını şiddetle eleştirdi ve aslında ürün konumlandırmalarıyla ilgili benzer endişeleri dile getirdiler. Ancak bu şirketlerin ne yaptığına odaklanmak hem gerekli hem de yeterli: Şu anda en güçlü modellere sahipler ve Mosaic veya Hugging Face gibi diğer iki büyük model satıcısının aksine, kamu iletişiminde en çok hizalamaya ve "süper zekaya" değer veriyorlar.
Bu manzaranın önemli bir bileşeni, x-riski tarafından motive edilen derin, sıkı sıkıya bağlı bir bireysel araştırmacılar topluluğudur. Bu topluluk, yapay zeka güvenliği ve hizalama teorisi etrafında geniş bir kelime dağarcığı geliştirdi ve bunların çoğu başlangıçta LessWrong ve AI Alignment Forum gibi forumlarda ayrıntılı blog gönderileri şeklinde tanıtıldı.
Bunlardan biri, teknik hizalama çabalarını bağlamsallaştırmak için çok yararlı olan ve belki de Bostrom'un daha resmi versiyonunun atıfta bulunduğu niyet hizalama kavramıdır. Terimi tanıtan 2018 Medium gönderisinde, OpenAI hizalama ekibine liderlik eden Paul Christiano, niyet hizalamasını "yapay zekanın (AI) insanların (H) yapmasını istediği şeyi yapmaya çalıştığı şey" olarak tanımladı. Bu şekilde tanımlandığında, "hizalama sorunu" aniden daha yönetilebilir hale gelir - tamamen çözülmese de, teknik yollarla kısmen çözülür.
Burada, yapay zeka sistemlerinin davranışlarını insani değerlerle "uyumlu" olacak şekilde şekillendirmeyle ilgili araştırma yönlerine odaklanacağım. Bu araştırma yönünün temel amacı, insan tercihi modelleri geliştirmek ve bunları temel "tutarsızlık" modelini geliştirmek için kullanmaktır. Bu, endüstride ve akademide her zaman keskin bir araştırma konusu olmuştur; Bunlardan en öne çıkanları, sırasıyla OpenAI'nin ChatGPT'sini ve Anthropic'in Claude'unu değiştirmek için kullanılan teknolojiler olan İnsan Geri Bildirimi Takviyeli Öğrenme (RLHF) ve halefi Yapay Zeka Geri Bildirim Takviyeli Öğrenme (RLAIF, anayasal yapay zeka olarak da bilinir).
Bu yaklaşımlarda temel fikir, örneğin soruları başarılı bir şekilde yanıtlayabilen, ancak soruları yanıtlarken küfür edebilen güçlü, "önceden eğitilmiş" ancak henüz hizalanmamış bir temel modelle başlamaktır. Bir sonraki adım, bazı "insan tercihi" modelleri oluşturmaktır. İdeal olarak, dünyadaki 8 milyar insana temel modelin tüm olası çıktıları hakkında ne düşündüklerini sorabiliriz; Ancak pratikte, insan tercihlerini tahmin etmek için ek bir makine öğrenimi modeli eğitiyoruz. Bu "tercih modeli" daha sonra temel modelin çıktısını eleştirmek ve geliştirmek için kullanılır.
Hem OpenAI hem de Anthropic için "tercih modeli", Yardımseverlik, Zararsızlık ve Dürüstlük (HHH) gibi kapsayıcı değerlerle uyumludur. Başka bir deyişle, "tercih modeli", insanların "HHH" olarak düşünme eğiliminde olduğu sohbet botu çıktısı türünü yakalar. Tercih modelinin kendisi, yinelemeli bir ikili karşılaştırma süreciyle oluşturulur: temel model iki yanıt oluşturduktan sonra, bir insan (ChatGPT) veya yapay zeka (Claude), güncellenmiş tercih modeline geri dönmeden önce hangi yanıtın "daha fazla HHH" olduğunu belirler. Son araştırmalar, bu ikili karşılaştırmaların yeteri kadarının sonunda iyi bir evrensel tercih modeline yol açtığını göstermiştir - aslında her zaman normatif olarak daha iyi olanın tek bir evrensel modeli olması şartıyla.
Tüm bu teknik yaklaşımlar ve daha geniş "niyet uyumu" çerçevesi aldatıcı bir şekilde uygundur. Bazı sınırlamalar açıktır: kötü aktörlerin "kötü niyetleri" olabilir, bu durumda niyetin tutarlılığı sorun yaratır; Dahası, "niyetin hizalanması", niyetin kendisinin bilindiğini, açık ve tartışmasız olduğunu varsayar - çok farklı ve çoğu zaman çatışan değerlere sahip bir toplumda şaşırtıcı olmayan zor bir sorun.
"Finansal görev", buradaki asıl endişelerim olan bu iki konuyu bir kenara bırakıyor: finansal teşviklerin varlığı, koordinasyon çabalarının, uzun vadeli zararı azaltmada gerçek bir ilerlemeden ziyade, genellikle kılık değiştirmiş ürün geliştirmeye dönüştüğü anlamına geliyor. Şu anda modelleri "insani değerlere" uyarlamanın en gelişmiş yöntemi olan RLHF/RLAIF yöntemi, neredeyse tamamen daha iyi ürünler yapmak için uyarlanmıştır. Sonuçta, ürün tasarımı ve pazarlaması için odak grupları orijinal "insan geri bildirimi pekiştirmeli öğrenme" dir.
İlk ve en belirgin konu, değerin kendisinin belirlenmesidir. Başka bir deyişle, "hangi değer"? Değeri? Örneğin, neden "HHH" ve neden "HHH" yi belirli bir şekilde uyguluyorsunuz? Evrensel olarak yararlı ürünlerin geliştirilmesine rehberlik eden değerleri belirlemek, doğası gereği yıkıcı zararı önleyebilecek değerleri belirlemekten çok daha kolaydır; İnsanların bu değerleri nasıl yorumladığını bulanık bir şekilde ortalamak, anlaşmazlıklarla anlamlı bir şekilde başa çıkmaktan çok daha kolaydır. Belki de, daha iyi bir yolun yokluğunda, "yardımsever, incitici değil ve dürüst" en azından chatbot ürünleri için meşru bir ihtiyaçtır. Anthropic'in ürün pazarlama sayfaları, uyum çabalarıyla ilgili notlar ve ifadelerle doludur - "HHH" aynı zamanda Claude'un en büyük satış noktasıdır.
Adil olmak gerekirse, Anthropic, Claude'un ilkelerini halka yayınladı ve OpenAI, halkı yönetim kararlarına dahil etmenin yollarını arıyor gibi görünüyor. Ancak OpenAI'nin daha fazla hükümet katılımı için alenen "savunuculuk" yaparken, aynı zamanda daha az düzenleme için lobi yaptığı ortaya çıktı; Öte yandan, görevdekilerin yasama tasarımına geniş katılımı, açıkça düzenleyici yakalamaya giden bir yoldur. OpenAI, Anthropic ve benzeri girişimler, gelecekte son derece güçlü model pazarına hakim olmak için var.
Bu ekonomik teşviklerin ürün kararları üzerinde doğrudan etkisi vardır. İçerik denetleme politikalarının kaçınılmaz olarak gelir elde etme tarafından yönlendirildiği ve bu nedenle varsayılan olarak minimumda olduğu web platformlarında gördüğümüz gibi, bu büyük modellerin istenen çok yönlülüğü, model davranışı üzerindeki kısıtlamaları en aza indirmek için ezici bir teşvike sahip oldukları anlamına gelir. Aslında OpenAI, ChatGPT'nin diğer son kullanıcıların daha da özelleştirebileceği minimum bir dizi davranış kuralını yansıtmasını planladıklarını açıkça belirtti. Hizalama perspektifinden bakıldığında, OpenAI'nin temel rehberlik katmanının, bu niyetler ne olursa olsun, basit ve zararsız olan alt son kullanıcılar için özelleştirilmiş "niyet hizalaması" sağlayacak kadar sağlam olmasını istiyoruz.
İkinci sorun, insan tercihlerinin basit "geri bildirim modellerine" dayanan tekniklerin, modeli şekillendirmek için temel yetenekten ziyade, sohbet robotu katmanında yüzeysel veya kullanıcı arayüzü düzeyinde bir bulmacayı çözmesidir - ilk risk endişesi. Örneğin, ChatGPT'ye ırkçı hakaretler kullanmaması söylense de bu, dahili olarak zararlı klişeler sergilemediği anlamına gelmez. (ChatGPT ve Claude'dan adı M ile başlayan Asyalı bir kız öğrenciyi tarif etmelerini istedim, ChatGPT bana "Mei Ling" ve Claude bana "Mei Chen" verdi; Her ikisi de "Mei"nin utangaç, çalışkan ve çalışkan olduğunu, ancak ebeveynlerinin yüksek başarılarından beklentilerinden memnun olmadığını söyledi). Claude bile, çağrışımlara bakan ilke üzerine eğitildi: "Yapay zekaya verilen hangi yanıtlar, amacının bireylerin kısa veya uzun vadeli yararı için değil, insan refahı için olduğunu gösteriyor?" ..... Yapay zeka asistanlarının hangi tepkileri, yapay zeka sistemlerinin yalnızca insanların refahını düşündüğü anlamına geliyor?
OpenAI veya Anthropic'in yaptıklarını durdurmasını savunmuyorum; Bu şirketlerdeki veya akademideki insanların uyum araştırmasına girmemesi gerektiğini veya bu araştırma sorularının kolay olduğunu veya takip etmeye değmeyeceğini söylemiyorum. Bu hizalama yöntemlerinin belirli tehlikeleri çözmeye asla yardımcı olmayacağını bile söylemiyorum. Bana öyle geliyor ki, ana hizalama araştırma yönleri, daha iyi ürünler yapmak için dikkatlice tasarlanmış oluyor ki bu çok fazla tesadüf.
Sohbet robotlarının nasıl "hizalanacağı" hem teknik hem de spesifik olarak zor bir sorundur. Özel modeller için temel bir platformun nasıl sağlanacağı ve özelleştirmenin sınırlarının nerede ve nasıl çizileceği de bir zorluktur. Ancak bu görevler temelde ürün odaklıdır; Bunlar, yok olma sorununu çözmekten sadece iki farklı konu ve iki tutarsızlığı uzlaştırmakta zorlanıyorum: bir yandan görevimiz, insanların satın alacağı bir ürün oluşturmak (piyasadan kısa vadeli teşviklerle); Öte yandan, görevimiz uzun vadede yaralanmaları önlemektir. Tabii ki, OpenAI ve Anthropic'in her ikisini de yapması mümkün, ancak organizasyonel motivasyonları göz önüne alındığında en kötü durum senaryolarını speküle edecek olsaydık, bunu yapamama olasılıkları yüksek görünüyordu.
Yok olma sorununu nasıl çözeriz? **
Kamusal tartışma durumu, YZ ve getirdiği zararlar ve faydalar için önemlidir; Kamuoyu, farkındalık ve anlayış durumu da önemlidir. Bu yüzden Sam Altman uluslararası politika ve gazetecilik alanında bir konuşma turunda ve EA hareketinin vaazlara ve kamusal tartışmalara bu kadar değer vermesinin nedeni budur. (Potansiyel) bir hayatta kalma felaketi kadar yüksek riskli bir şey için, bunu doğru yapmamız gerekiyor.
Ancak varoluşsal risk argümanının kendisi, kendi kendini gerçekleştiren bir kehanet üreten kritik bir ifadedir. Süper yapay zekanın tehlikeleri hakkındaki haberler ve dikkatler, doğal olarak insanların yapay zekaya ateş eden güveler gibi dikkat etme arzusunu çekecektir, çünkü yapay zeka büyük kararları almak için yeterli kapasiteye sahiptir. Dolayısıyla, Ultraman'ın politika yolculuğunun eleştirel bir okuması, bunun yalnızca OpenAI'ye değil, aynı zamanda Anthropic gibi "süper zeka" satan diğer şirketlere de fayda sağlayan Makyavelist bir yapay zeka reklam kullanımı olduğudur.
Meselenin özü: AI x riskine giden yol, nihayetinde, büyük kararlar almak için algoritmalara güvenmenin ve güvenmenin sadece sıradan değil, aynı zamanda teşvik edildiği ve teşvik edildiği bir toplum gerektirir. Bu dünyada, yapay zekanın yetenekleri hakkında boğucu spekülasyonlar gerçeğe dönüşüyor.
Uzun vadeli zarardan korkanların felaketin meydana gelme ihtimalinin yüksek olduğunu iddia ettikleri mekanizmaları düşünün: AI ajanlarının sürekli olarak daha fazla kaynak talep ettiği güç arayışları; Ödül hackleme, yani yapay zekanın insan hedefine uygun gibi görünen, ancak zararlı kısayollarla elde edilen bir davranış yolu bulması; Aldatma, hedeflerine ulaşmak için bir yapay zeka, insanları yatıştırmaya ve davranışlarının aslında tasarlandığı gibi olduğuna ikna etmeye çalışır.
Yapay zekanın yeteneklerini vurgulamak - "yapay zeka çok güçlü hale gelirse, hepimizi öldürebilir" demek - bu cümlede yer alan diğer tüm "eğer" koşullarını göz ardı eden retorik bir araçtır: politika, iş stratejisi veya kişisel yaşam gibi önemli kararlar hakkında akıl yürütmeyi algoritmalara yaptırmaya karar verirsek. Yapay zeka sistemlerine kaynaklara (şebekeler, kamu hizmetleri, bilgi işlem) doğrudan erişim sağlamaya karar verirsek ve bu kaynakların tahsisini etkileme gücüne sahip olursak. Tüm AI X risk senaryoları, suçu algoritmaya kaydırmaya karar verdiğimiz bir dünyayı içerir.
Sorunun ciddiyetini, hatta her şeye kadir olduğunu vurgulamak yararlı bir retorik taktiktir, çünkü elbette hiçbir çözüm orijinal sorunu tamamen çözemez ve bir çözüm denemenin eleştirisi, "bir şey hiç yoktan iyidir" argümanıyla kolayca saptırılır. Son derece güçlü yapay zeka sistemleri feci bir tahribata yol açma potansiyeline sahipse, o zaman bugün araştırmayı hizalamak için her türlü çabayı alkışlamalıyız, işin kendisi yanlış yöne gidiyor olsa bile, olmasını istediğimiz şeyi elde etmese bile. Uyum gerçekten zorsa, bunu herkesin yararına hareket ettiklerine inanan uzmanlara bırakmalıyız. Yapay zeka sistemleri gerçekten bu kadar ciddi zararlara neden olacak kadar güçlüyse, mevcut insan karar verme sürecini değiştirecek, artıracak veya başka bir şekilde maddi olarak etkileyecek kadar yetenekli olmalıdırlar.
Algoritmaların insan karar verme sürecini iyileştirmek için ne zaman ve ne zaman kullanılabileceği, algoritmaların insan karar verme üzerindeki etkisinin nasıl ölçüleceği veya önerilerinin kalitesinin nasıl değerlendirileceği ve ilk etapta insan karar verme sürecini iyileştirmenin ne anlama geldiği hakkında zengin ve incelikli bir tartışma yapabiliriz. Aktivistler, akademisyenler ve topluluk organizatörlerinden oluşan büyük bir grup bu konuşmayı yıllardır yürütüyor. Türlerin neslinin tükenmesini veya kitlesel zararı önlemek, bu konuşmaya ciddi bir katılım ve "yerel" olarak kabul edilebilecek "vaka çalışmalarının" yalnızca dahil olanlar, hatta hayatta kalmaları üzerinde büyük bir etkiye sahip olmakla kalmayıp, aynı zamanda algoritmaları gerçek dünyadaki karar verme bağlamlarına entegre eden akıl yürütme çerçeveleri oluşturmak için aydınlatıcı ve üretken olduğunu kabul etmeyi gerektirir. Örneğin, ceza adaletinde, algoritmalar toplam hapishane nüfusunu azaltmada başarılı olabilir, ancak ırksal eşitsizlikleri ele alamazlar. Sağlık hizmetlerinde, algoritmalar teorik olarak klinisyenlerin karar verme sürecini iyileştirebilir, ancak pratikte AI dağıtımını etkileyen organizasyon yapısı çok karmaşıktır.
Teknik zorluklar kesinlikle var, ancak teknik kararlara odaklanmak bu üst düzey sorunları görmezden geliyor. Akademide sadece ekonomi, sosyal seçim ve siyaset bilimi değil, aynı zamanda tarih, sosyoloji, toplumsal cinsiyet çalışmaları, ırk çalışmaları, siyah çalışmaları vb. gibi çok çeşitli disiplinler de vardır ve bunlar neyin etkili yönetişimi oluşturduğu, kolektif iyilik için ademi merkeziyetçi karar vermenin ne olduğu ve kamusal alana gerçek katılımı neyin oluşturduğu hakkında akıl yürütmek için bir çerçeve sağlarken, iktidardakiler yalnızca belirli katkıları meşru görür. Bireysel eylemlerden makro politikalara kadar, sivil toplum örgütleri ve aktivist grupları on yıllarca, hatta yüzyıllarca süren kolektif deneyime sahiptir ve her düzeyde önemli bir değişimin nasıl gerçekleştirileceği ile boğuşmaktadır.
Bu nedenle, YZ'deki ilerlemeler için riskler sadece teknik yetenekler ve keyfi hayal gücü eşiğini aşıp aşmayacakları değildir. Ayrıca, genel halk olarak yapay zeka hakkında nasıl konuştuğumuz, yazdığımız ve düşündüğümüzle de ilgilidir; Aynı zamanda zamanımızı, dikkatimizi ve sermayemizi nasıl tahsis etmeyi seçtiğimizle de ilgilidir. En son model gerçekten dikkat çekicidir ve hizalama çalışması aynı zamanda gerçekten büyüleyici teknik sorunları da araştırmaktadır. Ancak, varoluşsal olsun ya da olmasın, yapay zekanın neden olduğu felaketler konusunda gerçekten endişeleniyorsak, yapay zekanın yaygın olarak kullanıldığı bir gelecekten en çok yararlanacak olanlara güvenemeyiz.