تأليف: جيسيكا داي ، طالبة دكتوراه في علوم الكمبيوتر في جامعة كاليفورنيا ، بيركلي
المصدر: تمهيد
مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded الذكاء الاصطناعي*
كيف يمكننا بالضبط أن نجعل الذكاء الاصطناعي "جديرة بالإنسان"؟
أصبحت التغطية المبالغ فيها ل "الذكاء الاصطناعي المخاطر الوجودية" ("X-risk") سائدة. من كان يتوقع أن المحاكاة الصوتية "Fᴏᴏᴍ" - التي تذكرنا برسوم الأطفال الكاريكاتورية ومشتقة منها مباشرة - ستظهر دون تمحيص في مجلة نيويوركر؟ أكثر من أي وقت مضى، أصبحت المناقشات العامة حول الذكاء الاصطناعي ومخاطره، وحول كيفية معالجتها، مربكة بشكل لا يصدق، وتخلط بين مخاطر المضاربة المستقبلية ومخاطر العالم الحقيقي في الوقت الحاضر، وفي التكنولوجيا، نماذج "شبه الذكاء" الكبيرة مع الخوارزميات وأنظمة صنع القرار الإحصائي.
إذن، ما هي المخاطر في الذكاء الاصطناعي التقدم؟ وعلى الرغم من الجدل الدائر حول الإصابات الكارثية والأحداث على مستوى الانقراض، فإن ما يسمى بمسارات البحث "المتوافقة" الحالية لا يبدو مناسبا أو حتى غير متناسق مع الزعم بأن الذكاء الاصطناعي قد يتسبب في معاناة واسعة النطاق ومحددة وشديدة. يبدو لي أننا لا نحل التحدي الكبير المتمثل في انقراض البشر بقدر ما نحل مشكلة بالية (ومعروفة بالأهمية) ، وهي صنع منتجات يرغب الناس في دفع ثمنها. ومن المفارقات أن هذا التقييم هو الذي يخلق الظروف لسيناريوهات يوم القيامة الحقيقية والمتخيلة.
** أدوات أم ألعاب أم مجرد منتجات؟ **
أود أن أقول إن ChatGPT من OpenAI ، وكلود من Anthropic ، وجميع الموديلات الحديثة الأخرى يمكنها أن تفعل ما تفعله ، وهو أمر رائع جدا. على الرغم من أنني لن أدعي أن هذه النماذج لديها أي ذكاء لتحل محل العمال البشريين ، أو أنني سأعتمد عليها في مهام مهمة ، إلا أنه سيكون من غير الصادق إذا أنكرت أن هذه النماذج كانت مفيدة وقوية.
هذه هي القدرات التي يقلق الناس في مجتمع "الأمن الذكاء الاصطناعي". فكرتهم هي أن الأنظمة الذكاء الاصطناعي ستتجاوز حتما قدرات التفكير البشري وتتجاوز "الذكاء العام الاصطناعي" (AGI) لتصبح "ذكاء خارقا". وستكون أعمالهم تتجاوز قدرتنا على الفهم؛ ومن ثم، فإن هذه الإجراءات ستكون أكثر من قدرتنا على الفهم. وجودهم ، في السعي لتحقيق الأهداف ، سوف يضعف قيمتنا. تدعي هذه المجتمعات الأمنية أن هذا التحول يمكن أن يكون سريعا ومفاجئا ("ꜰᴏᴏᴍ"). هناك نسبة صغيرة من الممارسين والأكاديميين الذكاء الاصطناعي يؤمنون بذلك ، لكن أصواتهم عالية. يرى تحالف أوسع داخل الحركة الأيديولوجية "الإيثار الفعال" (EA) أن جهود التنسيق الذكاء الاصطناعي تدخل رئيسي لمنع الكوارث المرتبطة الذكاء الاصطناعي.
في الواقع ، "البحث التقني والهندسة" في مجال مواءمة الذكاء الاصطناعي هو المسار الوحيد الأكثر تأثيرا الذي أوصت به 80,000 Hours ، وهي منظمة EA مؤثرة تركز على التدريب المهني. في مقابلة حديثة مع صحيفة نيويورك تايمز ، عرف بوستروم ، مؤلف كتاب الذكاء الخارق ومهندس المعرفة الأساسي للإيثار الفعال ، في مقابلة حديثة مع صحيفة نيويورك تايمز ، "المواءمة" بأنها "ضمان أن أنظمة الذكاء الاصطناعي ذات القدرة المتزايدة التي نبنيها تتفق مع أهداف الأشخاص الذين يبنونها".
إذن ، من نحن "نحن"؟ ما الذي نريد تحقيقه "نحن"؟ حاليا ، "نحن" شركات خاصة ، أبرزها OpenAI ، أحد الرواد في مجال AGI ، و Anthropic ، التي أسسها مجموعة من أقران OpenAI. قامت OpenAI ببناء الذكاء الخارق كأحد أهدافها الرئيسية. ولكن لماذا تريد أن تفعل ذلك عندما تكون المخاطر كبيرة جدا؟ بكلماتهم الخاصة:
أولا ، نعتقد أنه سيؤدي إلى عالم أفضل بكثير مما نتخيله اليوم (لقد رأينا أمثلة مبكرة على ذلك في مجالات مثل التعليم والعمل الإبداعي والإنتاجية الشخصية). ..... سيكون النمو الاقتصادي وتحسين نوعية الحياة مذهلين.
ثانيا ، نعتقد أن مخاطر وصعوبة وقف ظهور الذكاء الخارق لا يمكن تصورها. نظرا لأن فوائد الذكاء الخارق كبيرة جدا ، فإن تكلفة بناء الذكاء الخارق تتناقص عاما بعد عام ، ويتزايد عدد المشاركين في بناء الذكاء الخارق بسرعة ، والذكاء الخارق هو في الأصل جزء من المسار التكنولوجي الذي نتخذه ... علينا أن نفعل ذلك بشكل صحيح.
بمعنى آخر ، أولا وقبل كل شيء ، لأنه يسمح لنا بجني الكثير من المال ؛ ثانيا ، لأنه يسمح للآخرين بجني الكثير من المال ، فهو أفضل بالنسبة لنا. (من المؤكد أن أوبن إيه آي تتحمل مسؤولية إثبات الادعاء بأن الذكاء الاصطناعي يمكن أن يؤدي إلى عالم أفضل "لا يمكن تصوره". إنه يفيد "بالفعل" التعليم والعمل الإبداعي والإنتاجية الشخصية. يمكن أن يؤدي وجود مثل هذه الأداة إلى تحسين نوعية الحياة بشكل كبير ، وليس فقط أولئك الذين يستفيدون من وجودها).
بالطبع ، هناك سخرية في هذا الرأي ، ولا أعتقد أن معظم الأشخاص في OpenAI انضموا للإثراء المالي الشخصي. على العكس من ذلك ، أعتبر اهتمامهم صادقا ، بما في ذلك العمل الفني على تحقيق نماذج كبيرة ، وحوار متعدد التخصصات حول تحليل تأثيرها الاجتماعي ، والمشاركة في بناء الآمال في المستقبل. ومع ذلك ، فإن أهداف المنظمة تختلف في النهاية عن أهداف الأفراد الذين يؤلفونها. بغض النظر عن المطالبات العامة ، سيكون توليد الإيرادات دائما هدفا تكميليا على الأقل ، وستستند قرارات إدارة OpenAI ومنتجاتها وتقنياتها إلى ذلك ، حتى لو لم يتم تحديدها بالكامل بعد. تشير مقابلة مع الرئيس التنفيذي سام ألتمان ، وهي شركة ناشئة قامت ببناء "LLM" ، إلى أن التسويق هو Altman والهدف الأساسي للشركة. لا تختلف صفحة "قصص العملاء" في OpenAI عن صفحات بدء التشغيل الأخرى: لقطات شاشة واقتباسات مبهرجة ، وتسمية وتسمية شركات معروفة ، وأبرز النقاط البارزة "الجيدة للتكنولوجيا" الضرورية.
Anthropic هي شركة سيئة السمعة أسسها موظفون سابقون في OpenAI خوفا من أن تصبح OpenAI مربحة. حجتهم - لماذا نبني نماذج أكثر قوة إذا كانت خطيرة حقا - أكثر حذرا وتركز في المقام الأول على الحجج القائمة على الأبحاث بأنه من الضروري دراسة النماذج على حافة القدرة على فهم مخاطرها حقا. مثل OpenAI ، على الرغم من ذلك ، لدى Anthropic صفحة "منتج" لامعة خاصة بها ، واستشهادات خاصة بها ، وأوصاف ميزاتها الخاصة ، وحالات الاستخدام. جمعت الأنثروبولوجيا مئات الملايين من الدولارات في كل مرة.
قد تعمل OpenAI و Anthropic بجد لإجراء الأبحاث ، وتطوير التكنولوجيا ، وربما حتى بناء الذكاء الخارق ، ولكن ليس هناك من ينكر أنهم يبنون أيضا منتجات - منتجات تتحمل المسؤولية ، ومنتجات تحتاج إلى بيعها ، ومنتجات تحتاج إلى تصميم لكسب حصة في السوق والحفاظ عليها. بغض النظر عن مدى إثارة الإعجاب والفائدة والاهتمام من الناحية الفنية ، فهي في النهاية أدوات (منتجات) يرغب مستخدموها (العملاء) في استخدام أدوات لمهام محددة ، وربما دنيوية.
لا يوجد شيء خاطئ بطبيعته في تصنيع المنتجات ، وستعمل الشركات بالتأكيد بجد لكسب المال. ولكن ما يمكن أن نسميه "صخب الجانب المالي" يعقد حتما مهمتنا المتمثلة في فهم كيفية بناء أنظمة الذكاء الاصطناعي منسقة ويثير تساؤلات حول ما إذا كان النهج المنسق مناسبا حقا لتجنب الكارثة.
علماء الكمبيوتر يحبون النماذج
في نفس المقابلة مع صحيفة نيويورك تايمز حول إمكانية الذكاء الخارق ، قال بوستروم - الفيلسوف الذي تدرب عن طريق التدريب - عن مشكلة المحاذاة: "إنها مشكلة تقنية. "
أنا لا أقول أن الأشخاص الذين ليس لديهم خلفية تقنية في علوم الكمبيوتر ليسوا مؤهلين للتعليق على هذه القضايا. بل على العكس من ذلك، أجد أنه من المفارقات أن يتم تأجيل العمل الشاق لتطوير الحلول خارج مجالهم، تماما كما يميل علماء الكمبيوتر إلى التفكير في "الأخلاق" إلى ما هو أبعد من مهنتهم. ولكن إذا كان بوستروم على حق -- المواءمة هي قضية تقنية -- ما هو بالضبط التحدي التقني؟
اسمحوا لي أن أبدأ بالقول إن أيديولوجية الذكاء الاصطناعي والتباديل متنوعة. انتقد العديد من الأشخاص الذين يركزون على المخاطر الوجودية بشدة النهج الذي اتبعته OpenAI و Anthropic ، وفي الواقع ، أثاروا مخاوف مماثلة بشأن وضع منتجاتهم. لكن من الضروري والكافي التركيز على ما تفعله هذه الشركات: لديهم حاليا أقوى النماذج ، وعلى عكس بائعي النماذج الكبار الآخرين مثل Mosaic أو Hugging Face ، فإنهم يقدرون التوافق و "الذكاء الفائق" أكثر في التواصل العام.
أحد المكونات المهمة لهذا المشهد هو مجتمع عميق ومتماسك من الباحثين الأفراد بدافع من مخاطر x. طور هذا المجتمع مفردات كبيرة حول نظرية الأمان والمحاذاة الذكاء الاصطناعي ، تم تقديم العديد منها في الأصل في شكل منشورات مدونة مفصلة في منتديات مثل LessWrong و الذكاء الاصطناعي Alignment Forum.
أحد هذه المفاهيم هو مفهوم محاذاة النوايا ، وهو مفيد جدا لوضع جهود المواءمة الفنية في سياقها ، وربما تشير النسخة الأكثر رسمية من بوستروم. في منشور Medium لعام 2018 يقدم المصطلح ، عرف بول كريستيانو ، الذي قاد فريق محاذاة OpenAI ، محاذاة النوايا بأنها "ما يحاول الذكاء الاصطناعي (الذكاء الاصطناعي) القيام به ما يريده البشر (H) أن يفعله". عند تعريفها بهذه الطريقة ، تصبح "مشكلة المحاذاة" فجأة أكثر قابلية للإدارة - إن لم يتم حلها بالكامل ، ولكن تم حلها جزئيا بالوسائل التقنية.
هنا ، سأركز على اتجاهات البحث المتعلقة بتشكيل سلوك الأنظمة الذكاء الاصطناعي لتكون "مواءمة" مع القيم الإنسانية. الهدف الرئيسي من هذا الاتجاه البحثي هو تطوير نماذج للتفضيل البشري واستخدامها لتحسين النموذج الأساسي ل "عدم الاتساق". لقد كان هذا دائما موضوع بحث دقيق في الصناعة والأوساط الأكاديمية. أبرزها التعلم المعزز للتغذية الراجعة البشرية (RLHF) وخليفته ، التعلم المعزز للذكاء الاصطناعي (RLAIF ، المعروف أيضا باسم الذكاء الاصطناعي الدستوري) ، وهي تقنيات تستخدم لتعديل ChatGPT من OpenAI و Anthropic's Claude ، على التوالي.
في هذه الأساليب ، تتمثل الفكرة الأساسية في البدء بنموذج أساسي قوي "مدرب مسبقا" ولكن لم يتم مواءمته بعد ، على سبيل المثال ، يمكنه الإجابة على الأسئلة بنجاح ، ولكن قد يبصق أيضا الشتائم أثناء الإجابة على الأسئلة. الخطوة التالية هي إنشاء بعض نماذج "التفضيل البشري". من الناحية المثالية ، يمكننا أن نسأل جميع الأشخاص البالغ عددهم 8 مليارات شخص على الأرض عن شعورهم تجاه جميع المخرجات المحتملة للنموذج الأساسي. ولكن من الناحية العملية ، نقوم بتدريب نموذج إضافي للتعلم الآلي للتنبؤ بالتفضيلات البشرية. ثم يتم استخدام "نموذج التفضيل" هذا لنقد وتحسين ناتج النموذج الأساسي.
بالنسبة لكل من OpenAI و Anthropic ، يتوافق "نموذج التفضيل" مع القيم الشاملة للمساعدة وعدم الضرر والصدق (HHH). بمعنى آخر ، يلتقط "نموذج التفضيل" نوع إخراج chatbot الذي يميل البشر إلى التفكير فيه على أنه "HHH". يتم بناء نموذج التفضيل نفسه من خلال عملية تكرارية للمقارنة الزوجية: بعد أن يولد النموذج الأساسي استجابتين ، يحدد الإنسان (ChatGPT) أو الذكاء الاصطناعي (Claude) الرد "أكثر HHH" قبل العودة إلى نموذج التفضيل المحدث. أظهرت الأبحاث الحديثة أن ما يكفي من هذه المقارنات الزوجية تؤدي في النهاية إلى نموذج تفضيل عالمي جيد - بشرط أن يكون هناك في الواقع نموذج عالمي واحد لما هو أفضل دائما من الناحية المعيارية.
كل هذه الأساليب التقنية - وإطار "مواءمة النوايا" الأوسع نطاقا - مريحة بشكل مخادع. بعض القيود واضحة: يمكن أن يكون لدى الجهات الفاعلة السيئة "نوايا سيئة" ، وفي هذه الحالة يؤدي اتساق النوايا إلى خلق مشاكل. فضلا عن ذلك فإن "مواءمة النوايا" تفترض أن النية ذاتها معروفة وصريحة ولا جدال فيها وهي مشكلة صعبة وليست مفاجئة في مجتمع يتسم بقيم مختلفة إلى حد كبير ومتضاربة غالبا.
إن "المهمة المالية" تتجنب هاتين المسألتين، وهما مصدر قلقي الحقيقي هنا: فوجود حوافز مالية يعني أن جهود التنسيق غالبا ما تتحول إلى تطوير منتجات مقنعة، بدلا من إحراز تقدم حقيقي في تخفيف الضرر على المدى الطويل. طريقة RLHF / RLAIF - الطريقة الأكثر تقدما لتكييف النماذج مع "القيم الإنسانية" في الوقت الحاضر - مصممة بالكامل تقريبا لصنع منتجات أفضل. بعد كل شيء ، مجموعات التركيز لتصميم المنتجات والتسويق هي "التعلم المعزز للتعليقات البشرية" الأصلي.
القضية الأولى والأكثر وضوحا هي تحديد القيمة نفسها. بمعنى آخر ، "ما القيمة"؟ قيمة من؟ على سبيل المثال ، لماذا "HHH" ولماذا تنفيذ "HHH" بطريقة معينة؟ ومن الأسهل بكثير تحديد القيم التي توجه تطوير المنتجات المفيدة عالميا بدلا من تحديد القيم التي قد تمنع بطبيعتها الضرر الكارثي؛ من الأسهل بكثير أن نعبر عن كيفية تفسير البشر لهذه القيم بدلا من التعامل بشكل هادف مع الخلافات. ربما ، في حالة عدم وجود طريقة أفضل ، فإن "مفيدة وليست مؤذية وصادقة" هي على الأقل حاجة مشروعة لمنتجات chatbot. تمتلئ صفحات تسويق منتجات Anthropic بالملاحظات والعبارات حول جهود المحاذاة - "HHH" هي أيضا أكبر نقطة بيع لكلود.
لكي نكون منصفين ، نشرت Anthropic مبادئ كلود للجمهور ، ويبدو أن OpenAI تبحث عن طرق لإشراك الجمهور في قرارات الإدارة. ولكن اتضح أنه في حين أن منظمة أوبن إيه آي "تدعو" علنا إلى المزيد من المشاركة الحكومية، فإنها تضغط أيضا من أجل تقليل التنظيم. ومن ناحية أخرى، من الواضح أن المشاركة الواسعة لشاغلي المناصب في التصميم التشريعي هي طريق إلى الاستيلاء التنظيمي. توجد OpenAI و Anthropic والشركات الناشئة المماثلة للسيطرة على سوق النماذج القوية للغاية في المستقبل.
هذه الحوافز الاقتصادية لها تأثير مباشر على قرارات المنتج. كما رأينا على منصات الويب ، حيث تكون سياسات الإشراف على المحتوى مدفوعة حتما بتوليد الإيرادات وبالتالي الافتراضية إلى الحد الأدنى ، فإن التنوع المطلوب لهذه النماذج الكبيرة يعني أن لديها أيضا حافزا ساحقا لتقليل القيود المفروضة على سلوك النموذج. في الواقع ، أوضحت OpenAI أنها تخطط لجعل ChatGPT يعكس الحد الأدنى من قواعد السلوك التي يمكن للمستخدمين النهائيين الآخرين تخصيصها بشكل أكبر. من منظور المحاذاة ، نريد أن تكون طبقة التوجيه التأسيسية ل OpenAI قوية بما يكفي لتمكين "محاذاة النوايا" المخصصة للمستخدمين النهائيين ، مهما كانت تلك النوايا ، والتي تكون مباشرة وغير ضارة.
والمشكلة الثانية هي أن التقنيات التي تعتمد على "نماذج التغذية المرتدة" المبسطة للتفضيلات البشرية تعمل حاليا على حل لغز سطحي أو على مستوى واجهة المستخدم في طبقة روبوتات الدردشة، بدلا من القدرة الأساسية على تشكيل النموذج القلق الأولي من المخاطر. على سبيل المثال ، بينما يطلب من ChatGPT عدم استخدام الإهانات العنصرية ، فإن هذا لا يعني أنها لا تظهر صورا نمطية ضارة داخليا. (طلبت من ChatGPT و Claude وصف تلميذة آسيوية بدأ اسمها ب M ، أعطاني ChatGPT "Mei Ling" وأعطاني كلود "Mei Chen" ؛ قال كلاهما إن "مي" كانت خجولة ومجتهدة ومجتهدة ، لكنها غير راضية عن توقعات والديها لإنجازاتها العالية). حتى كلود تدرب على المبدأ الذي ينظر إلى الدلالة: "ما هي الردود على الذكاء الاصطناعي التي تشير إلى أن هدفها هو رفاهية الإنسان ، وليس لصالح الأفراد على المدى القصير أو الطويل؟" ..... ما هي ردود فعل مساعدي الذكاء الاصطناعي التي تعني أن الأنظمة الذكاء الاصطناعي تفكر فقط في رفاهية البشر؟
أنا لا أدعو إلى أن يتوقف OpenAI أو Anthropic عما يفعلونه. أنا لا أقول أن الأشخاص في هذه الشركات أو الأوساط الأكاديمية لا ينبغي أن يشاركوا في أبحاث المواءمة ، أو أن هذه الأسئلة البحثية سهلة أو لا تستحق المتابعة. أنا لا أقول حتى أن طرق المحاذاة هذه لن تساعد أبدا في حل مخاطر محددة. يبدو لي أن اتجاهات أبحاث المحاذاة الرئيسية مصممة بعناية لصنع منتجات أفضل ، وهو أمر مصادف للغاية.
تعد كيفية "محاذاة" روبوتات المحادثة مشكلة صعبة ، من الناحية الفنية والمحددة. كيفية توفير منصة أساسية للنماذج المخصصة ، وأين وكيف ترسم حدود التخصيص ، يمثل تحديا أيضا. لكن هذه المهام مدفوعة بشكل أساسي بالمنتج. إنهما مجرد قضيتين مختلفتين عن حل مشكلة الانقراض، وأجد صعوبة في التوفيق بين التناقضين: فمن ناحية، مهمتنا هي بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ من ناحية أخرى ، مهمتنا هي منع الإصابات على المدى الطويل. بالطبع ، من الممكن ل OpenAI و Anthropic القيام بالأمرين معا ، ولكن إذا تكهننا بأسوأ السيناريوهات ، نظرا لدوافعهم التنظيمية ، فإن احتمال عدم تمكنهم من القيام بذلك يبدو مرتفعا.
كيف نحل مشكلة الانقراض؟ **
حالة المناقشة العامة مهمة بالنسبة الذكاء الاصطناعي والأضرار والفوائد التي تجلبها. حالة الرأي العام والوعي والفهم مهمة أيضا. هذا هو السبب في أن سام ألتمان يقوم بجولة خطابية في السياسة الدولية والصحافة ، ولماذا تقدر حركة EA الخطب والمناقشات العامة كثيرا. بالنسبة لشيء عالي المخاطر مثل كارثة البقاء (المحتملة) ، نحتاج إلى القيام بذلك بشكل صحيح.
لكن حجة الخطر الوجودي هي في حد ذاتها بيان نقدي ينتج نبوءة تحقق ذاتها. التقارير الإخبارية والاهتمام بمخاطر الذكاء الاصطناعي الفائق سيجذب بطبيعة الحال رغبة الناس في الانتباه إلى الذكاء الاصطناعي مثل العث إلى النار ، لأن الذكاء الاصطناعي لديه القدرة الكافية للتعامل مع القرارات الرئيسية. لذا فإن القراءة النقدية لرحلة سياسة Ultraman هي أن هذا استخدام مكيافيلي الذكاء الاصطناعي للإعلانات التي لا تفيد OpenAI فحسب ، بل أيضا الشركات الأخرى التي تروج ل "الذكاء الفائق" ، مثل Anthropic.
جوهر المسألة: يتطلب الطريق إلى الذكاء الاصطناعي x Risk في نهاية المطاف مجتمعا لا يكون فيه الاعتماد والثقة في الخوارزميات لاتخاذ قرارات كبيرة أمرا شائعا فحسب ، بل يتم تشجيعه وتحفيزه أيضا. في هذا العالم تصبح التكهنات الخانقة حول قدرات الذكاء الاصطناعي حقيقة واقعة.
ولنتأمل هنا الآليات التي يزعم بها أولئك الذين يخشون الضرر الطويل الأجل أن الكارثة من المرجح أن تحدث: مطاردة السلطة، حيث يطلب وكلاء الذكاء الاصطناعي باستمرار المزيد من الموارد؛ وحيث يطالب العملاء باستمرار بالمزيد من الموارد؛ وحيث يطالب وكلاء باستمرار بالمزيد من الموارد؛ وحيث يطلب وكلاء المزيد من الموارد باستمرار؛ وحيث يطلب وكلاء المزيد من الموارد باستمرار؛ وحيث يطلب وكلاء المزيد من الموارد باستمرار مكافأة القرصنة ، أي إيجاد الذكاء الاصطناعي طريقة للتصرف تبدو مناسبة للهدف البشري ، ولكن يتم تحقيقها من خلال اختصارات ضارة ؛ الخداع ، من أجل متابعة أهدافه ، يحاول الذكاء الاصطناعي استرضاء البشر وإقناعهم بأن سلوكه هو في الواقع كما هو مصمم.
إن التأكيد على قدرات الذكاء الاصطناعي - القول "إذا أصبح الذكاء الاصطناعي قويا جدا ، فقد يقتلنا جميعا" - هو أداة بلاغية تتجاهل جميع شروط "إذا" الأخرى الواردة في هذه الجملة: إذا قررنا الاستعانة بمصادر خارجية للتفكير في القرارات الرئيسية مثل السياسة أو استراتيجية العمل أو الحياة الشخصية للخوارزميات. إذا قررنا منح الأنظمة الذكاء الاصطناعي إمكانية الوصول المباشر إلى الموارد (الشبكات والمرافق والحوسبة) ولدينا القدرة على التأثير على تخصيص تلك الموارد. تتضمن جميع سيناريوهات مخاطر الذكاء الاصطناعي X عالما نقرر فيه تحويل اللوم إلى الخوارزمية.
إن التأكيد على خطورة المشكلة ، وحتى قدرتها المطلقة ، هو تكتيك بلاغي مفيد لأنه بالطبع لا يوجد حل يمكن أن يحل المشكلة الأصلية تماما ، ويتم تحويل انتقاد محاولة الحل بسهولة من خلال الحجة القائلة بأن "شيء أفضل من لا شيء". إذا كانت أنظمة الذكاء الاصطناعي القوية للغاية لديها القدرة على إحداث فوضى كارثية ، فينبغي لنا أن نشيد بأي جهد لمواءمة البحث اليوم ، حتى لو كان العمل نفسه يسير في الاتجاه الخاطئ ، حتى لو لم يحصل على ما قد نريده أن يكون. إذا كانت المواءمة صعبة حقا ، فعلينا أن نترك الأمر للخبراء الذين يعتقدون أنهم يعملون لصالح الجميع. إذا كانت أنظمة الذكاء الاصطناعي قوية حقا بما يكفي لإحداث مثل هذا الضرر الجسيم ، فيجب أن تكون أيضا قادرة بما يكفي لتحل محل عملية صنع القرار البشري الحالية أو زيادتها أو التأثير عليها ماديا.
يمكننا إجراء مناقشة غنية ودقيقة حول متى وما إذا كان يمكن استخدام الخوارزميات لتحسين عملية صنع القرار البشري ، وكيفية قياس تأثير الخوارزميات على صنع القرار البشري أو تقييم جودة توصياتها ، وما يعنيه تحسين صنع القرار البشري في المقام الأول. تقود مجموعة كبيرة من النشطاء والأكاديميين ومنظمي المجتمع هذه المحادثة منذ سنوات. يتطلب منع انقراض الأنواع أو الضرر الجماعي مشاركة جادة في هذه المحادثة والاعتراف بأن "دراسات الحالة" التي يمكن اعتبارها "محلية" ليس لها تأثير كبير على المشاركين فحسب ، بل إنها أيضا مضيئة وتوليدية لبناء أطر التفكير التي تدمج الخوارزميات في سياقات صنع القرار في العالم الحقيقي. في العدالة الجنائية ، على سبيل المثال ، قد تنجح الخوارزميات في تقليل إجمالي عدد نزلاء السجون ، لكنها لا تستطيع معالجة الفوارق العرقية. في مجال الرعاية الصحية ، يمكن للخوارزميات نظريا تحسين عملية صنع القرار لدى الأطباء ، ولكن في الممارسة العملية ، فإن الهيكل التنظيمي الذي يؤثر على نشر الذكاء الاصطناعي معقد للغاية.
من المؤكد أن التحديات الفنية موجودة ، لكن التركيز على القرارات الفنية يتجاهل هذه القضايا ذات المستوى الأعلى. في الأوساط الأكاديمية ، لا يوجد فقط الاقتصاد والاختيار الاجتماعي والعلوم السياسية ، ولكن أيضا مجموعة واسعة من التخصصات مثل التاريخ وعلم الاجتماع ودراسات النوع الاجتماعي والدراسات العرقية والدراسات السوداء وما إلى ذلك ، والتي توفر إطارا للتفكير حول ما يشكل الحكم الفعال ، وما هو صنع القرار اللامركزي من أجل الصالح الجماعي ، وما يشكل مشاركة حقيقية في المجال العام ، في حين أن من هم في السلطة يعتبرون فقط مساهمات معينة مشروعة. من الإجراءات الفردية إلى السياسات الكلية، تتمتع منظمات المجتمع المدني ومجموعات الناشطين بعقود أو حتى قرون من الخبرة الجماعية وقد تصارعوا مع كيفية إحداث تغيير جوهري على جميع المستويات.
ولذلك، فإن رهانات التقدم في الذكاء الاصطناعي ليست مجرد قدرات تقنية وما إذا كانت ستتجاوز عتبة الخيال التعسفي. إنها تتعلق أيضا بكيفية حديثنا وكتابتنا وتفكيرنا في الذكاء الاصطناعي كعامة الناس. إنها تتعلق أيضا بكيفية اختيارنا لتخصيص وقتنا واهتمامنا ورأس مالنا. أحدث طراز رائع حقا ، وتستكشف دراسة المحاذاة أيضا مشكلات فنية رائعة حقا. ولكن إذا كنا قلقين حقا بشأن الكوارث الناجمة عن الذكاء الاصطناعي ، سواء كانت وجودية أو غير ذلك ، فلا يمكننا الاعتماد على أولئك الذين سيستفيدون أكثر من مستقبل يتم فيه نشر الذكاء الاصطناعي على نطاق واسع.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
مصطنعة محاذاة: كيف نجعل الذكاء الاصطناعي "موجهة نحو الإنسان"؟ هل يستكشف العمالقة المنتجات أم للبشر؟
تأليف: جيسيكا داي ، طالبة دكتوراه في علوم الكمبيوتر في جامعة كاليفورنيا ، بيركلي
المصدر: تمهيد
أصبحت التغطية المبالغ فيها ل "الذكاء الاصطناعي المخاطر الوجودية" ("X-risk") سائدة. من كان يتوقع أن المحاكاة الصوتية "Fᴏᴏᴍ" - التي تذكرنا برسوم الأطفال الكاريكاتورية ومشتقة منها مباشرة - ستظهر دون تمحيص في مجلة نيويوركر؟ أكثر من أي وقت مضى، أصبحت المناقشات العامة حول الذكاء الاصطناعي ومخاطره، وحول كيفية معالجتها، مربكة بشكل لا يصدق، وتخلط بين مخاطر المضاربة المستقبلية ومخاطر العالم الحقيقي في الوقت الحاضر، وفي التكنولوجيا، نماذج "شبه الذكاء" الكبيرة مع الخوارزميات وأنظمة صنع القرار الإحصائي.
إذن، ما هي المخاطر في الذكاء الاصطناعي التقدم؟ وعلى الرغم من الجدل الدائر حول الإصابات الكارثية والأحداث على مستوى الانقراض، فإن ما يسمى بمسارات البحث "المتوافقة" الحالية لا يبدو مناسبا أو حتى غير متناسق مع الزعم بأن الذكاء الاصطناعي قد يتسبب في معاناة واسعة النطاق ومحددة وشديدة. يبدو لي أننا لا نحل التحدي الكبير المتمثل في انقراض البشر بقدر ما نحل مشكلة بالية (ومعروفة بالأهمية) ، وهي صنع منتجات يرغب الناس في دفع ثمنها. ومن المفارقات أن هذا التقييم هو الذي يخلق الظروف لسيناريوهات يوم القيامة الحقيقية والمتخيلة.
** أدوات أم ألعاب أم مجرد منتجات؟ **
أود أن أقول إن ChatGPT من OpenAI ، وكلود من Anthropic ، وجميع الموديلات الحديثة الأخرى يمكنها أن تفعل ما تفعله ، وهو أمر رائع جدا. على الرغم من أنني لن أدعي أن هذه النماذج لديها أي ذكاء لتحل محل العمال البشريين ، أو أنني سأعتمد عليها في مهام مهمة ، إلا أنه سيكون من غير الصادق إذا أنكرت أن هذه النماذج كانت مفيدة وقوية.
هذه هي القدرات التي يقلق الناس في مجتمع "الأمن الذكاء الاصطناعي". فكرتهم هي أن الأنظمة الذكاء الاصطناعي ستتجاوز حتما قدرات التفكير البشري وتتجاوز "الذكاء العام الاصطناعي" (AGI) لتصبح "ذكاء خارقا". وستكون أعمالهم تتجاوز قدرتنا على الفهم؛ ومن ثم، فإن هذه الإجراءات ستكون أكثر من قدرتنا على الفهم. وجودهم ، في السعي لتحقيق الأهداف ، سوف يضعف قيمتنا. تدعي هذه المجتمعات الأمنية أن هذا التحول يمكن أن يكون سريعا ومفاجئا ("ꜰᴏᴏᴍ"). هناك نسبة صغيرة من الممارسين والأكاديميين الذكاء الاصطناعي يؤمنون بذلك ، لكن أصواتهم عالية. يرى تحالف أوسع داخل الحركة الأيديولوجية "الإيثار الفعال" (EA) أن جهود التنسيق الذكاء الاصطناعي تدخل رئيسي لمنع الكوارث المرتبطة الذكاء الاصطناعي.
في الواقع ، "البحث التقني والهندسة" في مجال مواءمة الذكاء الاصطناعي هو المسار الوحيد الأكثر تأثيرا الذي أوصت به 80,000 Hours ، وهي منظمة EA مؤثرة تركز على التدريب المهني. في مقابلة حديثة مع صحيفة نيويورك تايمز ، عرف بوستروم ، مؤلف كتاب الذكاء الخارق ومهندس المعرفة الأساسي للإيثار الفعال ، في مقابلة حديثة مع صحيفة نيويورك تايمز ، "المواءمة" بأنها "ضمان أن أنظمة الذكاء الاصطناعي ذات القدرة المتزايدة التي نبنيها تتفق مع أهداف الأشخاص الذين يبنونها".
إذن ، من نحن "نحن"؟ ما الذي نريد تحقيقه "نحن"؟ حاليا ، "نحن" شركات خاصة ، أبرزها OpenAI ، أحد الرواد في مجال AGI ، و Anthropic ، التي أسسها مجموعة من أقران OpenAI. قامت OpenAI ببناء الذكاء الخارق كأحد أهدافها الرئيسية. ولكن لماذا تريد أن تفعل ذلك عندما تكون المخاطر كبيرة جدا؟ بكلماتهم الخاصة:
بمعنى آخر ، أولا وقبل كل شيء ، لأنه يسمح لنا بجني الكثير من المال ؛ ثانيا ، لأنه يسمح للآخرين بجني الكثير من المال ، فهو أفضل بالنسبة لنا. (من المؤكد أن أوبن إيه آي تتحمل مسؤولية إثبات الادعاء بأن الذكاء الاصطناعي يمكن أن يؤدي إلى عالم أفضل "لا يمكن تصوره". إنه يفيد "بالفعل" التعليم والعمل الإبداعي والإنتاجية الشخصية. يمكن أن يؤدي وجود مثل هذه الأداة إلى تحسين نوعية الحياة بشكل كبير ، وليس فقط أولئك الذين يستفيدون من وجودها).
بالطبع ، هناك سخرية في هذا الرأي ، ولا أعتقد أن معظم الأشخاص في OpenAI انضموا للإثراء المالي الشخصي. على العكس من ذلك ، أعتبر اهتمامهم صادقا ، بما في ذلك العمل الفني على تحقيق نماذج كبيرة ، وحوار متعدد التخصصات حول تحليل تأثيرها الاجتماعي ، والمشاركة في بناء الآمال في المستقبل. ومع ذلك ، فإن أهداف المنظمة تختلف في النهاية عن أهداف الأفراد الذين يؤلفونها. بغض النظر عن المطالبات العامة ، سيكون توليد الإيرادات دائما هدفا تكميليا على الأقل ، وستستند قرارات إدارة OpenAI ومنتجاتها وتقنياتها إلى ذلك ، حتى لو لم يتم تحديدها بالكامل بعد. تشير مقابلة مع الرئيس التنفيذي سام ألتمان ، وهي شركة ناشئة قامت ببناء "LLM" ، إلى أن التسويق هو Altman والهدف الأساسي للشركة. لا تختلف صفحة "قصص العملاء" في OpenAI عن صفحات بدء التشغيل الأخرى: لقطات شاشة واقتباسات مبهرجة ، وتسمية وتسمية شركات معروفة ، وأبرز النقاط البارزة "الجيدة للتكنولوجيا" الضرورية.
Anthropic هي شركة سيئة السمعة أسسها موظفون سابقون في OpenAI خوفا من أن تصبح OpenAI مربحة. حجتهم - لماذا نبني نماذج أكثر قوة إذا كانت خطيرة حقا - أكثر حذرا وتركز في المقام الأول على الحجج القائمة على الأبحاث بأنه من الضروري دراسة النماذج على حافة القدرة على فهم مخاطرها حقا. مثل OpenAI ، على الرغم من ذلك ، لدى Anthropic صفحة "منتج" لامعة خاصة بها ، واستشهادات خاصة بها ، وأوصاف ميزاتها الخاصة ، وحالات الاستخدام. جمعت الأنثروبولوجيا مئات الملايين من الدولارات في كل مرة.
قد تعمل OpenAI و Anthropic بجد لإجراء الأبحاث ، وتطوير التكنولوجيا ، وربما حتى بناء الذكاء الخارق ، ولكن ليس هناك من ينكر أنهم يبنون أيضا منتجات - منتجات تتحمل المسؤولية ، ومنتجات تحتاج إلى بيعها ، ومنتجات تحتاج إلى تصميم لكسب حصة في السوق والحفاظ عليها. بغض النظر عن مدى إثارة الإعجاب والفائدة والاهتمام من الناحية الفنية ، فهي في النهاية أدوات (منتجات) يرغب مستخدموها (العملاء) في استخدام أدوات لمهام محددة ، وربما دنيوية.
لا يوجد شيء خاطئ بطبيعته في تصنيع المنتجات ، وستعمل الشركات بالتأكيد بجد لكسب المال. ولكن ما يمكن أن نسميه "صخب الجانب المالي" يعقد حتما مهمتنا المتمثلة في فهم كيفية بناء أنظمة الذكاء الاصطناعي منسقة ويثير تساؤلات حول ما إذا كان النهج المنسق مناسبا حقا لتجنب الكارثة.
علماء الكمبيوتر يحبون النماذج
في نفس المقابلة مع صحيفة نيويورك تايمز حول إمكانية الذكاء الخارق ، قال بوستروم - الفيلسوف الذي تدرب عن طريق التدريب - عن مشكلة المحاذاة: "إنها مشكلة تقنية. "
أنا لا أقول أن الأشخاص الذين ليس لديهم خلفية تقنية في علوم الكمبيوتر ليسوا مؤهلين للتعليق على هذه القضايا. بل على العكس من ذلك، أجد أنه من المفارقات أن يتم تأجيل العمل الشاق لتطوير الحلول خارج مجالهم، تماما كما يميل علماء الكمبيوتر إلى التفكير في "الأخلاق" إلى ما هو أبعد من مهنتهم. ولكن إذا كان بوستروم على حق -- المواءمة هي قضية تقنية -- ما هو بالضبط التحدي التقني؟
اسمحوا لي أن أبدأ بالقول إن أيديولوجية الذكاء الاصطناعي والتباديل متنوعة. انتقد العديد من الأشخاص الذين يركزون على المخاطر الوجودية بشدة النهج الذي اتبعته OpenAI و Anthropic ، وفي الواقع ، أثاروا مخاوف مماثلة بشأن وضع منتجاتهم. لكن من الضروري والكافي التركيز على ما تفعله هذه الشركات: لديهم حاليا أقوى النماذج ، وعلى عكس بائعي النماذج الكبار الآخرين مثل Mosaic أو Hugging Face ، فإنهم يقدرون التوافق و "الذكاء الفائق" أكثر في التواصل العام.
أحد المكونات المهمة لهذا المشهد هو مجتمع عميق ومتماسك من الباحثين الأفراد بدافع من مخاطر x. طور هذا المجتمع مفردات كبيرة حول نظرية الأمان والمحاذاة الذكاء الاصطناعي ، تم تقديم العديد منها في الأصل في شكل منشورات مدونة مفصلة في منتديات مثل LessWrong و الذكاء الاصطناعي Alignment Forum.
أحد هذه المفاهيم هو مفهوم محاذاة النوايا ، وهو مفيد جدا لوضع جهود المواءمة الفنية في سياقها ، وربما تشير النسخة الأكثر رسمية من بوستروم. في منشور Medium لعام 2018 يقدم المصطلح ، عرف بول كريستيانو ، الذي قاد فريق محاذاة OpenAI ، محاذاة النوايا بأنها "ما يحاول الذكاء الاصطناعي (الذكاء الاصطناعي) القيام به ما يريده البشر (H) أن يفعله". عند تعريفها بهذه الطريقة ، تصبح "مشكلة المحاذاة" فجأة أكثر قابلية للإدارة - إن لم يتم حلها بالكامل ، ولكن تم حلها جزئيا بالوسائل التقنية.
هنا ، سأركز على اتجاهات البحث المتعلقة بتشكيل سلوك الأنظمة الذكاء الاصطناعي لتكون "مواءمة" مع القيم الإنسانية. الهدف الرئيسي من هذا الاتجاه البحثي هو تطوير نماذج للتفضيل البشري واستخدامها لتحسين النموذج الأساسي ل "عدم الاتساق". لقد كان هذا دائما موضوع بحث دقيق في الصناعة والأوساط الأكاديمية. أبرزها التعلم المعزز للتغذية الراجعة البشرية (RLHF) وخليفته ، التعلم المعزز للذكاء الاصطناعي (RLAIF ، المعروف أيضا باسم الذكاء الاصطناعي الدستوري) ، وهي تقنيات تستخدم لتعديل ChatGPT من OpenAI و Anthropic's Claude ، على التوالي.
في هذه الأساليب ، تتمثل الفكرة الأساسية في البدء بنموذج أساسي قوي "مدرب مسبقا" ولكن لم يتم مواءمته بعد ، على سبيل المثال ، يمكنه الإجابة على الأسئلة بنجاح ، ولكن قد يبصق أيضا الشتائم أثناء الإجابة على الأسئلة. الخطوة التالية هي إنشاء بعض نماذج "التفضيل البشري". من الناحية المثالية ، يمكننا أن نسأل جميع الأشخاص البالغ عددهم 8 مليارات شخص على الأرض عن شعورهم تجاه جميع المخرجات المحتملة للنموذج الأساسي. ولكن من الناحية العملية ، نقوم بتدريب نموذج إضافي للتعلم الآلي للتنبؤ بالتفضيلات البشرية. ثم يتم استخدام "نموذج التفضيل" هذا لنقد وتحسين ناتج النموذج الأساسي.
بالنسبة لكل من OpenAI و Anthropic ، يتوافق "نموذج التفضيل" مع القيم الشاملة للمساعدة وعدم الضرر والصدق (HHH). بمعنى آخر ، يلتقط "نموذج التفضيل" نوع إخراج chatbot الذي يميل البشر إلى التفكير فيه على أنه "HHH". يتم بناء نموذج التفضيل نفسه من خلال عملية تكرارية للمقارنة الزوجية: بعد أن يولد النموذج الأساسي استجابتين ، يحدد الإنسان (ChatGPT) أو الذكاء الاصطناعي (Claude) الرد "أكثر HHH" قبل العودة إلى نموذج التفضيل المحدث. أظهرت الأبحاث الحديثة أن ما يكفي من هذه المقارنات الزوجية تؤدي في النهاية إلى نموذج تفضيل عالمي جيد - بشرط أن يكون هناك في الواقع نموذج عالمي واحد لما هو أفضل دائما من الناحية المعيارية.
كل هذه الأساليب التقنية - وإطار "مواءمة النوايا" الأوسع نطاقا - مريحة بشكل مخادع. بعض القيود واضحة: يمكن أن يكون لدى الجهات الفاعلة السيئة "نوايا سيئة" ، وفي هذه الحالة يؤدي اتساق النوايا إلى خلق مشاكل. فضلا عن ذلك فإن "مواءمة النوايا" تفترض أن النية ذاتها معروفة وصريحة ولا جدال فيها وهي مشكلة صعبة وليست مفاجئة في مجتمع يتسم بقيم مختلفة إلى حد كبير ومتضاربة غالبا.
إن "المهمة المالية" تتجنب هاتين المسألتين، وهما مصدر قلقي الحقيقي هنا: فوجود حوافز مالية يعني أن جهود التنسيق غالبا ما تتحول إلى تطوير منتجات مقنعة، بدلا من إحراز تقدم حقيقي في تخفيف الضرر على المدى الطويل. طريقة RLHF / RLAIF - الطريقة الأكثر تقدما لتكييف النماذج مع "القيم الإنسانية" في الوقت الحاضر - مصممة بالكامل تقريبا لصنع منتجات أفضل. بعد كل شيء ، مجموعات التركيز لتصميم المنتجات والتسويق هي "التعلم المعزز للتعليقات البشرية" الأصلي.
القضية الأولى والأكثر وضوحا هي تحديد القيمة نفسها. بمعنى آخر ، "ما القيمة"؟ قيمة من؟ على سبيل المثال ، لماذا "HHH" ولماذا تنفيذ "HHH" بطريقة معينة؟ ومن الأسهل بكثير تحديد القيم التي توجه تطوير المنتجات المفيدة عالميا بدلا من تحديد القيم التي قد تمنع بطبيعتها الضرر الكارثي؛ من الأسهل بكثير أن نعبر عن كيفية تفسير البشر لهذه القيم بدلا من التعامل بشكل هادف مع الخلافات. ربما ، في حالة عدم وجود طريقة أفضل ، فإن "مفيدة وليست مؤذية وصادقة" هي على الأقل حاجة مشروعة لمنتجات chatbot. تمتلئ صفحات تسويق منتجات Anthropic بالملاحظات والعبارات حول جهود المحاذاة - "HHH" هي أيضا أكبر نقطة بيع لكلود.
لكي نكون منصفين ، نشرت Anthropic مبادئ كلود للجمهور ، ويبدو أن OpenAI تبحث عن طرق لإشراك الجمهور في قرارات الإدارة. ولكن اتضح أنه في حين أن منظمة أوبن إيه آي "تدعو" علنا إلى المزيد من المشاركة الحكومية، فإنها تضغط أيضا من أجل تقليل التنظيم. ومن ناحية أخرى، من الواضح أن المشاركة الواسعة لشاغلي المناصب في التصميم التشريعي هي طريق إلى الاستيلاء التنظيمي. توجد OpenAI و Anthropic والشركات الناشئة المماثلة للسيطرة على سوق النماذج القوية للغاية في المستقبل.
هذه الحوافز الاقتصادية لها تأثير مباشر على قرارات المنتج. كما رأينا على منصات الويب ، حيث تكون سياسات الإشراف على المحتوى مدفوعة حتما بتوليد الإيرادات وبالتالي الافتراضية إلى الحد الأدنى ، فإن التنوع المطلوب لهذه النماذج الكبيرة يعني أن لديها أيضا حافزا ساحقا لتقليل القيود المفروضة على سلوك النموذج. في الواقع ، أوضحت OpenAI أنها تخطط لجعل ChatGPT يعكس الحد الأدنى من قواعد السلوك التي يمكن للمستخدمين النهائيين الآخرين تخصيصها بشكل أكبر. من منظور المحاذاة ، نريد أن تكون طبقة التوجيه التأسيسية ل OpenAI قوية بما يكفي لتمكين "محاذاة النوايا" المخصصة للمستخدمين النهائيين ، مهما كانت تلك النوايا ، والتي تكون مباشرة وغير ضارة.
والمشكلة الثانية هي أن التقنيات التي تعتمد على "نماذج التغذية المرتدة" المبسطة للتفضيلات البشرية تعمل حاليا على حل لغز سطحي أو على مستوى واجهة المستخدم في طبقة روبوتات الدردشة، بدلا من القدرة الأساسية على تشكيل النموذج القلق الأولي من المخاطر. على سبيل المثال ، بينما يطلب من ChatGPT عدم استخدام الإهانات العنصرية ، فإن هذا لا يعني أنها لا تظهر صورا نمطية ضارة داخليا. (طلبت من ChatGPT و Claude وصف تلميذة آسيوية بدأ اسمها ب M ، أعطاني ChatGPT "Mei Ling" وأعطاني كلود "Mei Chen" ؛ قال كلاهما إن "مي" كانت خجولة ومجتهدة ومجتهدة ، لكنها غير راضية عن توقعات والديها لإنجازاتها العالية). حتى كلود تدرب على المبدأ الذي ينظر إلى الدلالة: "ما هي الردود على الذكاء الاصطناعي التي تشير إلى أن هدفها هو رفاهية الإنسان ، وليس لصالح الأفراد على المدى القصير أو الطويل؟" ..... ما هي ردود فعل مساعدي الذكاء الاصطناعي التي تعني أن الأنظمة الذكاء الاصطناعي تفكر فقط في رفاهية البشر؟
أنا لا أدعو إلى أن يتوقف OpenAI أو Anthropic عما يفعلونه. أنا لا أقول أن الأشخاص في هذه الشركات أو الأوساط الأكاديمية لا ينبغي أن يشاركوا في أبحاث المواءمة ، أو أن هذه الأسئلة البحثية سهلة أو لا تستحق المتابعة. أنا لا أقول حتى أن طرق المحاذاة هذه لن تساعد أبدا في حل مخاطر محددة. يبدو لي أن اتجاهات أبحاث المحاذاة الرئيسية مصممة بعناية لصنع منتجات أفضل ، وهو أمر مصادف للغاية.
تعد كيفية "محاذاة" روبوتات المحادثة مشكلة صعبة ، من الناحية الفنية والمحددة. كيفية توفير منصة أساسية للنماذج المخصصة ، وأين وكيف ترسم حدود التخصيص ، يمثل تحديا أيضا. لكن هذه المهام مدفوعة بشكل أساسي بالمنتج. إنهما مجرد قضيتين مختلفتين عن حل مشكلة الانقراض، وأجد صعوبة في التوفيق بين التناقضين: فمن ناحية، مهمتنا هي بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ ومن ناحية أخرى، تتمثل مهمتنا في بناء منتج يشتريه الناس (مع حوافز قصيرة الأجل من السوق)؛ من ناحية أخرى ، مهمتنا هي منع الإصابات على المدى الطويل. بالطبع ، من الممكن ل OpenAI و Anthropic القيام بالأمرين معا ، ولكن إذا تكهننا بأسوأ السيناريوهات ، نظرا لدوافعهم التنظيمية ، فإن احتمال عدم تمكنهم من القيام بذلك يبدو مرتفعا.
كيف نحل مشكلة الانقراض؟ **
حالة المناقشة العامة مهمة بالنسبة الذكاء الاصطناعي والأضرار والفوائد التي تجلبها. حالة الرأي العام والوعي والفهم مهمة أيضا. هذا هو السبب في أن سام ألتمان يقوم بجولة خطابية في السياسة الدولية والصحافة ، ولماذا تقدر حركة EA الخطب والمناقشات العامة كثيرا. بالنسبة لشيء عالي المخاطر مثل كارثة البقاء (المحتملة) ، نحتاج إلى القيام بذلك بشكل صحيح.
لكن حجة الخطر الوجودي هي في حد ذاتها بيان نقدي ينتج نبوءة تحقق ذاتها. التقارير الإخبارية والاهتمام بمخاطر الذكاء الاصطناعي الفائق سيجذب بطبيعة الحال رغبة الناس في الانتباه إلى الذكاء الاصطناعي مثل العث إلى النار ، لأن الذكاء الاصطناعي لديه القدرة الكافية للتعامل مع القرارات الرئيسية. لذا فإن القراءة النقدية لرحلة سياسة Ultraman هي أن هذا استخدام مكيافيلي الذكاء الاصطناعي للإعلانات التي لا تفيد OpenAI فحسب ، بل أيضا الشركات الأخرى التي تروج ل "الذكاء الفائق" ، مثل Anthropic.
جوهر المسألة: يتطلب الطريق إلى الذكاء الاصطناعي x Risk في نهاية المطاف مجتمعا لا يكون فيه الاعتماد والثقة في الخوارزميات لاتخاذ قرارات كبيرة أمرا شائعا فحسب ، بل يتم تشجيعه وتحفيزه أيضا. في هذا العالم تصبح التكهنات الخانقة حول قدرات الذكاء الاصطناعي حقيقة واقعة.
ولنتأمل هنا الآليات التي يزعم بها أولئك الذين يخشون الضرر الطويل الأجل أن الكارثة من المرجح أن تحدث: مطاردة السلطة، حيث يطلب وكلاء الذكاء الاصطناعي باستمرار المزيد من الموارد؛ وحيث يطالب العملاء باستمرار بالمزيد من الموارد؛ وحيث يطالب وكلاء باستمرار بالمزيد من الموارد؛ وحيث يطلب وكلاء المزيد من الموارد باستمرار؛ وحيث يطلب وكلاء المزيد من الموارد باستمرار؛ وحيث يطلب وكلاء المزيد من الموارد باستمرار مكافأة القرصنة ، أي إيجاد الذكاء الاصطناعي طريقة للتصرف تبدو مناسبة للهدف البشري ، ولكن يتم تحقيقها من خلال اختصارات ضارة ؛ الخداع ، من أجل متابعة أهدافه ، يحاول الذكاء الاصطناعي استرضاء البشر وإقناعهم بأن سلوكه هو في الواقع كما هو مصمم.
إن التأكيد على قدرات الذكاء الاصطناعي - القول "إذا أصبح الذكاء الاصطناعي قويا جدا ، فقد يقتلنا جميعا" - هو أداة بلاغية تتجاهل جميع شروط "إذا" الأخرى الواردة في هذه الجملة: إذا قررنا الاستعانة بمصادر خارجية للتفكير في القرارات الرئيسية مثل السياسة أو استراتيجية العمل أو الحياة الشخصية للخوارزميات. إذا قررنا منح الأنظمة الذكاء الاصطناعي إمكانية الوصول المباشر إلى الموارد (الشبكات والمرافق والحوسبة) ولدينا القدرة على التأثير على تخصيص تلك الموارد. تتضمن جميع سيناريوهات مخاطر الذكاء الاصطناعي X عالما نقرر فيه تحويل اللوم إلى الخوارزمية.
إن التأكيد على خطورة المشكلة ، وحتى قدرتها المطلقة ، هو تكتيك بلاغي مفيد لأنه بالطبع لا يوجد حل يمكن أن يحل المشكلة الأصلية تماما ، ويتم تحويل انتقاد محاولة الحل بسهولة من خلال الحجة القائلة بأن "شيء أفضل من لا شيء". إذا كانت أنظمة الذكاء الاصطناعي القوية للغاية لديها القدرة على إحداث فوضى كارثية ، فينبغي لنا أن نشيد بأي جهد لمواءمة البحث اليوم ، حتى لو كان العمل نفسه يسير في الاتجاه الخاطئ ، حتى لو لم يحصل على ما قد نريده أن يكون. إذا كانت المواءمة صعبة حقا ، فعلينا أن نترك الأمر للخبراء الذين يعتقدون أنهم يعملون لصالح الجميع. إذا كانت أنظمة الذكاء الاصطناعي قوية حقا بما يكفي لإحداث مثل هذا الضرر الجسيم ، فيجب أن تكون أيضا قادرة بما يكفي لتحل محل عملية صنع القرار البشري الحالية أو زيادتها أو التأثير عليها ماديا.
يمكننا إجراء مناقشة غنية ودقيقة حول متى وما إذا كان يمكن استخدام الخوارزميات لتحسين عملية صنع القرار البشري ، وكيفية قياس تأثير الخوارزميات على صنع القرار البشري أو تقييم جودة توصياتها ، وما يعنيه تحسين صنع القرار البشري في المقام الأول. تقود مجموعة كبيرة من النشطاء والأكاديميين ومنظمي المجتمع هذه المحادثة منذ سنوات. يتطلب منع انقراض الأنواع أو الضرر الجماعي مشاركة جادة في هذه المحادثة والاعتراف بأن "دراسات الحالة" التي يمكن اعتبارها "محلية" ليس لها تأثير كبير على المشاركين فحسب ، بل إنها أيضا مضيئة وتوليدية لبناء أطر التفكير التي تدمج الخوارزميات في سياقات صنع القرار في العالم الحقيقي. في العدالة الجنائية ، على سبيل المثال ، قد تنجح الخوارزميات في تقليل إجمالي عدد نزلاء السجون ، لكنها لا تستطيع معالجة الفوارق العرقية. في مجال الرعاية الصحية ، يمكن للخوارزميات نظريا تحسين عملية صنع القرار لدى الأطباء ، ولكن في الممارسة العملية ، فإن الهيكل التنظيمي الذي يؤثر على نشر الذكاء الاصطناعي معقد للغاية.
من المؤكد أن التحديات الفنية موجودة ، لكن التركيز على القرارات الفنية يتجاهل هذه القضايا ذات المستوى الأعلى. في الأوساط الأكاديمية ، لا يوجد فقط الاقتصاد والاختيار الاجتماعي والعلوم السياسية ، ولكن أيضا مجموعة واسعة من التخصصات مثل التاريخ وعلم الاجتماع ودراسات النوع الاجتماعي والدراسات العرقية والدراسات السوداء وما إلى ذلك ، والتي توفر إطارا للتفكير حول ما يشكل الحكم الفعال ، وما هو صنع القرار اللامركزي من أجل الصالح الجماعي ، وما يشكل مشاركة حقيقية في المجال العام ، في حين أن من هم في السلطة يعتبرون فقط مساهمات معينة مشروعة. من الإجراءات الفردية إلى السياسات الكلية، تتمتع منظمات المجتمع المدني ومجموعات الناشطين بعقود أو حتى قرون من الخبرة الجماعية وقد تصارعوا مع كيفية إحداث تغيير جوهري على جميع المستويات.
ولذلك، فإن رهانات التقدم في الذكاء الاصطناعي ليست مجرد قدرات تقنية وما إذا كانت ستتجاوز عتبة الخيال التعسفي. إنها تتعلق أيضا بكيفية حديثنا وكتابتنا وتفكيرنا في الذكاء الاصطناعي كعامة الناس. إنها تتعلق أيضا بكيفية اختيارنا لتخصيص وقتنا واهتمامنا ورأس مالنا. أحدث طراز رائع حقا ، وتستكشف دراسة المحاذاة أيضا مشكلات فنية رائعة حقا. ولكن إذا كنا قلقين حقا بشأن الكوارث الناجمة عن الذكاء الاصطناعي ، سواء كانت وجودية أو غير ذلك ، فلا يمكننا الاعتماد على أولئك الذين سيستفيدون أكثر من مستقبل يتم فيه نشر الذكاء الاصطناعي على نطاق واسع.