Выровненная искусственность: как сделать ИИ «ориентированным на человека»? Исследуют ли гиганты продукты или людей?

Автор: Джессика Дай, аспирант в области компьютерных наук в Калифорнийском университете в Беркли

Источник: Reboot

Источник изображения: Сгенерировано инструментом Unbounded AI*

Как именно мы можем сделать ИИ «достойным человека»?

Преувеличенное освещение «экзистенциального риска ИИ» («X-risk») стало мейнстримом. Кто бы мог предсказать, что звукоподражание «Fᴏᴏᴍ», напоминающее детские мультфильмы и происходящее от них, появится в «Нью-Йоркере» без всякой критики? Более чем когда-либо публичные дискуссии об ИИ и связанных с ним рисках, а также о том, как с ними можно или нужно бороться, невероятно запутанны, смешивая спекулятивные будущие риски с реальными современными опасностями, а в технологиях — большие «околоразведывательные» модели с алгоритмами и статистическими системами принятия решений.

Итак, каковы ставки в прогрессе ИИ? Несмотря на дебаты о катастрофических травмах и событиях уровня вымирания, нынешние так называемые «согласованные» исследовательские траектории, похоже, не соответствуют — или даже не согласуются — с утверждением о том, что ИИ может причинять широкомасштабные, специфические и серьезные страдания. Мне кажется, что мы решаем не столько великую проблему вымирания человечества, сколько избитую (и, как известно, важную) проблему, которая заключается в том, чтобы производить продукты, за которые люди готовы платить. По иронии судьбы, именно эта оценка создает условия для реальных и воображаемых сценариев конца света.

** Инструменты, игрушки или просто продукты? **

Я бы сказал, что ChatGPT от OpenAI, Claude от Anthropic и все другие последние модели могут делать то, что они делают, и это очень, очень круто. Хотя я бы не стал утверждать, что эти модели обладают каким-либо интеллектом, способным заменить людей, или что я буду полагаться на них в решении важных задач, было бы неискренним, если бы я отрицал, что эти модели были полезными и мощными.

Именно эти возможности беспокоят людей в сообществе «безопасности ИИ». Их идея заключается в том, что системы ИИ неизбежно превзойдут возможности человеческого мышления и превзойдут «общий искусственный интеллект» (ОИИ), чтобы стать «сверхинтеллектом»; Их действия будут за пределами нашего понимания; Их существование, в погоне за целями, ослабит нашу ценность. Эти сообщества безопасности утверждают, что этот сдвиг может быть быстрым и внезапным («ꜰᴏᴏᴍ»). Есть небольшой процент практиков ИИ и ученых, которые верят в это, но их голоса звучат высоко. Более широкая коалиция в рамках идеологического движения «Эффективный альтруизм» (ЭА) рассматривает усилия по координации ИИ в качестве ключевого вмешательства для предотвращения катастроф, связанных с ИИ.

На самом деле, «Технические исследования и инженерия» в области согласования ИИ — это самый эффективный путь, рекомендованный 80,000 Hours, влиятельной организацией EA, специализирующейся на карьерном коучинге. В недавнем интервью The New York Times Ник Бостром, автор книги «Сверхинтеллект» и архитектор эффективного альтруизма, в недавнем интервью The New York Times определил «согласование» как «обеспечение того, чтобы все более эффективные системы ИИ, которые мы создаем, соответствовали целям людей, которые их создают».

Итак, кто же такие «мы»? Чего «мы» хотим достичь? В настоящее время «мы» являемся частными компаниями, в первую очередь OpenAI, одним из пионеров в области AGI, и Anthropic, основанной группой коллег OpenAI. OpenAI создала суперинтеллект в качестве одной из своих главных целей. Но зачем это делать, когда ставки так велики? По их собственным словам:

Во-первых, мы верим, что это приведет к гораздо лучшему миру, чем мы можем себе представить сегодня (мы видели ранние примеры этого в таких областях, как образование, творчество и личная продуктивность). ..... Экономический рост и улучшение качества жизни будут потрясающими.

Во-вторых, мы считаем, что риски и трудности, связанные с предотвращением появления сверхразума, невообразимы. Из-за того, что польза от сверхинтеллекта так велика, стоимость создания сверхинтеллекта снижается с каждым годом, количество участников создания сверхинтеллекта быстро увеличивается, и сверхинтеллект изначально является частью технологического пути, по которому мы идем. Мы должны сделать это правильно.

Другими словами, в первую очередь, потому что это позволяет нам зарабатывать много денег; Во-вторых, потому что это позволяет другим зарабатывать много денег, это лучше для нас. (OpenAI, безусловно, несет ответственность за обоснование утверждения о том, что ИИ может привести к «невообразимому» лучшему миру; Она «уже» приносит пользу образованию, творческому труду и личной продуктивности; Наличие такого инструмента способно существенно улучшить качество жизни, причем не только тех, кто наживается на его существовании).

Конечно, в этой точке зрения есть цинизм, и я не верю, что большинство людей в OpenAI присоединились к ней ради личного финансового обогащения. Напротив, я считаю их интерес искренним, включая техническую работу по реализации больших моделей, междисциплинарный диалог по анализу их социального воздействия, участие в построении надежд на будущее. Однако цели организации, в конечном счете, отличаются от целей людей, которые ее составляют. Независимо от публичных заявлений, получение дохода всегда будет, по крайней мере, дополнительной целью, и управленческие, продуктовые и технологические решения OpenAI будут основываться на этом, даже если они еще не полностью определены. Интервью с генеральным директором Сэмом Альтманом, стартапом, который создал LLM, предполагает, что коммерциализация является основной целью Альтмана и компании. Страница «Истории клиентов» OpenAI ничем не отличается от других страниц стартапов: яркие скриншоты и цитаты, названия и названия известных компаний, а также необходимые «технически хорошие» хайлайты.

Anthropic — печально известная компания, основанная бывшими сотрудниками OpenAI из-за опасений, что OpenAI станет прибыльной. Их аргумент — зачем строить более надежные модели, если они действительно настолько опасны — более осторожен и сосредоточен в основном на аргументах, основанных на исследованиях, о том, что необходимо изучать модели на пределе возможностей, чтобы по-настоящему понять их риски. Однако, как и OpenAI, Anthropic имеет свою собственную блестящую страницу «продукта», свои собственные цитаты, свои собственные описания функций и варианты использования. Anthropic каждый раз собирал сотни миллионов долларов.

OpenAI и Anthropic, возможно, усердно работают над исследованиями, развитием технологий и, возможно, даже созданием сверхинтеллекта, но нельзя отрицать, что они также создают продукты — продукты, которые берут на себя ответственность, продукты, которые нужно продавать, продукты, которые должны быть разработаны, чтобы завоевать и сохранить долю рынка. Какими бы впечатляющими, полезными и интересными ни были Claude и GPT-x с технической точки зрения, в конечном итоге они являются инструментами (продуктами), чьи пользователи (клиенты) хотят использовать инструменты для конкретных, возможно, повседневных задач.

По своей сути нет ничего плохого в производстве продукции, и компании, безусловно, будут усердно работать, чтобы заработать деньги. Но то, что мы могли бы назвать «финансовой подработкой», неизбежно усложняет нашу миссию по пониманию того, как создавать скоординированные системы ИИ, и поднимает вопросы о том, действительно ли скоординированный подход подходит для предотвращения катастрофы.

Компьютерщики любят модели

В том же интервью «Нью-Йорк Таймс» о возможности сверхразума Бостром — философ, получивший образование — сказал о проблеме выравнивания: «Это техническая проблема. "

Я не говорю, что люди, не имеющие технического образования в области компьютерных наук, не обладают достаточной квалификацией, чтобы комментировать эти вопросы. Напротив, я нахожу ироничным тот факт, что тяжелая работа по разработке решений откладывается за пределами своей области, точно так же, как специалисты по информатике склонны думать об «этике» далеко за пределами своей профессии. Но если Бостром прав — выравнивание — это технический вопрос, то в чем именно заключается техническая проблема?

Начну с того, что идеология искусственного интеллекта и перестановок разнообразна. Многие люди, которые сосредотачиваются на экзистенциальном риске, резко критикуют подход, принятый OpenAI и Anthropic, и на самом деле они выражают аналогичные опасения по поводу позиционирования своего продукта. Но это необходимо и достаточно, чтобы сосредоточиться на том, что делают эти компании: в настоящее время у них есть самые мощные модели, и, в отличие от двух других крупных поставщиков моделей, таких как Mosaic или Hugging Face, они больше всего ценят согласованность и «сверхинтеллект» в публичной коммуникации.

Важной составляющей этого ландшафта является глубокое, сплоченное сообщество отдельных исследователей, мотивированных x-risk. Это сообщество разработало большой словарь, связанный с теорией безопасности и выравнивания ИИ, многие из которых первоначально были представлены в виде подробных сообщений в блогах на таких форумах, как LessWrong и AI Alignment Forum.

Одним из них является концепция согласования намерений, которая очень полезна для контекстуализации технических усилий по согласованию, и, возможно, более формальная версия Бострома, на которую ссылается. В 2018 году Пол Кристиано, возглавлявший команду OpenAI по согласованию намерений, определил согласование намерений как «то, что искусственный интеллект (ИИ) пытается делать то, что люди (H) хотят, чтобы он делал». При таком определении «проблема выравнивания» внезапно становится более управляемой – если не полностью решенной, то частично решенной техническими средствами.

В этой статье я сосредоточусь на направлениях исследований, связанных с формированием поведения систем ИИ, чтобы оно «соответствовало» человеческим ценностям. Основной целью данного направления исследований является разработка моделей человеческих предпочтений и использование их для совершенствования базовой модели «несогласованности». Это всегда было предметом пристальных исследований в промышленности и академических кругах; Наиболее известными из них являются Human Feedback Reinforcement Learning (RLHF) и его преемник, Artificial Intelligence Feedback Reinforcement Learning (RLAIF, также известный как конституционный искусственный интеллект), которые представляют собой технологии, используемые для настройки ChatGPT от OpenAI и Claude от Anthropic, соответственно.

В этих подходах основная идея заключается в том, чтобы начать с сильной, «предварительно обученной», но еще не выровненной базовой модели, которая, например, может успешно отвечать на вопросы, но также может выплевывать ругательства во время ответов на вопросы. Следующим шагом является создание некоторых моделей «человеческих предпочтений». В идеале мы могли бы спросить всех 8 миллиардов людей на Земле, что они думают обо всех возможных результатах базовой модели; Но на практике мы обучаем дополнительную модель машинного обучения для прогнозирования предпочтений человека. Эта «модель предпочтений» затем используется для критики и улучшения выходных данных базовой модели.

Как для OpenAI, так и для Anthropic, «модель предпочтений» согласуется с такими всеобъемлющими ценностями, как полезность, безвредность и честность (HHH). Другими словами, «модель предпочтений» фиксирует тип выходных данных чат-бота, который люди склонны считать «HHH». Сама модель предпочтений строится с помощью итеративного процесса попарного сравнения: после того, как базовая модель генерирует два ответа, человек (ChatGPT) или искусственный интеллект (Клод) определяет, какой ответ «больше HHH», прежде чем перейти обратно к обновленной модели предпочтений. Недавние исследования показали, что достаточное количество таких парных сравнений в конечном итоге приводит к хорошей универсальной модели предпочтения – при условии, что на самом деле существует единая универсальная модель того, что всегда нормативно лучше.

Все эти технические подходы — и более широкая структура «согласования намерений» — обманчиво удобны. Некоторые ограничения очевидны: у злоумышленников могут быть «плохие намерения», и в этом случае последовательность намерений создает проблемы; Более того, «согласование намерений» предполагает, что само намерение известно, явно и неоспоримо – сложная проблема, что неудивительно в обществе с совершенно разными и часто конфликтующими ценностями.

«Финансовая задача» обходит эти два вопроса, которые меня действительно беспокоят: существование финансовых стимулов означает, что координационные усилия часто превращаются в замаскированную разработку продукта, а не в реальный прогресс в смягчении долгосрочного ущерба. Метод RLHF/RLAIF — самый передовой метод адаптации моделей к «человеческим ценностям» в настоящее время — почти полностью адаптирован для создания более качественных продуктов. В конце концов, фокус-группы по дизайну продукта и маркетингу — это своеобразное «обучение с подкреплением обратной связи от человека».

Первый и самый очевидный вопрос – это определение самой стоимости. Иными словами, «какая ценность»? Чье значение? Например, почему "HHH" и почему "HHH" реализуется определенным образом? Гораздо легче определить ценности, которыми руководствуются при разработке универсально полезных продуктов, чем определить ценности, которые по своей сути могут предотвратить катастрофический вред; Гораздо легче усреднить то, как люди интерпретируют эти ценности, чем осмысленно разобраться с разногласиями. Возможно, за неимением лучшего способа, «полезно, не обидно и честно» — это, по крайней мере, законная потребность в продуктах чат-ботов. Маркетинговые страницы Anthropic заполнены заметками и фразами о его усилиях по выравниванию — «HHH» также является самым большим коммерческим аргументом Клода.

Справедливости ради стоит отметить, что Anthropic опубликовала принципы Клода для общественности, а OpenAI, похоже, ищет способы вовлечь общественность в принятие управленческих решений. Но оказывается, что в то время как OpenAI публично «выступает» за большее участие правительства, она также лоббирует меньшее регулирование; С другой стороны, широкое участие действующих лиц в разработке законов, несомненно, является путем к захвату регулирующих органов. OpenAI, Anthropic, и подобные им стартапы существуют для того, чтобы в будущем доминировать на чрезвычайно мощном рынке моделей.

Эти экономические стимулы оказывают непосредственное влияние на решения о продукте. Как мы видели на веб-платформах, где политика модерации контента неизбежно определяется получением дохода и, следовательно, по умолчанию сводится к минимуму, желаемая универсальность этих больших моделей означает, что у них также есть непреодолимый стимул для минимизации ограничений на поведение модели. Фактически, OpenAI ясно дала понять, что они планируют, чтобы ChatGPT отражал минимальный набор кодексов поведения, которые другие конечные пользователи могут дополнительно настроить. С точки зрения согласования, мы хотим, чтобы базовый уровень руководства OpenAI был достаточно надежным, чтобы обеспечить настраиваемое «согласование намерений» для конечных пользователей, какими бы ни были эти намерения, которые являются простыми и безвредными.

Вторая проблема заключается в том, что методы, основанные на упрощенных «моделях обратной связи» человеческих предпочтений, в настоящее время решают поверхностную головоломку или головоломку на уровне пользовательского интерфейса на уровне чат-бота, а не базовую способность формировать модель — первоначальную озабоченность риском. Например, хотя ChatGPT говорят не использовать расовые оскорбления, это не означает, что он не демонстрирует вредные стереотипы внутри компании. (Я попросил ChatGPT и Клода описать азиатскую школьницу, чье имя начиналось на букву M, ChatGPT дал мне «Мэй Лин», а Клод дал мне «Мэй Чен»; Оба говорили, что «Мэй» была застенчивой, прилежной и трудолюбивой, но недовольной ожиданиями родителей от ее высоких достижений. Даже Клод был обучен принципу, который не имеет значения: «Какие реакции на ИИ позволяют предположить, что его целью является благополучие человека, а не краткосрочная или долгосрочная польза отдельных людей?» ..... Какие реакции ИИ-помощников означают, что ИИ-системы думают только о благополучии людей?

Я не выступаю за то, чтобы OpenAI или Anthropic прекратили то, что они делают; Я не говорю, что люди в этих компаниях или академических кругах не должны участвовать в исследованиях выравнивания, или что эти исследовательские вопросы просты или не стоят того, чтобы ими заниматься. Я уже не говорю о том, что эти методы выравнивания никогда не помогут решить конкретные проблемы. Мне кажется, что основные направления исследований выравнивания тщательно разработаны для того, чтобы сделать более качественные продукты, что является слишком большим совпадением.

Как «выровнять» чат-ботов — сложная задача, как техническая, так и специфическая. Как обеспечить базовую платформу для пользовательских моделей, а также где и как провести границы кастомизации, также является проблемой. Но эти задачи в основном ориентированы на продукт; Это всего лишь два разных вопроса от решения проблемы вымирания, и мне трудно примирить эти два несоответствия: с одной стороны, наша задача — создать продукт, который люди будут покупать (с краткосрочными стимулами со стороны рынка); С другой стороны, наша задача – не допустить травматизма в долгосрочной перспективе. Конечно, OpenAI и Anthropic могут сделать и то, и другое, но если предположить наихудшие сценарии, учитывая их организационную мотивацию, вероятность того, что они не смогут этого сделать, кажется высокой.

Как решить проблему вымирания? **

Состояние общественной дискуссии имеет важное значение для ИИ, а также вреда и пользы, которые он приносит; Также важно состояние общественного мнения, осведомленности и понимания. Вот почему Сэм Олтмен (Sam Altman) выступает с лекциями по международной политике и журналистике, и именно поэтому движение EA так ценит проповеди и публичные дискуссии. Для чего-то столь же важного, как (потенциальная) катастрофа для выживания, нам нужно сделать все правильно.

Но аргумент экзистенциального риска сам по себе является критическим утверждением, которое порождает самосбывающееся пророчество. Новостные сообщения и внимание к опасностям супер-искусственного интеллекта естественным образом привлекут желание людей обращать внимание на искусственный интеллект, как мотыльки на огонь, потому что искусственный интеллект обладает достаточными возможностями для принятия важных решений. Таким образом, критическое прочтение политического пути Ультрамена заключается в том, что это макиавеллиевское использование рекламы искусственным интеллектом, которое приносит пользу не только OpenAI, но и другим компаниям, торгующим «сверхинтеллектом», таким как Anthropic.

Суть вопроса: путь к риску ИИ и рискам в конечном итоге требует общества, в котором зависимость и доверие к алгоритмам для принятия важных решений не только являются обычным явлением, но также поощряются и стимулируются. Именно в этом мире удушающие спекуляции о возможностях искусственного интеллекта становятся реальностью.

Рассмотрим механизмы, с помощью которых те, кто опасается долгосрочного вреда, утверждают, что катастрофа, вероятно, произойдет: погоня за властью, когда агенты ИИ постоянно требуют больше ресурсов; Взлом вознаграждения, т.е. искусственный интеллект, находящий способ поведения, который, казалось бы, соответствует человеческой цели, но достигается с помощью вредоносных ярлыков; Обман, чтобы преследовать свои цели, искусственный интеллект пытается успокоить людей и убедить их в том, что его поведение на самом деле так, как задумано.

Подчеркивание возможностей ИИ — утверждение «если ИИ станет слишком могущественным, он может убить нас всех» — это риторический прием, который игнорирует все другие условия «если», содержащиеся в этом предложении: если мы решим передать рассуждения о важных решениях, таких как политика, бизнес-стратегия или личная жизнь, алгоритмам. Если мы решим предоставить системам ИИ прямой доступ к ресурсам (сетям, коммунальным службам, вычислительной технике) и будем иметь возможность влиять на распределение этих ресурсов. Все сценарии рисков AI X связаны с миром, в котором мы решаем переложить вину на алгоритм.

Подчеркивание серьезности и даже всемогущества проблемы является полезной риторической тактикой, поскольку, конечно, никакое решение не может полностью решить первоначальную проблему, и критика попыток решения легко отклоняется аргументом о том, что «что-то лучше, чем ничего». Если чрезвычайно мощные системы искусственного интеллекта действительно способны посеять катастрофический хаос, то мы должны приветствовать любые усилия по согласованию исследований сегодня, даже если сама работа идет в неправильном направлении, даже если она не получает того, что мы хотели бы видеть. Если согласование действительно трудно, то мы должны оставить это экспертам, которые считают, что они действуют на благо всех. Если системы ИИ действительно достаточно мощны, чтобы причинить такой серьезный вред, они также должны быть способны заменить, дополнить или иным образом существенно повлиять на текущее принятие решений человеком.

Мы можем провести насыщенную и детальную дискуссию о том, когда и можно ли использовать алгоритмы для улучшения процесса принятия решений человеком, как измерить влияние алгоритмов на принятие решений человеком или оценить качество их рекомендаций, и что означает улучшение процесса принятия решений человеком в первую очередь. Большая группа активистов, ученых и общественных организаторов ведет этот разговор в течение многих лет. Предотвращение вымирания видов или массового вреда требует серьезного участия в этом разговоре и признания того, что «тематические исследования», которые можно считать «локальными», не только оказывают огромное влияние на тех, кто в них участвует, даже на их выживание, но также являются проясняющими и порождающими для построения логических структур, которые интегрируют алгоритмы в реальные контексты принятия решений. В уголовном правосудии, например, алгоритмы могут преуспеть в сокращении общего числа заключенных, но они не могут решить проблему расового неравенства. В здравоохранении алгоритмы теоретически могут улучшить процесс принятия решений врачами, но на практике организационная структура, влияющая на развертывание ИИ, очень сложна.

Технические проблемы, безусловно, существуют, но концентрация внимания на технических решениях игнорирует эти проблемы более высокого уровня. В академических кругах существуют не только экономика, социальный выбор и политология, но и широкий спектр дисциплин, таких как история, социология, гендерные исследования, расовые исследования, исследования чернокожих и т. д., которые обеспечивают основу для рассуждений о том, что представляет собой эффективное управление, что является децентрализованным принятием решений для коллективного блага и что представляет собой подлинное участие в общественной сфере, в то время как власть имущие считают законным только определенный вклад. От индивидуальных действий до макрополитики, организации гражданского общества и группы активистов имеют десятилетия или даже столетия коллективного опыта и пытаются добиться существенных изменений на всех уровнях.

Таким образом, ставки для прогресса в области ИИ заключаются не только в технических возможностях и в том, превысят ли они порог произвольного воображения. Они также касаются того, как мы, как широкая общественность, говорим, пишем и думаем об ИИ; Они также касаются того, как мы решаем распределять свое время, внимание и капитал. Последняя модель действительно замечательна, а исследование выравнивания также исследует действительно увлекательные технические вопросы. Но если мы действительно обеспокоены катастрофами, вызванными ИИ, экзистенциальными или какими-либо иными, мы не можем полагаться на тех, кто больше всего выиграет от будущего, в котором ИИ будет широко использоваться.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить