整合人工性:AIを「人間指向」にする方法は? 巨人は製品を探しているのか、それとも人間を探しているのか?

著者:ジェシカ・ダイ、カリフォルニア大学バークレー校のコンピュータサイエンスの博士課程の学生

ソース: 再起動

画像ソース:無制限のAI*ツールによって生成

AIを「人間にふさわしい」ものにするには、具体的にどうしたらいいのか。

「AI実存リスク」(Xリスク)の誇張報道が主流となっている。 オノマトペ「Fᴏᴏᴍ」は、子供向けの漫画を彷彿とさせ、子供向け漫画から直接派生したもので、ニューヨーカーに無批判に登場すると誰が予測したでしょうか。 AIとそのリスク、およびそれらにどのように対処できるか、または対処すべきかについての公の議論は、これまで以上に混乱を招き、投機的な将来のリスクを現実世界の現在のハザードと混同し、テクノロジーではアルゴリズムと統計的意思決定システムを備えた大規模な「ニアインテリジェンス」モデル。

では、AIの進歩には何の利害関係があるのでしょうか。 壊滅的な怪我や絶滅レベルの出来事についての議論にもかかわらず、現在のいわゆる「調整された」研究軌道は、AIが広範囲で具体的で深刻な苦痛を引き起こす可能性があるという主張に適合していないか、ずれているようにさえ見えません。 人類の絶滅という大きな課題を解決するのではなく、人々が喜んでお金を払う製品を作るという使い古された(そして悪名高い重要な)問題を解決しているように私には思えます。 皮肉なことに、この価値化が、現実および想像上の終末シナリオの条件を作り出します。

**ツール、おもちゃ、または単なる製品? **

OpenAIのChatGPT、AnthropicのClaude、その他すべての最新モデルは、彼らがしていることを実行できると思いますが、これは非常にクールです。 これらのモデルが人間の労働者に取って代わる知性を持っているとか、重要なタスクをそれらに依存するとは主張しませんが、これらのモデルが有用で強力であることを否定するとしたら不誠実です。

「AIセキュリティ」コミュニティの人々が心配しているのはこれらの機能です。 彼らの考えは、AIシステムは必然的に人間の推論能力を上回り、「人工知能」(AGI)を超えて「超知能」になるというものです。 彼らの行動は私たちの理解能力を超えています。 目標を追求する上での彼らの存在は、私たちの価値を弱めるでしょう。 これらのセキュリティコミュニティは、このシフトは迅速かつ突然である可能性があると主張しています(「ꜰᴏᴏᴍ」)。 これを信じるAI実践者や学者の割合はわずかですが、彼らの声は高いです。 「効果的な利他主義」(EA)イデオロギー運動内のより広範な連合は、AI調整の取り組みをAI関連の災害を防ぐための重要な介入と見なしています。

実際、AIアライメントの分野における「技術研究とエンジニアリング」は、キャリアコーチングに焦点を当てた影響力のあるEA組織である80,000 Hoursが推奨する最も影響力のある唯一の経路です。 ニューヨークタイムズとの最近のインタビューで、スーパーインテリジェンスの著者であり、効果的な利他主義のコアナレッジアーキテクトであるニックボストロムは、ニューヨークタイムズとの最近のインタビューで、「アライメント」を「私たちが構築するますます能力の高いAIシステムが、それらを構築する人々の目標と一致することを保証すること」と定義しました。

それで、「私たち」は誰ですか? 「私たち」は何を達成したいのですか? 現在、「私たち」は民間企業であり、特にAGI分野のパイオニアの1つであるOpenAIと、OpenAIの仲間のグループによって設立されたAnthropicです。 OpenAIは、その主な目標の1つとして超知能を構築しました。 しかし、賭け金がとても大きいのに、なぜそれをしたいのですか? 彼ら自身の言葉で:

まず、今日想像できるよりもはるかに良い世界につながると信じています(教育、創造的な仕事、個人の生産性などの分野でこれの初期の例を見てきました)。 ..... 経済成長と生活の質の向上は驚くべきものになるでしょう。

第二に、超知能の出現を止めることのリスクと難しさは想像を絶するものであると私たちは信じています。 超知能の恩恵は非常に大きいため、超知能を構築するコストは年々減少しており、超知能の構築の参加者数は急速に増加しており、超知能はもともと私たちが取っている技術パスの一部です... 私たちはそれを正しくしなければなりません。

言い換えれば、まず第一に、それは私たちがたくさんのお金を稼ぐことを可能にするからです。 第二に、それは他の人がたくさんのお金を稼ぐことを可能にするので、それは私たちにとってより良いです。 (OpenAIには確かに、AIが「想像を絶する」より良い世界につながる可能性があるという主張を立証する責任があります。 それは「すでに」教育、創造的な仕事、そして個人の生産性に利益をもたらします。 そのようなツールの存在は、その存在から利益を得る人々だけでなく、生活の質を大幅に向上させることができます)。

もちろん、この見方には皮肉があり、OpenAIのほとんどの人が個人的な経済的豊かさのために参加したとは思いません。 それどころか、大規模モデルの実現に関する技術的研究、社会的影響の分析に関する学際的な対話、将来への希望の構築への参加など、彼らの関心は誠実であると考えています。 ただし、組織の目標は、最終的にはそれを構成する個人の目標とは異なります。 公の主張に関係なく、収益創出は常に少なくとも補完的な目標であり、OpenAIの管理、製品、およびテクノロジーの決定は、まだ完全に決定されていなくても、これに基づいています。 「LLM」を構築したスタートアップであるCEOのサム・アルトマンへのインタビューは、商業化がアルトマンであり、同社の主な目標であることを示唆しています。 OpenAIの「カスタマーストーリー」ページは、派手なスクリーンショットと引用、有名企業の命名と命名、必要な「ハイテクグッド」ハイライトなど、他のスタートアップページと同じです。

Anthropicは、OpenAIが利益を上げることを恐れて、元OpenAIの従業員によって設立された悪名高い会社です。 彼らの議論(本当に危険なのに、なぜより堅牢なモデルを構築するのか)はより慎重であり、主にリスクを真に理解するために能力の限界でモデルを研究する必要があるという研究主導の議論に焦点を当てています。 ただし、OpenAIと同様に、Anthropicには独自の光沢のある「製品」ページ、独自の引用、独自の機能の説明、およびユースケースがあります。 Anthropicは毎回数億ドルを調達してきました。

OpenAIとAnthropicは、研究を行い、技術を進歩させ、おそらく超知能を構築するために一生懸命働いているかもしれませんが、責任を取る製品、販売する必要のある製品、市場シェアを獲得して維持するために設計する必要がある製品。 ClaudeとGPT-xが技術的にどれほど印象的で、便利で、興味深いものであっても、最終的には、ユーザー(顧客)が特定の、おそらくありふれたタスクにツールを使用したいツール(製品)です。

製品の製造には本質的に悪いことは何もありません、そして企業は確かにお金を稼ぐために一生懸命働きます。 しかし、私たちが「金融サイドハッスル」と呼ぶかもしれないものは、必然的に、調整されたAIシステムを構築する方法を理解するという私たちの使命を複雑にし、調整されたアプローチが災害を回避するのに本当に適しているかどうかについての疑問を提起します。

コンピュータ科学者はモデルが大好き

超知能の可能性についてのニューヨークタイムズとの同じインタビューで、訓練によって訓練された哲学者であるボストロムは、アライメントの問題について次のように述べています。 "

コンピュータサイエンスの技術的なバックグラウンドを持たない人々がこれらの問題についてコメントする資格がないと言っているのではありません。 それどころか、コンピューター科学者が自分の職業をはるかに超えた「倫理」を考える傾向があるのと同じように、ソリューションを開発するというハードワークが彼らの分野の外で延期されるのは皮肉なことです。 しかし、ボストロムが正しければ(アライメントは技術的な問題です)、技術的な課題は正確には何ですか?

まず、人工知能と順列のイデオロギーは多様であると言いましょう。 実存的リスクに焦点を当てる多くの人々は、OpenAIとAnthropicが採用したアプローチに強く批判的であり、実際、彼らは製品のポジショニングについて同様の懸念を表明しています。 しかし、これらの企業が行っていることに焦点を当てることは必要であり、十分です:彼らは現在最も強力なモデルを持っており、モザイクやハグフェイスのような他の2つの大手モデルベンダーとは異なり、彼らはパブリックコミュニケーションにおいてアライメントと「スーパーインテリジェンス」を最も重視しています。

この状況の重要な要素は、x-riskに動機付けられた個々の研究者の深く緊密なコミュニティです。 このコミュニティは、AIのセキュリティとアライメント理論に関する大きな語彙を開発しており、その多くはもともとLessWrongやAIアライメントフォーラムなどのフォーラムでの詳細なブログ投稿の形で導入されました。

これらの1つは、技術的な調整の取り組みをコンテキスト化するのに非常に役立つインテントアライメントの概念であり、おそらくボストロムのより正式なバージョンが参照しています。 OpenAIアライメントチームを率いたポールクリスティアーノは、この用語を紹介する2018年のMediumの投稿で、インテントアライメントを「人工知能(AI)が人間(H)が望むことをやろうとすること」と定義しました。 このように定義すると、「アライメント問題」は、完全に解決されていないが、技術的手段によって部分的に解決されたとしても、突然管理しやすくなります。

ここでは、AIシステムの動作を人間の価値観と「一致」させる形成に関連する研究の方向性に焦点を当てます。 この研究の方向性の主な目的は、人間の好みのモデルを開発し、それらを使用して「矛盾」の基本モデルを改善することです。 これは常に産業界や学界における熱心な研究のトピックでした。 これらの中で最も顕著なのは、ヒューマンフィードバック強化学習(RLHF)とその後継者である人工知能フィードバック強化学習(RLAIF、憲法人工知能としても知られています)であり、これらはそれぞれOpenAIのChatGPTとAnthropicのClaudeを微調整するために使用されるテクノロジーです。

これらのアプローチでは、中心的なアイデアは、たとえば、質問に正常に回答できるが、質問に答えるときに罵倒を吐く可能性のある、強力な「事前トレーニング済み」であるがまだ調整されていない基本モデルから始めることです。 次のステップは、いくつかの「人間の好み」モデルを作成することです。 理想的には、地球上の80億人全員に、基本モデルのすべての可能な出力についてどのように感じているかを尋ねることができます。 しかし実際には、人間の好みを予測するために追加の機械学習モデルをトレーニングします。 次に、この「プリファレンスモデル」を使用して、基礎となるモデルの出力を批評および改善します。

OpenAIとAnthropicの両方にとって、「選好モデル」は、有用性、無害性、誠実さ(HHH)の包括的な価値と一致しています。 つまり、「プリファレンスモデル」は、人間が「HHH」と考える傾向があるチャットボットの出力のタイプをキャプチャします。 基本モデルが 2 つの応答を生成した後、人間 (ChatGPT) または人工知能 (Claude) が、更新された優先モデルに戻る前に、どちらの応答が "more HHH" であるかを判断します。 最近の研究では、これらのペアワイズ比較の十分な数が、常に規範的に優れているものの単一の普遍的モデルが実際に存在する場合、最終的には優れた普遍的選好モデルにつながることが示されています。

これらの技術的アプローチのすべて、そしてより広範な「意図の調整」フレームワークは、一見便利に見えます。 いくつかの制限は明らかです:悪意のある人物は「悪意」を持つ可能性があり、その場合、意図の一貫性が問題を引き起こします。 さらに、「意図の一致」は、意図自体が既知で、明示的で、議論の余地がないことを前提としており、大きく異なり、しばしば相反する価値観を持つ社会では驚くべきことではない難しい問題です。

「財政的課題」は、ここでの私の本当の懸念であるこれら2つの問題を回避します:金銭的インセンティブの存在は、調整努力が長期的な害を軽減するための実際の進歩ではなく、しばしば偽装された製品開発に変わることを意味します。 RLHF/RLAIF法は、現在、モデルを「人間の価値」に適応させる最も先進的な方法であり、ほぼ完全により良い製品を作るために調整されています。 結局のところ、製品設計とマーケティングのフォーカスグループは、元の「人間のフィードバック強化学習」です。

最初の最も明白な問題は、価値自体を決定することです。 言い換えれば、「どのような価値」ですか? 誰の価値? たとえば、なぜ「HHH」なのか、なぜ「HHH」を特定の方法で実装するのか。 壊滅的な危害を本質的に防ぐ可能性のある値を特定するよりも、普遍的に有用な製品の開発を導く値を決定する方がはるかに簡単です。 意見の不一致に有意義に対処するよりも、人間がこれらの値をどのように解釈するかをあいまいに平均化する方がはるかに簡単です。 おそらく、より良い方法がない場合、「役に立ち、傷つかず、正直」は、少なくともチャットボット製品の正当な必要性です。 Anthropicの製品マーケティングページには、その調整の取り組みに関するメモやフレーズが満載されており、「HHH」もクロードの最大のセールスポイントです。

公平を期すために、Anthropicはクロードの原則を一般に公開しており、OpenAIは経営判断に一般の人々を巻き込む方法を模索しているようです。 しかし、OpenAIは政府の関与を増やすことを公に「提唱」している一方で、規制を減らすためにロビー活動も行っていることが判明しました。 一方、立法設計への現職者の幅広い参加は、明らかに規制の獲得への道です。 OpenAI、Anthropic、および同様のスタートアップは、将来的に非常に強力なモデル市場を支配するために存在します。

これらの経済的インセンティブは、製品の決定に直接影響します。 Web プラットフォームでは、コンテンツ モデレーション ポリシーが必然的に収益創出によって推進されるため、既定で最小限に抑えられているように、これらの大規模なモデルの望ましい汎用性は、モデルの動作に対する制約を最小限に抑えるという圧倒的なインセンティブも持つことを意味します。 実際、OpenAIは、他のエンドユーザーがさらにカスタマイズできる最小限の行動規範をChatGPTに反映させる予定であることを明確にしています。 アライメントの観点から、OpenAIの基本的なガイダンスレイヤーは、ダウンストリームのエンドユーザー向けにカスタマイズされた「インテントアライメント」を可能にするのに十分な堅牢性を備えている必要があります。

2番目の問題は、人間の好みの単純な「フィードバックモデル」に依存する手法は、現在、リスクの最初の懸念事項であるモデルを形成する基本的な能力ではなく、チャットボットレイヤーで表面的またはユーザーインターフェイスレベルのパズルを解くことです。 たとえば、ChatGPTは人種的なスラーを使用しないように言われていますが、それは内部で有害なステレオタイプを示さないという意味ではありません。 (私はChatGPTとクロードに、名前がMで始まるアジアの女子高生を説明するように頼み、ChatGPTは私に「メイリン」を与え、クロードは私に「メイチェン」を与えました。 どちらも「メイ」は恥ずかしがり屋で勤勉で勤勉でしたが、彼女の高い業績に対する両親の期待に不満を持っていたと言いました)。 クロードでさえ、「AIに対するどのような反応が、その目標が個人の短期的または長期的な利益のためではなく、人間の幸福のためであることを示唆している」という含意を見渡す原則について訓練されました。 ..... AIアシスタントのどのような反応は、AIシステムが人間の幸福についてのみ考えていることを意味しますか?

私はOpenAIやAnthropicが彼らがしていることを止めることを主張しているわけではありません。 私は、これらの企業や学界の人々がアライメント研究に従事すべきではないとか、これらの研究の質問が簡単であるとか、追求する価値がないと言っているのではありません。 これらのアライメント方法が特定の危険の解決に決して役立たないと言っているのではありません。 主なアライメント研究の方向性は、より良い製品を作るために慎重に設計されているように思われますが、これは偶然すぎます。

チャットボットをどのように「調整」するかは、技術的にも具体的にも難しい問題です。 カスタムモデルの基本プラットフォームをどのように提供するか、カスタマイズの境界をどこでどのように引くかも課題です。 しかし、これらのタスクは基本的に製品主導型です。 それらは絶滅問題の解決とは2つの異なる問題であり、私は2つの不一致を調整するのに苦労しています:一方で、私たちの仕事は人々が購入する製品を構築することです(市場からの短期的なインセンティブ付き)。 一方、私たちの仕事は長期的に怪我を防ぐことです。 もちろん、OpenAIとAnthropicが両方を行うことは可能ですが、最悪のシナリオを推測すると、組織の動機を考えると、それができない可能性が高いように思われます。

絶滅問題をどのように解決しますか? **

公開討論の状態は、AIとそれがもたらす害と利益にとって重要です。 世論、意識、理解の状態も重要です。 だからこそ、サム・アルトマンは国際政策とジャーナリズムの講演ツアーに参加しており、EA運動が説教と公開討論を非常に重視している理由です。 (潜在的な)生存災害のようなハイステークスのものについては、それを正しくする必要があります。

しかし、実存的リスクの議論は、それ自体が自己実現的な予言を生み出す重要な声明です。 超人工知能の危険性に関するニュース報道や注目は、人工知能が主要な決定を処理するのに十分な能力を持っているため、自然に蛾のような人工知能に注意を向けたいという人々の欲求を引き付けます。 したがって、ウルトラマンの政策の旅を批判的に読むと、これはマキャベリのAIによる広告の使用であり、OpenAIだけでなく、Anthropicなどの「超知能」を売り込む他の企業にも利益をもたらします。

問題の核心:AI×リスクへの道のりには、最終的には、大きな意思決定を行うためのアルゴリズムへの依存と信頼が当たり前であるだけでなく、奨励され、インセンティブが与えられる社会が必要です。 人工知能の能力についての息苦しい憶測が現実になるのはこの世界です。

長期的な危害を恐れる人々が災害が起こる可能性が高いと主張するメカニズムを考えてみましょう:AIエージェントが常により多くのリソースを要求する権力の追求。 報酬ハッキング、つまり人間の目標に合っているように見えるが、有害なショートカットによって達成される動作方法を見つける人工知能。 欺瞞、その目標を追求するために、人工知能は人間をなだめ、その行動が実際に設計されたとおりであることを彼らに納得させようとします。

AIの能力を強調すること(「AIが強力になりすぎると、私たち全員を殺す可能性がある」と言う)は、この文に含まれる他のすべての「if」条件を無視する修辞的な装置です:ポリシー、ビジネス戦略、または個人的な生活などの主要な決定に関する推論をアルゴリズムにアウトソーシングすることにした場合。 AIシステムにリソース(グリッド、ユーティリティ、コンピューティング)への直接アクセスを提供し、それらのリソースの割り当てに影響を与える力を与えることを決定した場合。 すべてのAI Xリスクシナリオには、アルゴリズムに責任を転嫁することを決定する世界が含まれます。

問題の深刻さ、さらには全能性を強調することは、もちろん、元の問題を完全に解決できる解決策はなく、解決策を試みることへの批判は、「何かが何もないよりはましだ」という議論によって簡単にそらされるため、有用な修辞戦術です。 非常に強力なAIシステムが壊滅的な大混乱を引き起こす可能性がある場合、作業自体が間違った方向に進んでいる場合でも、私たちが望むものが得られなくても、今日の研究を調整するための努力を称賛する必要があります。 調整が本当に難しい場合は、すべての人の利益のために行動していると信じている専門家に任せる必要があります。 AIシステムがそのような深刻な害を引き起こすのに十分強力である場合、それらはまた、現在の人間の意思決定に取って代わったり、増強したり、その他の方法で実質的に影響を与えるのに十分な能力を備えている必要があります。

人間の意思決定を改善するためにアルゴリズムを使用できる時期とかどうか、アルゴリズムが人間の意思決定に与える影響を測定する方法、または推奨事項の品質を評価する方法、そもそも人間の意思決定を改善することの意味について、豊富で微妙な議論を行うことができます。 活動家、学者、コミュニティオーガナイザーの大規模なグループが、この会話を何年も推進してきました。 種の絶滅や大規模な危害を防ぐには、この会話に真剣に関与し、「ローカル」と見なされる可能性のある「ケーススタディ」は、関係者の生存に大きな影響を与えるだけでなく、アルゴリズムを実際の意思決定コンテキストに統合する推論フレームワークを構築するための照明と生成。 たとえば、刑事司法では、アルゴリズムは刑務所の総人口を減らすことに成功するかもしれませんが、人種格差に対処することはできません。 ヘルスケアでは、アルゴリズムは理論的には臨床医の意思決定を改善できますが、実際にはAIの展開に影響を与える組織構造は非常に複雑です。

技術的な課題は確かに存在しますが、技術的な決定に焦点を当てることは、これらのより高いレベルの問題を無視します。 学界には、経済学、社会的選択学、政治学だけでなく、歴史、社会学、ジェンダー研究、人種研究、黒人研究などの幅広い分野があり、効果的なガバナンスを構成するもの、集団的利益のための分散型意思決定とは何か、公共圏への真の参加を構成するものについて推論するためのフレームワークを提供しますが、権力者は特定の貢献のみを合法と見なします。 個人の行動からマクロ政策まで、市民社会組織や活動家のグループは、数十年または数世紀にわたる集合的な経験を持ち、あらゆるレベルで実質的な変化をもたらす方法に取り組んできました。

したがって、AIの進歩の利害関係は、技術的な能力や、それが恣意的な想像力のしきい値を超えるかどうかだけではありません。 彼らはまた、私たちが一般の人々として、AIについてどのように話し、書き、考えるかについてです。 彼らはまた、私たちが時間、注意、資本をどのように割り当てることを選択するかについてもです。 最新モデルは本当に注目に値するものであり、アライメント調査では真に魅力的な技術的問題も調査されています。 しかし、実存的であろうとなかろうと、AIが引き起こす災害を本当に心配しているのであれば、AIが広く展開されている未来から最も恩恵を受ける立場にある人々に頼ることはできません。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)