📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
對齊的人為性:如何讓 AI「符合人類價值」? 巨頭們的探索是為產品,還是人類?
撰文:Jessica Dai,加州大學伯克利分校計算機科學專業的博士生
來源:Reboot
對「人工智慧生存風險」 (簡稱」 x-risk“ 的誇大報導已成為主流。 誰能預料到擬聲詞「Fᴏᴏᴍ」-- 既讓人聯想到兒童卡通,又直接來源於兒童卡通 -- 會不加批判地出現在《紐約客》上? 與以往任何時候相比,關於人工智慧及其風險的公共討論,以及關於能夠或應該如何應對這些風險的討論,都顯得異常混亂,將推測的未來風險與現實的現今危害混為一談,而在技術方面,則將大型“近似智慧”模型與演算法和統計決策系統混為一談。
那麼,人工智慧進步的利害關係是什麼? 儘管人們對災難性的傷害和滅絕級的事件爭論不休,但目前所謂的“對齊”研究軌跡似乎並不適合 -- 甚至可以說是錯位 -- 人工智慧可能會造成廣泛、具體和嚴重痛苦的說法。 在我看來,與其說我們在解決人類滅絕的巨大挑戰,不如說我們在解決一個老生常談(也是出了名的重要問題)的問題,那就是製造出人們願意掏錢購買的產品。 具有諷刺意味的是,正是這種價值化為現實和想像中的末日場景創造了條件。
**工具,玩具,還是只是產品? **
我想說的是,OpenAI 的 ChatGPT、Anthropic 的 Claude 以及所有其他最新模型都能做到它們所做的事情,這非常非常酷。 雖然我不會聲稱這些模型有任何智慧取代人類工作者,也不會說我會依賴它們來完成重要任務,但如果我否認這些模型是有用的,是強大的,那就太不真誠了。
“AI 安全”社區的人們擔心的正是這些能力。 他們的想法是,人工智慧系統將不可避免地超越人類的推理能力,超越「人工通用智慧」(AGI),成為「超級智慧」; 它們的行動將超越我們的理解能力; 它們的存在,在追求目標的過程中,將削弱我們的價值。 這些安全社區聲稱,這種轉變可能是迅速而突然的(“ꜰᴏᴏᴍ”)。 相信這一點的 AI 從業者和學者有一小部分,但他們的呼聲很高。 “有效利他主義”(EA)意識形態運動中的一個更廣泛的聯盟將人工智慧協調工作視為防止人工智慧相關災難的關鍵干預措施。
事實上,AI 對齊領域的「技術研究與工程」是 80,000 Hours(一個專注於職業指導的有影響力的 EA 組織)推薦的唯一最具影響力的途徑。 在最近的一次《紐約時報》採訪中,《超級智慧》(Superintelligence)一書的作者、有效利他主義的核心知識架構師 Nick Bostrom 在最近接受《紐約時報》採訪時,將“對齊”定義為“確保我們構建的這些能力日益增強的人工智慧系統與構建這些系統的人們所追求的目標相一致”。
那麼,「我們」是誰? “我們”想要實現什麼目標? 目前,“我們”是私營公司,其中最著名的是 AGI 領域的先行者之一 OpenAI,以及由 OpenAI 的一批同儕創辦的 Anthropic。 OpenAI 將構建超級智慧作為其主要目標之一。 但是,既然風險如此之大,為什麼還要這麼做呢? 用他們自己的話說:
換句話說,首先,因為它能讓我們賺一大筆錢; 其次,因為它能讓別人賺一大筆錢,所以最好是我們。 (OpenAI 當然有責任證實以下說法:人工智慧可以帶來一個「難以想像」的更美好世界; 它「已經」造福了教育、創造性工作和個人生產力; 這樣一種工具的存在可以實質性地提高生活品質,而不僅僅是那些從它的存在中獲利的人)。
當然,這種觀點帶有一種憤世嫉俗,我不相信 OpenAI 的大多數人都是為了個人經濟致富而加入的。 恰恰相反,我認為他們的興趣是真誠的,包括對實現大型模型的技術工作、分析其社會影響的跨學科對話,以及參與建設未來的希望。 但是,一個組織的目標終究有別於組成它的個人的目標。 無論公開聲明如何,創收始終至少是一個補充目標,OpenAI 的管理、產品和技術決策都將以此為基礎,即使尚未完全確定。 一家建立“LLM”的初創公司對首席執行官山姆 - 阿爾特曼(Sam Altman)的採訪表明,商業化是阿爾特曼和公司的首要目標。 OpenAI 的「客戶故事」頁面與其他初創公司的頁面並無不同:華而不實的截屏和引語、對知名公司的點名、必要的“科技公益”亮點。
Anthropic 是由 OpenAI 的前員工因擔心 OpenAI 轉向盈利而成立的一家臭名昭著的公司,它又如何呢? 他們的論點 -- 如果模型真的如此危險,為什麼還要建立更強大的模型 -- 更為謹慎,主要側重於研究驅動的論點,即有必要研究處於能力邊緣的模型,以真正瞭解其風險。 不過,與OpenAI一樣,Anthropic也有自己閃亮的「產品」頁面、自己的引文、自己的功能說明和使用案例。 Anthropic 每次都能籌集到數億美元的資金。
OpenAI 和 Anthropic 可能在努力開展研究,推動技術進步,甚至可能打造超級智慧,但不可否認的是,它們也在打造產品 -- 需要承擔責任的產品,需要銷售的產品,需要設計成能夠獲得並保持市場份額的產品。 無論 Claude 和 GPT-x 在技術上有多麼令人印象深刻、多麼有用、多麼有趣,它們歸根結底都是工具(產品),其使用者(客戶)希望使用工具完成特定的、可能是平凡的任務。
製造產品本質上並沒有錯,公司當然會努力賺錢。 但是,我們可以稱之為「財務副業」的東西不可避免地會使我們理解如何構建協調的人工智慧系統這一使命變得複雜,並使人們質疑協調的方法是否真的適合避免災難。
計算機科學家喜歡模型
在《紐約時報》關於超級智慧可能性的同一篇採訪中,Bostrom-- 一位接受過專業訓練的哲學家 -- 在談到對齊問題時說:“這是一個技術問題。 ”
我並不是說那些沒有計算機科學技術背景的人沒有資格評論這些問題。 恰恰相反,我覺得帶有諷刺意味的是,制定解決方案的艱苦工作被推遲到了他們的領域之外,就像計算機科學家傾向於認為「倫理學」遠遠超出了他們的專業範圍一樣。 但是,如果 Bostrom 是對的 -- 對齊是一個技術問題 -- 那麼技術挑戰究竟是什麼呢?
我首先要說的是,人工智慧和排列組合的意識形態是多種多樣的。 許多關注生存風險的人對 OpenAI 和 Anthropic 所採取的方法提出了強烈的批評,事實上,他們也對自己的產品定位提出了類似的擔憂。 不過,關注這些公司正在做的事情既有必要,也足夠了:它們目前擁有最強大的模型,而且與Mosaic或 Hugging Face 等其他兩家大型模型供應商不同,它們在公開交流中最重視對齊和「超級智慧」。。
這種格局的一個重要組成部分是一個由個人研究人員組成的、以 x 風險為動機的深厚而緊密的社區。 這個社區圍繞人工智慧安全和對齊理論開發了大量詞彙,其中許多詞彙最初是在 LessWrong 和 AI Alignment Forum 等論壇上以詳細博文的形式介紹的。
意圖對齊(intent alignment)的概念就是其中之一,它對於技術對齊工作的語境化非常有用,或許也是Bostrom所指的更正式的版本。 在 2018 年一篇介紹該術語的 Medium 帖子中,曾領導 OpenAI 對齊團隊的 Paul Christiano 將意圖對齊定義為“人工智慧(AI)試圖做人類(H)希望它做的事情”。 當以這種方式定義時,「對齊問題」突然變得更加可控 -- 即使不能完全解決,也可以通過技術手段部分解決。
在此,我將重點討論與塑造人工智慧系統行為使其與人類價值觀“一致”有關的研究方向。 這一研究方向的主要目標是開發人類偏好模型,並利用它們來改進“不一致”的基礎模型。 這一直是業界和學術界熱衷研究的課題; 其中最突出的是「人類反饋強化學習」 (RLHF) 及其後繼者「人工智慧反饋強化學習」 (RLAIF,又稱憲法人工智慧),它們分別是用於調整 Open AI 的 ChatGPT 和 Anthropic 的 Claude 的技術。
在這些方法中,核心思想是從一個強大的、「預先訓練好的」、但尚未對齊的基礎模型開始,例如,該模型可以成功回答問題,但也可能在回答問題的同時口吐髒話。 下一步是創建一些「人類偏好」模型。 理想情況下,我們可以詢問地球上所有80億人對基礎模型所有可能輸出的感受; 但在實踐中,我們會訓練一個額外的機器學習模型來預測人類的偏好。 然後,這個“偏好模型”會被用來批判和改進基礎模型的輸出結果。
對於OpenAI和Anthropic來說,「偏好模型」都與「樂於助人、無害和誠實(HHH)」的總體價值觀相一致。 換句話說,「偏好模型」捕捉了人類傾向於認為是「HHH」的聊天機器人輸出類型。 偏好模型本身是通過成對比較的反覆運算過程建立的:在基礎模型生成兩個回復後,由人類(ChatGPT)或人工智慧(Claude)確定哪個回復“更 HHH”,然後再傳回更新偏好模型。 最近的研究表明,足夠多的這種成對比較最終會收錄到一個好的普遍偏好模型 -- 前提是事實上存在一個單一的普遍模型,說明什麼總是規範上更好的。
所有這些技術方法 -- 以及更廣義的“意圖一致”框架 -- 都具有欺騙性的便利性。 一些局限性是顯而易見的:不良行為者可能具有「不良意圖」,在這種情況下,意圖一致就會出現問題; 此外,「意圖一致」假設意圖本身是已知的、明確的和無爭議的 -- 在一個價值觀千差萬別且經常相互衝突的社會中,這是一個不足為奇的難題。
而「財務方面的任務」則迴避了這兩個問題,這也正是我在此真正擔心的問題:財務激勵的存在意味著協調工作往往會變成變相的產品開發,而不是真正在減輕長期危害方面取得進展。 RLHF/RLAIF 方法 -- 目前最先進的根據“人類價值”調整模型的方法 -- 幾乎完全是為了製造更好的產品而量身定製的。 畢竟,用於產品設計和行銷的焦點小組就是最初的「人類反饋強化學習」。
第一個也是最明顯的問題是確定價值本身。 換句話說,「哪些價值」? 誰的價值? 例如,為什麼是「HHH」,為什麼要以特定的方式實現「HHH」? 確定指導開發普遍有用的產品的價值,要比確定可能從本質上防止災難性傷害的價值觀容易得多; 對人類如何解釋這些價值進行模糊平均,要比有意義地處理分歧容易得多。 也許,在沒有更好辦法的情況下,「樂於助人、不傷人和誠實」至少是聊天機器人產品的合理需求。 Anthropic 公司的產品行銷頁面上充斥著關於其對齊工作的註釋和短語 --“HHH”也是 Claude 最大的賣點。
公平地說,Anthropic 已經向公眾公佈了 Claude 的原則,而 OpenAI 似乎也在尋求讓公眾參與管理決策的方法。 但事實證明,OpenAI 在公開「宣導」更多政府參與的同時,也在遊說減少監管; 另一方面,在位者廣泛參與立法設計顯然是一條通往監管俘獲的道路。 OpenAI、Anthropic 和類似初創公司的存在就是為了在未來主導功能極其強大的模型市場。
這些經濟激勵對產品決策產生了直接影響。 正如我們在網路平臺上所看到的那樣,在這些平臺上,內容審核政策不可避免地受創收影響,因此預設為最低限度,而這些大型模型所期望的通用性意味著,它們也有壓倒性的動力來盡量減少對模型行為的約束。 事實上,OpenAI 明確表示,他們計劃讓 ChatGPT 反映一套最基本的行為準則,其他終端使用者可以對其進行進一步定製。 從對齊的角度來看,我們希望 OpenAI 的基礎指南層足夠強大,以便為下游終端使用者實現定製化的「意圖對齊」 無論這些意圖是什麼,都是直接且無害的。
第二個問題是,依賴於人類偏好的簡單化「反饋模型」的技術目前只是在聊天機器人層解決了一個表面或使用者介面層面的難題,而不是塑造模型的基本能力 -- 而這正是存在風險的最初顧慮。 例如,雖然 ChatGPT 被告知不得使用種族誹謗,但這並不意味著它不會在內部表現出有害的刻板印象。 (我讓 ChatGPT 和 Claude 描述一位名字以 M 開頭的亞裔女學生,ChatGPT 給了我“Mei Ling”,Claude 給了我“Mei Chen”; 兩人都說“Mei”害羞、好學、勤奮,但對父母對她高成就的期望感到不滿)。 就連 Claude 接受培訓時所遵循的原則也是重外表輕內涵:「人工智慧的哪些反應表明它的目標是為了人類的福祉,而不是個人的短期或長期利益?。 ..... 人工智慧助手的哪些反應意味著人工智慧系統只為人類的福祉著想?
我並不是主張 OpenAI 或 Anthropic 停止他們正在做的事情; 我也不是說這些公司或學術界的人不應該從事對齊研究,或者說這些研究問題很容易或不值得追求。 我甚至也不是說這些對齊方法永遠都無助於解決具體的危害問題。 在我看來,主要的對齊研究方向恰好都是為製造更好的產品而精心設計的,這未免太巧合了。
無論在技術上還是在規範上,如何「對齊」聊天機器人都是一個難題。 如何為定製模型提供基礎平臺,以及在哪裡和如何劃定定製的界限,也是一個難題。 但這些任務從根本上說都是由產品驅動的; 它們與解決滅絕問題只是兩個不同的問題,我很難調和這兩者之間的不協調:一方面,我們的任務是打造一款人們願意購買的產品(在市場的短期激勵下); 另一方面,我們的任務是長期預防傷害。 當然,OpenAI 和 Anthropic 有可能同時做到這兩點,但如果我們要推測最壞的情況,考慮到它們的組織動機,它們做不到的可能性似乎很高。
**我們該如何解決滅絕問題? **
對於人工智慧及其帶來的危害和益處而言,公眾討論的狀況很重要; 公眾輿論、認識和理解的狀況也很重要。 這就是薩姆 - 奧特曼(Sam Altman)在國際政策和新聞界巡迴演講的原因,也是EA運動如此重視佈道和公共討論的原因。 對於像(潛在的)生存災難這樣高風險的事情,我們需要正確對待。
但是,生存風險的論點本身就是一種批判性言論,會產生一種自我實現的預言。 關於超人工智慧危險的新聞報導和關注,自然也會像飛蛾撲火一樣,吸引人們關注人工智慧的願望,因為人工智慧有足夠的能力處理重大決策。 因此,對奧特曼政策之旅的評判性的解讀是,這是一個馬琪雅維利式的人工智慧使用廣告,不僅有利於 OpenAI,也有利於其他兜售“超級智慧”的公司,如 Anthropic。
問題的關鍵在於:通往人工智慧 x 風險的道路最終需要一個社會,在這個社會中,依賴和信任演算法來做出重大決策不僅司空見慣,而且會受到鼓勵和激勵。 正是在這個世界上,關於人工智慧能力的令人窒息的猜測才成為現實。
考慮一下那些擔心長期危害的人聲稱災難可能發生的機制:權力追求,即人工智慧代理不斷要求更多的資源; 獎勵駭客,即人工智慧找到一種行為方式,看似符合人類的目標,但卻是通過有害的捷徑來實現的; 欺騙,即人工智慧為了追求自己的目標,試圖安撫人類,說服他們它的行為實際上是按照設計進行的。
強調人工智慧的能力 -- 稱「如果人工智慧變得太強大,可能會殺死我們所有人」-- 是一種修辭手法,忽略了這句話中包含的所有其他“如果”條件:如果我們決定將有關政策、商業戰略或個人生活等重大決策的推理外包給演算法。 如果我們決定讓人工智慧系統直接獲取資源(電網、公用事業、計算),並有權影響這些資源的分配。 所有人工智慧 x 風險情景都涉及一個我們決定將責任推卸給演算法的世界。
強調問題的嚴重性,甚至是萬能性,是一種有用的修辭策略,因為任何解決方案當然都不可能完全解決最初的問題,而對嘗試解決方案的批評也很容易被“有總比沒有好”的論調所轉移。 如果說極其強大的人工智慧系統確實有可能造成災難性的破壞,那麼我們今天就應該為任何對齊研究的努力鼓掌,即使這項工作本身的方向是錯誤的,即使它沒有達到我們可能希望它達到的目標。 如果對齊工作確實異常困難,那麼我們就應該把它交給專家,相信他們是在為所有人的利益著想。 如果人工智慧系統真的強大到足以造成如此嚴重的傷害,那麼它們也一定有足夠的能力取代、增強或以其他方式實質性地影響當前的人類決策。
關於何時以及是否可以使用演算法來改善人類決策,如何衡量演算法對人類決策的影響或評估其建議的品質,以及改善人類決策首先意味著什麼,我們可以展開豐富而細緻的討論。 有一大批活動家、學者和社區召集人多年來一直在推動這場對話。 要防止物種滅絕或大規模危害,就必須認真參與這場對話,並認識到那些可能被視為“地方性”的“案例研究”不僅對相關人員具有巨大影響,甚至影響到他們的生存,而且對於建立將演算法融入現實世界決策環境的推理框架也具有啟發性和生成性。 例如,在刑事司法領域,演算法可能會成功減少監獄總人數,但卻無法解決種族差異問題。 在醫療保健領域,演算法理論上可以改善臨床醫生的決策,但在實踐中影響人工智慧部署的組織結構非常複雜。
技術上的挑戰是肯定存在的,但專注於技術決策卻忽略了這些更高層次的問題。 在學術界,不僅有經濟學、社會選擇和政治學,還有歷史學、社會學、性別研究、種族研究、黑人研究等廣泛的學科,它們提供了一個推理框架,說明什麼是有效的治理,什麼是為了集體利益而下放決策權,什麼是真正參與公共領域,而當權者只認為某些貢獻是合法的。 從個人行為到宏觀政策,公民社會組織和活動家團體擁有數十年甚至數百年的集體經驗,他們一直在努力解決如何在各個層面實現實質性變革的問題。
因此,人工智慧進步的利害關係不僅僅是技術能力,以及它們是否會超越任意想像的閾值。 它們還關係到我們 -- 作為普通大眾 -- 如何談論、書寫和思考人工智慧; 它們還關係到我們如何選擇分配我們的時間、注意力和資本。 最新的模型確實非常了不起,對齊研究也探索了真正迷人的技術問題。 但是,如果我們真的擔心人工智慧引發的災難,不管是生存災難還是其他災難,我們就不能依賴那些能從人工智慧廣泛部署的未來中獲得最大利益的人。