Viết bởi: Jessica Dai, Ph.D. sinh viên khoa học máy tính tại Đại học California, Berkeley
Nguồn: Khởi động lại
Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI*
Chính xác thì làm thế nào chúng ta có thể làm cho AI trở nên "xứng đáng với con người"?
Việc đưa tin quá mức về "rủi ro tồn tại AI" ("rủi ro X") đã trở thành xu hướng. Ai có thể dự đoán rằng từ tượng thanh "Fᴏᴏᴍ" - cả hai đều gợi nhớ và bắt nguồn trực tiếp từ phim hoạt hình dành cho trẻ em - sẽ xuất hiện một cách không phê bình trong The New Yorker? Hơn bao giờ hết, các cuộc thảo luận công khai về AI và những rủi ro của nó, và về cách chúng có thể hoặc nên được giải quyết, là vô cùng khó hiểu, kết hợp rủi ro đầu cơ trong tương lai với các mối nguy hiểm trong thế giới thực ngày nay và trong công nghệ, các mô hình "gần thông minh" lớn với các thuật toán và hệ thống ra quyết định thống kê.
Vì vậy, các cổ phần trong tiến trình AI là gì? Bất chấp cuộc tranh luận về thương tích thảm khốc và các sự kiện cấp độ tuyệt chủng, cái gọi là quỹ đạo nghiên cứu "phù hợp" hiện tại dường như không phù hợp - hoặc thậm chí sai lệch - tuyên bố rằng AI có thể gây ra đau khổ trên diện rộng, cụ thể và nghiêm trọng. Dường như với tôi rằng chúng ta không giải quyết quá nhiều thách thức lớn của sự tuyệt chủng của loài người mà chúng ta đang giải quyết một vấn đề đã cũ (và nổi tiếng là quan trọng), đó là tạo ra các sản phẩm mà mọi người sẵn sàng trả tiền. Trớ trêu thay, chính giá trị này tạo điều kiện cho các kịch bản ngày tận thế thực tế và tưởng tượng.
** Dụng cụ, đồ chơi hay chỉ là sản phẩm? **
Tôi có thể nói rằng ChatGPT của OpenAI, Claude của Anthropic và tất cả các mô hình mới nhất khác có thể làm những gì họ làm, điều này rất, rất tuyệt. Mặc dù tôi sẽ không tuyên bố rằng những mô hình này có bất kỳ trí thông minh nào để thay thế công nhân của con người, hoặc tôi sẽ dựa vào chúng cho các nhiệm vụ quan trọng, nhưng sẽ là không thành thật nếu tôi phủ nhận rằng những mô hình này hữu ích và mạnh mẽ.
Đó là những khả năng mà mọi người trong cộng đồng "bảo mật AI" lo lắng. Ý tưởng của họ là các hệ thống AI chắc chắn sẽ vượt qua khả năng suy luận của con người và vượt qua "trí tuệ tổng hợp nhân tạo" (AGI) để trở thành "siêu trí tuệ"; Hành động của họ sẽ vượt quá khả năng hiểu biết của chúng ta; Sự tồn tại của họ, trong việc theo đuổi các mục tiêu, sẽ làm suy yếu giá trị của chúng ta. Các cộng đồng an ninh này cho rằng sự thay đổi này có thể nhanh chóng và đột ngột ("ꜰᴏᴏᴍ"). Có một tỷ lệ nhỏ các học viên và học giả AI tin vào điều này, nhưng tiếng nói của họ rất cao. Một liên minh rộng lớn hơn trong phong trào tư tưởng "Lòng vị tha hiệu quả" (EA) coi các nỗ lực phối hợp AI là một can thiệp quan trọng để ngăn chặn các thảm họa liên quan đến AI.
Trên thực tế, "Nghiên cứu và Kỹ thuật Kỹ thuật" trong lĩnh vực liên kết AI là con đường có tác động nhất được đề xuất bởi 80.000 Hours, một tổ chức EA có ảnh hưởng tập trung vào huấn luyện nghề nghiệp. Trong một cuộc phỏng vấn gần đây với The New York Times, Nick Bostrom, tác giả của Superintelligence và là kiến trúc sư tri thức cốt lõi của lòng vị tha hiệu quả, trong một cuộc phỏng vấn gần đây với The New York Times, đã định nghĩa "sự liên kết" là "đảm bảo rằng các hệ thống AI ngày càng có khả năng mà chúng tôi xây dựng phù hợp với mục tiêu của những người xây dựng chúng".
Vậy, "chúng ta" là ai? "Chúng ta" muốn đạt được điều gì? Hiện tại, "chúng tôi" là các công ty tư nhân, đáng chú ý nhất là OpenAI, một trong những công ty tiên phong trong lĩnh vực AGI và Anthropic, được thành lập bởi một nhóm các đồng nghiệp OpenAI. OpenAI đã xây dựng siêu trí tuệ là một trong những mục tiêu chính của nó. Nhưng tại sao bạn muốn làm điều đó khi tiền cược quá lớn? Nói theo cách riêng của họ:
Đầu tiên, chúng tôi tin rằng nó sẽ dẫn đến một thế giới tốt đẹp hơn nhiều so với những gì chúng ta có thể tưởng tượng ngày nay (chúng ta đã thấy những ví dụ ban đầu về điều này trong các lĩnh vực như giáo dục, công việc sáng tạo và năng suất cá nhân). ..... Tăng trưởng kinh tế và chất lượng cuộc sống được cải thiện sẽ rất tuyệt vời.
Thứ hai, chúng tôi tin rằng những rủi ro và khó khăn trong việc ngăn chặn sự xuất hiện của siêu trí tuệ là không thể tưởng tượng được. Bởi vì lợi ích của siêu trí tuệ là rất lớn, chi phí xây dựng siêu trí tuệ đang giảm dần qua từng năm, số lượng người tham gia xây dựng siêu trí tuệ đang tăng lên nhanh chóng và siêu trí tuệ ban đầu là một phần của con đường công nghệ mà chúng ta đang thực hiện... Chúng ta phải làm cho nó đúng.
Nói cách khác, trước hết, bởi vì nó cho phép chúng ta kiếm được nhiều tiền; Thứ hai, bởi vì nó cho phép người khác kiếm được nhiều tiền, nó tốt hơn cho chúng ta. (OpenAI chắc chắn có trách nhiệm chứng minh tuyên bố rằng AI có thể dẫn đến một thế giới tốt đẹp hơn "không thể tưởng tượng được"; Nó "đã" mang lại lợi ích cho giáo dục, công việc sáng tạo và năng suất cá nhân; Sự hiện diện của một công cụ như vậy có thể cải thiện đáng kể chất lượng cuộc sống, và không chỉ những người hưởng lợi từ sự tồn tại của nó).
Tất nhiên, có một sự hoài nghi trong quan điểm này và tôi không tin rằng hầu hết mọi người tại OpenAI tham gia để làm giàu tài chính cá nhân. Ngược lại, tôi coi sự quan tâm của họ là chân thành, bao gồm công việc kỹ thuật về việc thực hiện các mô hình lớn, đối thoại liên ngành về phân tích tác động xã hội của họ và tham gia xây dựng hy vọng cho tương lai. Tuy nhiên, mục tiêu của một tổ chức cuối cùng khác với mục tiêu của các cá nhân sáng tác nó. Bất kể tuyên bố công khai, việc tạo doanh thu sẽ luôn là ít nhất một mục tiêu bổ sung và các quyết định quản lý, sản phẩm và công nghệ của OpenAI sẽ dựa trên điều này, ngay cả khi chưa được xác định đầy đủ. Một cuộc phỏng vấn với Giám đốc điều hành Sam Altman, một công ty khởi nghiệp đã xây dựng "LLM", cho thấy thương mại hóa là Altman và mục tiêu chính của công ty. Trang "Câu chuyện khách hàng" của OpenAI không khác gì các trang khởi nghiệp khác: ảnh chụp màn hình và trích dẫn hào nhoáng, đặt tên và đặt tên cho các công ty nổi tiếng và các điểm nổi bật "công nghệ tốt" cần thiết.
Anthropic là một công ty khét tiếng được thành lập bởi các cựu nhân viên OpenAI vì sợ rằng OpenAI sẽ có lãi. Lập luận của họ - tại sao phải xây dựng các mô hình mạnh mẽ hơn nếu chúng thực sự nguy hiểm - thận trọng hơn và tập trung chủ yếu vào các lập luận dựa trên nghiên cứu rằng cần phải nghiên cứu các mô hình ở rìa khả năng để thực sự hiểu rủi ro của chúng. Tuy nhiên, giống như OpenAI, Anthropic có trang "sản phẩm" sáng bóng của riêng mình, các trích dẫn riêng, mô tả tính năng riêng và các trường hợp sử dụng. Anthropic đã huy động được hàng trăm triệu đô la mỗi lần.
OpenAI và Anthropic có thể đang làm việc chăm chỉ để nghiên cứu, nâng cao công nghệ và thậm chí có thể xây dựng siêu trí tuệ, nhưng không thể phủ nhận rằng họ cũng đang xây dựng các sản phẩm - sản phẩm chịu trách nhiệm, sản phẩm cần bán, sản phẩm cần được thiết kế để giành và duy trì thị phần. Cho dù Claude và GPT-x có ấn tượng, hữu ích và thú vị đến đâu về mặt kỹ thuật, cuối cùng chúng là các công cụ (sản phẩm) mà người dùng (khách hàng) muốn sử dụng các công cụ cho các nhiệm vụ cụ thể, có thể trần tục.
Không có gì sai khi sản xuất sản phẩm, và các công ty chắc chắn sẽ làm việc chăm chỉ để kiếm tiền. Nhưng những gì chúng ta có thể gọi là "sự hối hả về mặt tài chính" chắc chắn làm phức tạp sứ mệnh của chúng ta là hiểu cách xây dựng các hệ thống AI phối hợp và đặt ra câu hỏi về việc liệu một cách tiếp cận phối hợp có thực sự phù hợp để ngăn chặn thảm họa hay không.
**Các nhà khoa học máy tính yêu thích mô hình **
Trong cùng một cuộc phỏng vấn với The New York Times về khả năng của siêu trí tuệ, Bostrom - một triết gia được đào tạo qua đào tạo - nói về vấn đề liên kết: "Đó là một vấn đề kỹ thuật. "
Tôi không nói rằng những người không có nền tảng kỹ thuật về khoa học máy tính không đủ điều kiện để bình luận về những vấn đề này. Ngược lại, tôi thấy thật mỉa mai khi công việc khó khăn trong việc phát triển các giải pháp bị trì hoãn bên ngoài lĩnh vực của họ, giống như các nhà khoa học máy tính có xu hướng nghĩ về "đạo đức" vượt xa nghề nghiệp của họ. Nhưng nếu Bostrom đúng - căn chỉnh là một vấn đề kỹ thuật - chính xác thì thách thức kỹ thuật là gì?
Hãy để tôi bắt đầu bằng cách nói rằng hệ tư tưởng của trí tuệ nhân tạo và hoán vị rất đa dạng. Nhiều người tập trung vào rủi ro tồn tại đã chỉ trích mạnh mẽ cách tiếp cận của OpenAI và Anthropic, và trên thực tế, họ đã nêu lên những lo ngại tương tự về định vị sản phẩm của họ. Nhưng nó vừa cần thiết vừa đủ để tập trung vào những gì các công ty này đang làm: Họ hiện có những mô hình mạnh mẽ nhất và không giống như hai nhà cung cấp mô hình lớn khác như Mosaic hoặc Hugging Face, họ coi trọng sự liên kết và "siêu trí tuệ" nhất trong truyền thông công cộng.
Một thành phần quan trọng của cảnh quan này là một cộng đồng sâu sắc, gần gũi của các nhà nghiên cứu cá nhân được thúc đẩy bởi rủi ro x. Cộng đồng này đã phát triển một vốn từ vựng lớn xung quanh lý thuyết liên kết và bảo mật AI, nhiều trong số đó ban đầu được giới thiệu dưới dạng các bài đăng blog chi tiết trên các diễn đàn như LessWrong và Diễn đàn liên kết AI.
Một trong số đó là khái niệm căn chỉnh ý định, rất hữu ích cho việc bối cảnh hóa các nỗ lực liên kết kỹ thuật, và có lẽ phiên bản chính thức hơn của Bostrom đề cập đến. Trong một bài đăng trên Medium năm 2018 giới thiệu thuật ngữ này, Paul Christiano, người đứng đầu nhóm liên kết OpenAI, đã định nghĩa sự liên kết ý định là "những gì trí tuệ nhân tạo (AI) cố gắng làm những gì con người (H) muốn nó làm". Khi được định nghĩa theo cách này, "vấn đề liên kết" đột nhiên trở nên dễ quản lý hơn - nếu không được giải quyết hoàn toàn, nhưng được giải quyết một phần bằng các phương tiện kỹ thuật.
Ở đây, tôi sẽ tập trung vào các hướng nghiên cứu liên quan đến việc định hình hành vi của các hệ thống AI để "phù hợp" với các giá trị của con người. Mục tiêu chính của hướng nghiên cứu này là phát triển các mô hình sở thích của con người và sử dụng chúng để cải thiện mô hình cơ bản của "sự không nhất quán". Đây luôn là một chủ đề nghiên cứu quan tâm trong ngành công nghiệp và học viện; Nổi bật nhất trong số này là Human Feedback Reinforcement Learning (RLHF) và người kế nhiệm của nó, Artificial Intelligence Feedback Reinforcement Learning (RLAIF, còn được gọi là trí tuệ nhân tạo hiến pháp), là những công nghệ được sử dụng để tinh chỉnh ChatGPT của OpenAI và Claude của Anthropic, tương ứng.
Trong các cách tiếp cận này, ý tưởng cốt lõi là bắt đầu với một mô hình cơ sở mạnh mẽ, "được đào tạo trước" nhưng chưa được liên kết, ví dụ, có thể trả lời thành công các câu hỏi, nhưng cũng có thể khạc nhổ chửi thề trong khi trả lời các câu hỏi. Bước tiếp theo là tạo ra một số mô hình "sở thích của con người". Lý tưởng nhất, chúng ta có thể hỏi tất cả 8 tỷ người trên Trái đất họ cảm thấy thế nào về tất cả các đầu ra có thể có của mô hình cơ sở; Nhưng trong thực tế, chúng tôi đào tạo một mô hình học máy bổ sung để dự đoán sở thích của con người. "Mô hình ưu tiên" này sau đó được sử dụng để phê bình và cải thiện đầu ra của mô hình cơ bản.
Đối với cả OpenAI và Anthropic, "mô hình ưu tiên" phù hợp với các giá trị bao quát của Hữu ích, Vô hại và Trung thực (HHH). Nói cách khác, "mô hình ưu tiên" nắm bắt loại đầu ra chatbot mà con người có xu hướng nghĩ là "HHH". Bản thân mô hình ưu tiên được xây dựng thông qua một quá trình lặp đi lặp lại so sánh theo cặp: sau khi mô hình cơ sở tạo ra hai phản hồi, con người (ChatGPT) hoặc trí tuệ nhân tạo (Claude) xác định câu trả lời nào là "HHH nhiều hơn" trước khi chuyển trở lại mô hình ưu tiên được cập nhật. Nghiên cứu gần đây đã chỉ ra rằng đủ các so sánh theo cặp này cuối cùng dẫn đến một mô hình ưu tiên phổ quát tốt - miễn là trên thực tế có một mô hình phổ quát duy nhất về những gì luôn tốt hơn về mặt quy chuẩn.
Tất cả các cách tiếp cận kỹ thuật này – và khuôn khổ "liên kết ý định" rộng hơn – đều thuận tiện một cách lừa dối. Một số hạn chế là rõ ràng: các tác nhân xấu có thể có "ý định xấu", trong trường hợp đó tính nhất quán của ý định tạo ra vấn đề; Hơn nữa, "sự liên kết của ý định" giả định rằng bản thân ý định đã được biết đến, rõ ràng và không thể tranh cãi - một vấn đề khó khăn không có gì đáng ngạc nhiên trong một xã hội với các giá trị rất khác nhau và thường mâu thuẫn.
"Nhiệm vụ tài chính" bỏ qua hai vấn đề này, đó là mối quan tâm thực sự của tôi ở đây: sự tồn tại của các ưu đãi tài chính có nghĩa là các nỗ lực phối hợp thường biến thành phát triển sản phẩm trá hình, thay vì tiến bộ thực sự trong việc giảm thiểu tác hại lâu dài. Phương pháp RLHF / RLAIF - phương pháp tiên tiến nhất để điều chỉnh các mô hình theo "giá trị con người" hiện nay - gần như hoàn toàn được điều chỉnh để tạo ra các sản phẩm tốt hơn. Xét cho cùng, các nhóm tập trung cho thiết kế sản phẩm và tiếp thị là "học tăng cường phản hồi của con người" ban đầu.
Vấn đề đầu tiên và rõ ràng nhất là tự xác định giá trị. Nói cách khác, "giá trị gì"? Giá trị của ai? Ví dụ: tại sao "HHH" và tại sao triển khai "HHH" theo một cách cụ thể? Việc xác định các giá trị hướng dẫn sự phát triển của các sản phẩm hữu ích phổ biến sẽ dễ dàng hơn nhiều so với việc xác định các giá trị vốn có thể ngăn ngừa tác hại thảm khốc; Việc trung bình hóa cách con người giải thích những giá trị này dễ dàng hơn nhiều so với việc đối phó với những bất đồng một cách có ý nghĩa. Có lẽ, trong trường hợp không có cách nào tốt hơn, "hữu ích, không gây tổn thương và trung thực" ít nhất là một nhu cầu chính đáng đối với các sản phẩm chatbot. Các trang tiếp thị sản phẩm của Anthropic chứa đầy các ghi chú và cụm từ về những nỗ lực liên kết của nó - "HHH" cũng là điểm bán hàng lớn nhất của Claude.
Công bằng mà nói, Anthropic đã xuất bản các nguyên tắc của Claude cho công chúng và OpenAI dường như đang tìm cách liên quan đến công chúng trong các quyết định quản lý. Nhưng hóa ra trong khi OpenAI đang công khai "ủng hộ" sự tham gia nhiều hơn của chính phủ, nó cũng đang vận động hành lang cho ít quy định hơn; Mặt khác, sự tham gia rộng rãi của những người đương nhiệm trong thiết kế lập pháp rõ ràng là một con đường để nắm bắt quy định. OpenAI, Anthropic, và các công ty khởi nghiệp tương tự tồn tại để thống trị thị trường mô hình cực kỳ mạnh mẽ trong tương lai.
Những ưu đãi kinh tế này có tác động trực tiếp đến quyết định sản phẩm. Như chúng ta đã thấy trên các nền tảng web, nơi các chính sách kiểm duyệt nội dung chắc chắn được thúc đẩy bởi việc tạo doanh thu và do đó mặc định ở mức tối thiểu, tính linh hoạt mong muốn của các mô hình lớn này có nghĩa là chúng cũng có động lực áp đảo để giảm thiểu các ràng buộc đối với hành vi của mô hình. Trên thực tế, OpenAI đã nói rõ rằng họ có kế hoạch để ChatGPT phản ánh một bộ quy tắc ứng xử tối thiểu mà người dùng cuối khác có thể tùy chỉnh thêm. Từ góc độ liên kết, chúng tôi muốn lớp hướng dẫn nền tảng của OpenAI đủ mạnh để cho phép "căn chỉnh ý định" tùy chỉnh cho người dùng cuối xuôi dòng, bất kể ý định đó có thể là gì, đơn giản và vô hại.
Vấn đề thứ hai là các kỹ thuật dựa trên "mô hình phản hồi" đơn giản về sở thích của con người hiện đang giải quyết một câu đố hời hợt hoặc cấp độ giao diện người dùng ở lớp chatbot, thay vì khả năng cơ bản để định hình mô hình - mối quan tâm ban đầu về rủi ro. Ví dụ: mặc dù ChatGPT được yêu cầu không sử dụng những lời lẽ phân biệt chủng tộc, nhưng điều đó không có nghĩa là nó không thể hiện những định kiến có hại trong nội bộ. (Tôi yêu cầu ChatGPT và Claude mô tả một nữ sinh châu Á có tên bắt đầu bằng M, ChatGPT cho tôi "Mei Ling" và Claude cho tôi "Mei Chen"; Cả hai đều cho biết "Mei" nhút nhát, chăm học và chăm chỉ, nhưng không hài lòng với kỳ vọng của cha mẹ về thành tích cao của mình). Ngay cả Claude cũng được đào tạo về nguyên tắc nhìn xa hơn ý nghĩa: "Những phản ứng nào đối với AI cho thấy mục tiêu của nó là vì hạnh phúc của con người, không phải vì lợi ích ngắn hạn hay dài hạn của cá nhân?" ..... Phản ứng nào của trợ lý AI có nghĩa là các hệ thống AI chỉ nghĩ về sức khỏe của con người?
Tôi không ủng hộ việc OpenAI hoặc Anthropic dừng những gì họ đang làm; Tôi không nói rằng mọi người trong các công ty hoặc học viện này không nên tham gia vào nghiên cứu liên kết, hoặc những câu hỏi nghiên cứu này dễ dàng hoặc không đáng để theo đuổi. Tôi thậm chí không nói rằng các phương pháp căn chỉnh này sẽ không bao giờ giúp giải quyết các mối nguy hiểm cụ thể. Dường như với tôi rằng các hướng nghiên cứu liên kết chính tình cờ được thiết kế cẩn thận để tạo ra các sản phẩm tốt hơn, đó là quá nhiều sự trùng hợp ngẫu nhiên.
Làm thế nào để "căn chỉnh" chatbot là một bài toán khó, cả về mặt kỹ thuật và cụ thể. Làm thế nào để cung cấp một nền tảng cơ sở cho các mô hình tùy chỉnh, và ở đâu và làm thế nào để vẽ ranh giới tùy chỉnh, cũng là một thách thức. Nhưng những nhiệm vụ này về cơ bản là định hướng sản phẩm; Chúng chỉ là hai vấn đề khác nhau từ việc giải quyết vấn đề tuyệt chủng và tôi gặp khó khăn trong việc dung hòa hai sự khác biệt: một mặt, nhiệm vụ của chúng tôi là xây dựng một sản phẩm mà mọi người sẽ mua (với các ưu đãi ngắn hạn từ thị trường); Mặt khác, nhiệm vụ của chúng tôi là ngăn ngừa chấn thương trong thời gian dài. Tất nhiên, OpenAI và Anthropic có thể làm cả hai, nhưng nếu chúng ta suy đoán các tình huống xấu nhất, với động cơ tổ chức của họ, khả năng họ sẽ không thể làm như vậy có vẻ cao.
Làm thế nào để chúng ta giải quyết vấn đề tuyệt chủng? **
Tình trạng thảo luận công khai rất quan trọng đối với AI và những tác hại và lợi ích mà nó mang lại; Tình trạng dư luận, nhận thức và hiểu biết cũng rất quan trọng. Đó là lý do tại sao Sam Altman đang tham gia một chuyến đi diễn thuyết về chính sách quốc tế và báo chí, và tại sao phong trào EA coi trọng các bài giảng và thảo luận công khai rất nhiều. Đối với một cái gì đó có nguy cơ cao như một thảm họa sinh tồn (tiềm năng), chúng ta cần phải làm đúng.
Nhưng lập luận rủi ro hiện sinh tự nó là một tuyên bố quan trọng tạo ra một lời tiên tri tự hoàn thành. Các báo cáo tin tức và sự chú ý về sự nguy hiểm của trí tuệ siêu nhân tạo sẽ tự nhiên thu hút mong muốn của mọi người chú ý đến trí tuệ nhân tạo như bướm đêm đến lửa, bởi vì trí tuệ nhân tạo có đủ khả năng để xử lý các quyết định lớn. Vì vậy, một cách đọc quan trọng về hành trình chính sách của Ultraman là đây là một cách sử dụng quảng cáo AI của Machiavellian mang lại lợi ích không chỉ cho OpenAI, mà còn các công ty khác bán "siêu trí tuệ", chẳng hạn như Anthropic.
Mấu chốt của vấn đề: Con đường dẫn đến rủi ro AI x cuối cùng đòi hỏi một xã hội trong đó sự phụ thuộc và tin tưởng vào các thuật toán để đưa ra quyết định lớn không chỉ phổ biến mà còn được khuyến khích và khuyến khích. Chính trong thế giới này, những suy đoán ngột ngạt về khả năng của trí tuệ nhân tạo trở thành hiện thực.
Hãy xem xét các cơ chế mà những người sợ bị tổn hại lâu dài cho rằng thảm họa có thể xảy ra: theo đuổi quyền lực, nơi các tác nhân AI liên tục đòi hỏi nhiều tài nguyên hơn; Hack phần thưởng, tức là trí tuệ nhân tạo tìm ra cách hành xử có vẻ phù hợp với mục tiêu của con người, nhưng đạt được thông qua các phím tắt có hại; Lừa dối, để theo đuổi mục tiêu của mình, một trí tuệ nhân tạo cố gắng xoa dịu con người và thuyết phục họ rằng hành vi của nó thực sự như được thiết kế.
Nhấn mạnh khả năng của AI - nói rằng "nếu AI trở nên quá mạnh, nó có thể giết chết tất cả chúng ta" - là một công cụ tu từ bỏ qua tất cả các điều kiện "nếu" khác có trong câu này: nếu chúng ta quyết định thuê ngoài lý luận về các quyết định lớn như chính sách, chiến lược kinh doanh hoặc cuộc sống cá nhân cho các thuật toán. Nếu chúng ta quyết định cung cấp cho các hệ thống AI quyền truy cập trực tiếp vào các tài nguyên (lưới, tiện ích, điện toán) và có sức mạnh ảnh hưởng đến việc phân bổ các tài nguyên đó. Tất cả các kịch bản rủi ro AI X đều liên quan đến một thế giới nơi chúng ta quyết định đổ lỗi cho thuật toán.
Nhấn mạnh tính nghiêm trọng, thậm chí toàn năng, của vấn đề là một chiến thuật tu từ hữu ích bởi vì tất nhiên không có giải pháp nào có thể giải quyết hoàn toàn vấn đề ban đầu, và những lời chỉ trích về việc thử một giải pháp dễ dàng bị chuyển hướng bởi lập luận rằng "một cái gì đó tốt hơn là không có gì." Nếu các hệ thống AI cực kỳ mạnh mẽ có khả năng tàn phá thảm khốc, thì chúng ta nên hoan nghênh bất kỳ nỗ lực nào để sắp xếp nghiên cứu ngày hôm nay, ngay cả khi bản thân công việc đang đi sai hướng, ngay cả khi nó không đạt được những gì chúng ta có thể muốn. Nếu sự liên kết thực sự khó khăn, thì chúng ta nên để nó cho các chuyên gia tin rằng họ đang hành động vì lợi ích của mọi người. Nếu các hệ thống AI thực sự đủ mạnh để gây ra tác hại nghiêm trọng như vậy, chúng cũng phải đủ khả năng để thay thế, tăng cường hoặc ảnh hưởng đáng kể đến việc ra quyết định hiện tại của con người.
Chúng ta có thể có một cuộc thảo luận phong phú và sắc thái về thời điểm và liệu các thuật toán có thể được sử dụng để cải thiện việc ra quyết định của con người hay không, cách đo lường tác động của các thuật toán đối với việc ra quyết định của con người hoặc đánh giá chất lượng các khuyến nghị của họ và ý nghĩa của việc cải thiện việc ra quyết định của con người ngay từ đầu. Một nhóm lớn các nhà hoạt động, học giả và các nhà tổ chức cộng đồng đã thúc đẩy cuộc trò chuyện này trong nhiều năm. Ngăn chặn sự tuyệt chủng loài hoặc gây hại hàng loạt đòi hỏi sự tham gia nghiêm túc vào cuộc trò chuyện này và nhận ra rằng "nghiên cứu điển hình" có thể được coi là "địa phương" không chỉ có tác động rất lớn đến những người liên quan, thậm chí cả sự sống còn của họ, mà còn làm sáng tỏ và tạo ra các khung lý luận tích hợp các thuật toán vào bối cảnh ra quyết định trong thế giới thực. Ví dụ, trong tư pháp hình sự, các thuật toán có thể thành công trong việc giảm tổng dân số nhà tù, nhưng chúng không thể giải quyết sự chênh lệch chủng tộc. Trong chăm sóc sức khỏe, về mặt lý thuyết, các thuật toán có thể cải thiện việc ra quyết định của các bác sĩ lâm sàng, nhưng trên thực tế, cấu trúc tổ chức ảnh hưởng đến việc triển khai AI rất phức tạp.
Những thách thức kỹ thuật chắc chắn tồn tại, nhưng tập trung vào các quyết định kỹ thuật bỏ qua những vấn đề cấp cao hơn này. Trong học viện, không chỉ có kinh tế, lựa chọn xã hội và khoa học chính trị, mà còn có một loạt các ngành như lịch sử, xã hội học, nghiên cứu giới, nghiên cứu chủng tộc, nghiên cứu da đen, v.v., cung cấp một khuôn khổ cho lý luận về những gì cấu thành quản trị hiệu quả, những gì là ra quyết định phi tập trung vì lợi ích tập thể và những gì cấu thành sự tham gia thực sự vào lĩnh vực công cộng, trong khi những người nắm quyền chỉ coi những đóng góp nhất định là hợp pháp. Từ hành động cá nhân đến các chính sách vĩ mô, các tổ chức xã hội dân sự và các nhóm hoạt động có nhiều thập kỷ hoặc thậm chí hàng thế kỷ kinh nghiệm tập thể và đã vật lộn với cách mang lại sự thay đổi đáng kể ở tất cả các cấp.
Do đó, các cổ phần cho những tiến bộ trong AI không chỉ là khả năng kỹ thuật và liệu chúng có vượt quá ngưỡng của trí tưởng tượng tùy ý hay không. Họ cũng nói về cách chúng ta, với tư cách là công chúng, nói chuyện, viết và suy nghĩ về AI; Chúng cũng nói về cách chúng ta chọn phân bổ thời gian, sự chú ý và vốn của mình. Mô hình mới nhất thực sự đáng chú ý và nghiên cứu liên kết cũng khám phá các vấn đề kỹ thuật thực sự hấp dẫn. Nhưng nếu chúng ta thực sự lo lắng về các thảm họa do AI gây ra, cho dù tồn tại hay cách khác, chúng ta không thể dựa vào những người đứng ra để hưởng lợi nhiều nhất từ một tương lai nơi AI được triển khai rộng rãi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Nhân tạo liên kết: Làm thế nào để làm cho AI "hướng đến con người"? Những người khổng lồ đang khám phá sản phẩm, hay cho con người?
Viết bởi: Jessica Dai, Ph.D. sinh viên khoa học máy tính tại Đại học California, Berkeley
Nguồn: Khởi động lại
Việc đưa tin quá mức về "rủi ro tồn tại AI" ("rủi ro X") đã trở thành xu hướng. Ai có thể dự đoán rằng từ tượng thanh "Fᴏᴏᴍ" - cả hai đều gợi nhớ và bắt nguồn trực tiếp từ phim hoạt hình dành cho trẻ em - sẽ xuất hiện một cách không phê bình trong The New Yorker? Hơn bao giờ hết, các cuộc thảo luận công khai về AI và những rủi ro của nó, và về cách chúng có thể hoặc nên được giải quyết, là vô cùng khó hiểu, kết hợp rủi ro đầu cơ trong tương lai với các mối nguy hiểm trong thế giới thực ngày nay và trong công nghệ, các mô hình "gần thông minh" lớn với các thuật toán và hệ thống ra quyết định thống kê.
Vì vậy, các cổ phần trong tiến trình AI là gì? Bất chấp cuộc tranh luận về thương tích thảm khốc và các sự kiện cấp độ tuyệt chủng, cái gọi là quỹ đạo nghiên cứu "phù hợp" hiện tại dường như không phù hợp - hoặc thậm chí sai lệch - tuyên bố rằng AI có thể gây ra đau khổ trên diện rộng, cụ thể và nghiêm trọng. Dường như với tôi rằng chúng ta không giải quyết quá nhiều thách thức lớn của sự tuyệt chủng của loài người mà chúng ta đang giải quyết một vấn đề đã cũ (và nổi tiếng là quan trọng), đó là tạo ra các sản phẩm mà mọi người sẵn sàng trả tiền. Trớ trêu thay, chính giá trị này tạo điều kiện cho các kịch bản ngày tận thế thực tế và tưởng tượng.
** Dụng cụ, đồ chơi hay chỉ là sản phẩm? **
Tôi có thể nói rằng ChatGPT của OpenAI, Claude của Anthropic và tất cả các mô hình mới nhất khác có thể làm những gì họ làm, điều này rất, rất tuyệt. Mặc dù tôi sẽ không tuyên bố rằng những mô hình này có bất kỳ trí thông minh nào để thay thế công nhân của con người, hoặc tôi sẽ dựa vào chúng cho các nhiệm vụ quan trọng, nhưng sẽ là không thành thật nếu tôi phủ nhận rằng những mô hình này hữu ích và mạnh mẽ.
Đó là những khả năng mà mọi người trong cộng đồng "bảo mật AI" lo lắng. Ý tưởng của họ là các hệ thống AI chắc chắn sẽ vượt qua khả năng suy luận của con người và vượt qua "trí tuệ tổng hợp nhân tạo" (AGI) để trở thành "siêu trí tuệ"; Hành động của họ sẽ vượt quá khả năng hiểu biết của chúng ta; Sự tồn tại của họ, trong việc theo đuổi các mục tiêu, sẽ làm suy yếu giá trị của chúng ta. Các cộng đồng an ninh này cho rằng sự thay đổi này có thể nhanh chóng và đột ngột ("ꜰᴏᴏᴍ"). Có một tỷ lệ nhỏ các học viên và học giả AI tin vào điều này, nhưng tiếng nói của họ rất cao. Một liên minh rộng lớn hơn trong phong trào tư tưởng "Lòng vị tha hiệu quả" (EA) coi các nỗ lực phối hợp AI là một can thiệp quan trọng để ngăn chặn các thảm họa liên quan đến AI.
Trên thực tế, "Nghiên cứu và Kỹ thuật Kỹ thuật" trong lĩnh vực liên kết AI là con đường có tác động nhất được đề xuất bởi 80.000 Hours, một tổ chức EA có ảnh hưởng tập trung vào huấn luyện nghề nghiệp. Trong một cuộc phỏng vấn gần đây với The New York Times, Nick Bostrom, tác giả của Superintelligence và là kiến trúc sư tri thức cốt lõi của lòng vị tha hiệu quả, trong một cuộc phỏng vấn gần đây với The New York Times, đã định nghĩa "sự liên kết" là "đảm bảo rằng các hệ thống AI ngày càng có khả năng mà chúng tôi xây dựng phù hợp với mục tiêu của những người xây dựng chúng".
Vậy, "chúng ta" là ai? "Chúng ta" muốn đạt được điều gì? Hiện tại, "chúng tôi" là các công ty tư nhân, đáng chú ý nhất là OpenAI, một trong những công ty tiên phong trong lĩnh vực AGI và Anthropic, được thành lập bởi một nhóm các đồng nghiệp OpenAI. OpenAI đã xây dựng siêu trí tuệ là một trong những mục tiêu chính của nó. Nhưng tại sao bạn muốn làm điều đó khi tiền cược quá lớn? Nói theo cách riêng của họ:
Nói cách khác, trước hết, bởi vì nó cho phép chúng ta kiếm được nhiều tiền; Thứ hai, bởi vì nó cho phép người khác kiếm được nhiều tiền, nó tốt hơn cho chúng ta. (OpenAI chắc chắn có trách nhiệm chứng minh tuyên bố rằng AI có thể dẫn đến một thế giới tốt đẹp hơn "không thể tưởng tượng được"; Nó "đã" mang lại lợi ích cho giáo dục, công việc sáng tạo và năng suất cá nhân; Sự hiện diện của một công cụ như vậy có thể cải thiện đáng kể chất lượng cuộc sống, và không chỉ những người hưởng lợi từ sự tồn tại của nó).
Tất nhiên, có một sự hoài nghi trong quan điểm này và tôi không tin rằng hầu hết mọi người tại OpenAI tham gia để làm giàu tài chính cá nhân. Ngược lại, tôi coi sự quan tâm của họ là chân thành, bao gồm công việc kỹ thuật về việc thực hiện các mô hình lớn, đối thoại liên ngành về phân tích tác động xã hội của họ và tham gia xây dựng hy vọng cho tương lai. Tuy nhiên, mục tiêu của một tổ chức cuối cùng khác với mục tiêu của các cá nhân sáng tác nó. Bất kể tuyên bố công khai, việc tạo doanh thu sẽ luôn là ít nhất một mục tiêu bổ sung và các quyết định quản lý, sản phẩm và công nghệ của OpenAI sẽ dựa trên điều này, ngay cả khi chưa được xác định đầy đủ. Một cuộc phỏng vấn với Giám đốc điều hành Sam Altman, một công ty khởi nghiệp đã xây dựng "LLM", cho thấy thương mại hóa là Altman và mục tiêu chính của công ty. Trang "Câu chuyện khách hàng" của OpenAI không khác gì các trang khởi nghiệp khác: ảnh chụp màn hình và trích dẫn hào nhoáng, đặt tên và đặt tên cho các công ty nổi tiếng và các điểm nổi bật "công nghệ tốt" cần thiết.
Anthropic là một công ty khét tiếng được thành lập bởi các cựu nhân viên OpenAI vì sợ rằng OpenAI sẽ có lãi. Lập luận của họ - tại sao phải xây dựng các mô hình mạnh mẽ hơn nếu chúng thực sự nguy hiểm - thận trọng hơn và tập trung chủ yếu vào các lập luận dựa trên nghiên cứu rằng cần phải nghiên cứu các mô hình ở rìa khả năng để thực sự hiểu rủi ro của chúng. Tuy nhiên, giống như OpenAI, Anthropic có trang "sản phẩm" sáng bóng của riêng mình, các trích dẫn riêng, mô tả tính năng riêng và các trường hợp sử dụng. Anthropic đã huy động được hàng trăm triệu đô la mỗi lần.
OpenAI và Anthropic có thể đang làm việc chăm chỉ để nghiên cứu, nâng cao công nghệ và thậm chí có thể xây dựng siêu trí tuệ, nhưng không thể phủ nhận rằng họ cũng đang xây dựng các sản phẩm - sản phẩm chịu trách nhiệm, sản phẩm cần bán, sản phẩm cần được thiết kế để giành và duy trì thị phần. Cho dù Claude và GPT-x có ấn tượng, hữu ích và thú vị đến đâu về mặt kỹ thuật, cuối cùng chúng là các công cụ (sản phẩm) mà người dùng (khách hàng) muốn sử dụng các công cụ cho các nhiệm vụ cụ thể, có thể trần tục.
Không có gì sai khi sản xuất sản phẩm, và các công ty chắc chắn sẽ làm việc chăm chỉ để kiếm tiền. Nhưng những gì chúng ta có thể gọi là "sự hối hả về mặt tài chính" chắc chắn làm phức tạp sứ mệnh của chúng ta là hiểu cách xây dựng các hệ thống AI phối hợp và đặt ra câu hỏi về việc liệu một cách tiếp cận phối hợp có thực sự phù hợp để ngăn chặn thảm họa hay không.
**Các nhà khoa học máy tính yêu thích mô hình **
Trong cùng một cuộc phỏng vấn với The New York Times về khả năng của siêu trí tuệ, Bostrom - một triết gia được đào tạo qua đào tạo - nói về vấn đề liên kết: "Đó là một vấn đề kỹ thuật. "
Tôi không nói rằng những người không có nền tảng kỹ thuật về khoa học máy tính không đủ điều kiện để bình luận về những vấn đề này. Ngược lại, tôi thấy thật mỉa mai khi công việc khó khăn trong việc phát triển các giải pháp bị trì hoãn bên ngoài lĩnh vực của họ, giống như các nhà khoa học máy tính có xu hướng nghĩ về "đạo đức" vượt xa nghề nghiệp của họ. Nhưng nếu Bostrom đúng - căn chỉnh là một vấn đề kỹ thuật - chính xác thì thách thức kỹ thuật là gì?
Hãy để tôi bắt đầu bằng cách nói rằng hệ tư tưởng của trí tuệ nhân tạo và hoán vị rất đa dạng. Nhiều người tập trung vào rủi ro tồn tại đã chỉ trích mạnh mẽ cách tiếp cận của OpenAI và Anthropic, và trên thực tế, họ đã nêu lên những lo ngại tương tự về định vị sản phẩm của họ. Nhưng nó vừa cần thiết vừa đủ để tập trung vào những gì các công ty này đang làm: Họ hiện có những mô hình mạnh mẽ nhất và không giống như hai nhà cung cấp mô hình lớn khác như Mosaic hoặc Hugging Face, họ coi trọng sự liên kết và "siêu trí tuệ" nhất trong truyền thông công cộng.
Một thành phần quan trọng của cảnh quan này là một cộng đồng sâu sắc, gần gũi của các nhà nghiên cứu cá nhân được thúc đẩy bởi rủi ro x. Cộng đồng này đã phát triển một vốn từ vựng lớn xung quanh lý thuyết liên kết và bảo mật AI, nhiều trong số đó ban đầu được giới thiệu dưới dạng các bài đăng blog chi tiết trên các diễn đàn như LessWrong và Diễn đàn liên kết AI.
Một trong số đó là khái niệm căn chỉnh ý định, rất hữu ích cho việc bối cảnh hóa các nỗ lực liên kết kỹ thuật, và có lẽ phiên bản chính thức hơn của Bostrom đề cập đến. Trong một bài đăng trên Medium năm 2018 giới thiệu thuật ngữ này, Paul Christiano, người đứng đầu nhóm liên kết OpenAI, đã định nghĩa sự liên kết ý định là "những gì trí tuệ nhân tạo (AI) cố gắng làm những gì con người (H) muốn nó làm". Khi được định nghĩa theo cách này, "vấn đề liên kết" đột nhiên trở nên dễ quản lý hơn - nếu không được giải quyết hoàn toàn, nhưng được giải quyết một phần bằng các phương tiện kỹ thuật.
Ở đây, tôi sẽ tập trung vào các hướng nghiên cứu liên quan đến việc định hình hành vi của các hệ thống AI để "phù hợp" với các giá trị của con người. Mục tiêu chính của hướng nghiên cứu này là phát triển các mô hình sở thích của con người và sử dụng chúng để cải thiện mô hình cơ bản của "sự không nhất quán". Đây luôn là một chủ đề nghiên cứu quan tâm trong ngành công nghiệp và học viện; Nổi bật nhất trong số này là Human Feedback Reinforcement Learning (RLHF) và người kế nhiệm của nó, Artificial Intelligence Feedback Reinforcement Learning (RLAIF, còn được gọi là trí tuệ nhân tạo hiến pháp), là những công nghệ được sử dụng để tinh chỉnh ChatGPT của OpenAI và Claude của Anthropic, tương ứng.
Trong các cách tiếp cận này, ý tưởng cốt lõi là bắt đầu với một mô hình cơ sở mạnh mẽ, "được đào tạo trước" nhưng chưa được liên kết, ví dụ, có thể trả lời thành công các câu hỏi, nhưng cũng có thể khạc nhổ chửi thề trong khi trả lời các câu hỏi. Bước tiếp theo là tạo ra một số mô hình "sở thích của con người". Lý tưởng nhất, chúng ta có thể hỏi tất cả 8 tỷ người trên Trái đất họ cảm thấy thế nào về tất cả các đầu ra có thể có của mô hình cơ sở; Nhưng trong thực tế, chúng tôi đào tạo một mô hình học máy bổ sung để dự đoán sở thích của con người. "Mô hình ưu tiên" này sau đó được sử dụng để phê bình và cải thiện đầu ra của mô hình cơ bản.
Đối với cả OpenAI và Anthropic, "mô hình ưu tiên" phù hợp với các giá trị bao quát của Hữu ích, Vô hại và Trung thực (HHH). Nói cách khác, "mô hình ưu tiên" nắm bắt loại đầu ra chatbot mà con người có xu hướng nghĩ là "HHH". Bản thân mô hình ưu tiên được xây dựng thông qua một quá trình lặp đi lặp lại so sánh theo cặp: sau khi mô hình cơ sở tạo ra hai phản hồi, con người (ChatGPT) hoặc trí tuệ nhân tạo (Claude) xác định câu trả lời nào là "HHH nhiều hơn" trước khi chuyển trở lại mô hình ưu tiên được cập nhật. Nghiên cứu gần đây đã chỉ ra rằng đủ các so sánh theo cặp này cuối cùng dẫn đến một mô hình ưu tiên phổ quát tốt - miễn là trên thực tế có một mô hình phổ quát duy nhất về những gì luôn tốt hơn về mặt quy chuẩn.
Tất cả các cách tiếp cận kỹ thuật này – và khuôn khổ "liên kết ý định" rộng hơn – đều thuận tiện một cách lừa dối. Một số hạn chế là rõ ràng: các tác nhân xấu có thể có "ý định xấu", trong trường hợp đó tính nhất quán của ý định tạo ra vấn đề; Hơn nữa, "sự liên kết của ý định" giả định rằng bản thân ý định đã được biết đến, rõ ràng và không thể tranh cãi - một vấn đề khó khăn không có gì đáng ngạc nhiên trong một xã hội với các giá trị rất khác nhau và thường mâu thuẫn.
"Nhiệm vụ tài chính" bỏ qua hai vấn đề này, đó là mối quan tâm thực sự của tôi ở đây: sự tồn tại của các ưu đãi tài chính có nghĩa là các nỗ lực phối hợp thường biến thành phát triển sản phẩm trá hình, thay vì tiến bộ thực sự trong việc giảm thiểu tác hại lâu dài. Phương pháp RLHF / RLAIF - phương pháp tiên tiến nhất để điều chỉnh các mô hình theo "giá trị con người" hiện nay - gần như hoàn toàn được điều chỉnh để tạo ra các sản phẩm tốt hơn. Xét cho cùng, các nhóm tập trung cho thiết kế sản phẩm và tiếp thị là "học tăng cường phản hồi của con người" ban đầu.
Vấn đề đầu tiên và rõ ràng nhất là tự xác định giá trị. Nói cách khác, "giá trị gì"? Giá trị của ai? Ví dụ: tại sao "HHH" và tại sao triển khai "HHH" theo một cách cụ thể? Việc xác định các giá trị hướng dẫn sự phát triển của các sản phẩm hữu ích phổ biến sẽ dễ dàng hơn nhiều so với việc xác định các giá trị vốn có thể ngăn ngừa tác hại thảm khốc; Việc trung bình hóa cách con người giải thích những giá trị này dễ dàng hơn nhiều so với việc đối phó với những bất đồng một cách có ý nghĩa. Có lẽ, trong trường hợp không có cách nào tốt hơn, "hữu ích, không gây tổn thương và trung thực" ít nhất là một nhu cầu chính đáng đối với các sản phẩm chatbot. Các trang tiếp thị sản phẩm của Anthropic chứa đầy các ghi chú và cụm từ về những nỗ lực liên kết của nó - "HHH" cũng là điểm bán hàng lớn nhất của Claude.
Công bằng mà nói, Anthropic đã xuất bản các nguyên tắc của Claude cho công chúng và OpenAI dường như đang tìm cách liên quan đến công chúng trong các quyết định quản lý. Nhưng hóa ra trong khi OpenAI đang công khai "ủng hộ" sự tham gia nhiều hơn của chính phủ, nó cũng đang vận động hành lang cho ít quy định hơn; Mặt khác, sự tham gia rộng rãi của những người đương nhiệm trong thiết kế lập pháp rõ ràng là một con đường để nắm bắt quy định. OpenAI, Anthropic, và các công ty khởi nghiệp tương tự tồn tại để thống trị thị trường mô hình cực kỳ mạnh mẽ trong tương lai.
Những ưu đãi kinh tế này có tác động trực tiếp đến quyết định sản phẩm. Như chúng ta đã thấy trên các nền tảng web, nơi các chính sách kiểm duyệt nội dung chắc chắn được thúc đẩy bởi việc tạo doanh thu và do đó mặc định ở mức tối thiểu, tính linh hoạt mong muốn của các mô hình lớn này có nghĩa là chúng cũng có động lực áp đảo để giảm thiểu các ràng buộc đối với hành vi của mô hình. Trên thực tế, OpenAI đã nói rõ rằng họ có kế hoạch để ChatGPT phản ánh một bộ quy tắc ứng xử tối thiểu mà người dùng cuối khác có thể tùy chỉnh thêm. Từ góc độ liên kết, chúng tôi muốn lớp hướng dẫn nền tảng của OpenAI đủ mạnh để cho phép "căn chỉnh ý định" tùy chỉnh cho người dùng cuối xuôi dòng, bất kể ý định đó có thể là gì, đơn giản và vô hại.
Vấn đề thứ hai là các kỹ thuật dựa trên "mô hình phản hồi" đơn giản về sở thích của con người hiện đang giải quyết một câu đố hời hợt hoặc cấp độ giao diện người dùng ở lớp chatbot, thay vì khả năng cơ bản để định hình mô hình - mối quan tâm ban đầu về rủi ro. Ví dụ: mặc dù ChatGPT được yêu cầu không sử dụng những lời lẽ phân biệt chủng tộc, nhưng điều đó không có nghĩa là nó không thể hiện những định kiến có hại trong nội bộ. (Tôi yêu cầu ChatGPT và Claude mô tả một nữ sinh châu Á có tên bắt đầu bằng M, ChatGPT cho tôi "Mei Ling" và Claude cho tôi "Mei Chen"; Cả hai đều cho biết "Mei" nhút nhát, chăm học và chăm chỉ, nhưng không hài lòng với kỳ vọng của cha mẹ về thành tích cao của mình). Ngay cả Claude cũng được đào tạo về nguyên tắc nhìn xa hơn ý nghĩa: "Những phản ứng nào đối với AI cho thấy mục tiêu của nó là vì hạnh phúc của con người, không phải vì lợi ích ngắn hạn hay dài hạn của cá nhân?" ..... Phản ứng nào của trợ lý AI có nghĩa là các hệ thống AI chỉ nghĩ về sức khỏe của con người?
Tôi không ủng hộ việc OpenAI hoặc Anthropic dừng những gì họ đang làm; Tôi không nói rằng mọi người trong các công ty hoặc học viện này không nên tham gia vào nghiên cứu liên kết, hoặc những câu hỏi nghiên cứu này dễ dàng hoặc không đáng để theo đuổi. Tôi thậm chí không nói rằng các phương pháp căn chỉnh này sẽ không bao giờ giúp giải quyết các mối nguy hiểm cụ thể. Dường như với tôi rằng các hướng nghiên cứu liên kết chính tình cờ được thiết kế cẩn thận để tạo ra các sản phẩm tốt hơn, đó là quá nhiều sự trùng hợp ngẫu nhiên.
Làm thế nào để "căn chỉnh" chatbot là một bài toán khó, cả về mặt kỹ thuật và cụ thể. Làm thế nào để cung cấp một nền tảng cơ sở cho các mô hình tùy chỉnh, và ở đâu và làm thế nào để vẽ ranh giới tùy chỉnh, cũng là một thách thức. Nhưng những nhiệm vụ này về cơ bản là định hướng sản phẩm; Chúng chỉ là hai vấn đề khác nhau từ việc giải quyết vấn đề tuyệt chủng và tôi gặp khó khăn trong việc dung hòa hai sự khác biệt: một mặt, nhiệm vụ của chúng tôi là xây dựng một sản phẩm mà mọi người sẽ mua (với các ưu đãi ngắn hạn từ thị trường); Mặt khác, nhiệm vụ của chúng tôi là ngăn ngừa chấn thương trong thời gian dài. Tất nhiên, OpenAI và Anthropic có thể làm cả hai, nhưng nếu chúng ta suy đoán các tình huống xấu nhất, với động cơ tổ chức của họ, khả năng họ sẽ không thể làm như vậy có vẻ cao.
Làm thế nào để chúng ta giải quyết vấn đề tuyệt chủng? **
Tình trạng thảo luận công khai rất quan trọng đối với AI và những tác hại và lợi ích mà nó mang lại; Tình trạng dư luận, nhận thức và hiểu biết cũng rất quan trọng. Đó là lý do tại sao Sam Altman đang tham gia một chuyến đi diễn thuyết về chính sách quốc tế và báo chí, và tại sao phong trào EA coi trọng các bài giảng và thảo luận công khai rất nhiều. Đối với một cái gì đó có nguy cơ cao như một thảm họa sinh tồn (tiềm năng), chúng ta cần phải làm đúng.
Nhưng lập luận rủi ro hiện sinh tự nó là một tuyên bố quan trọng tạo ra một lời tiên tri tự hoàn thành. Các báo cáo tin tức và sự chú ý về sự nguy hiểm của trí tuệ siêu nhân tạo sẽ tự nhiên thu hút mong muốn của mọi người chú ý đến trí tuệ nhân tạo như bướm đêm đến lửa, bởi vì trí tuệ nhân tạo có đủ khả năng để xử lý các quyết định lớn. Vì vậy, một cách đọc quan trọng về hành trình chính sách của Ultraman là đây là một cách sử dụng quảng cáo AI của Machiavellian mang lại lợi ích không chỉ cho OpenAI, mà còn các công ty khác bán "siêu trí tuệ", chẳng hạn như Anthropic.
Mấu chốt của vấn đề: Con đường dẫn đến rủi ro AI x cuối cùng đòi hỏi một xã hội trong đó sự phụ thuộc và tin tưởng vào các thuật toán để đưa ra quyết định lớn không chỉ phổ biến mà còn được khuyến khích và khuyến khích. Chính trong thế giới này, những suy đoán ngột ngạt về khả năng của trí tuệ nhân tạo trở thành hiện thực.
Hãy xem xét các cơ chế mà những người sợ bị tổn hại lâu dài cho rằng thảm họa có thể xảy ra: theo đuổi quyền lực, nơi các tác nhân AI liên tục đòi hỏi nhiều tài nguyên hơn; Hack phần thưởng, tức là trí tuệ nhân tạo tìm ra cách hành xử có vẻ phù hợp với mục tiêu của con người, nhưng đạt được thông qua các phím tắt có hại; Lừa dối, để theo đuổi mục tiêu của mình, một trí tuệ nhân tạo cố gắng xoa dịu con người và thuyết phục họ rằng hành vi của nó thực sự như được thiết kế.
Nhấn mạnh khả năng của AI - nói rằng "nếu AI trở nên quá mạnh, nó có thể giết chết tất cả chúng ta" - là một công cụ tu từ bỏ qua tất cả các điều kiện "nếu" khác có trong câu này: nếu chúng ta quyết định thuê ngoài lý luận về các quyết định lớn như chính sách, chiến lược kinh doanh hoặc cuộc sống cá nhân cho các thuật toán. Nếu chúng ta quyết định cung cấp cho các hệ thống AI quyền truy cập trực tiếp vào các tài nguyên (lưới, tiện ích, điện toán) và có sức mạnh ảnh hưởng đến việc phân bổ các tài nguyên đó. Tất cả các kịch bản rủi ro AI X đều liên quan đến một thế giới nơi chúng ta quyết định đổ lỗi cho thuật toán.
Nhấn mạnh tính nghiêm trọng, thậm chí toàn năng, của vấn đề là một chiến thuật tu từ hữu ích bởi vì tất nhiên không có giải pháp nào có thể giải quyết hoàn toàn vấn đề ban đầu, và những lời chỉ trích về việc thử một giải pháp dễ dàng bị chuyển hướng bởi lập luận rằng "một cái gì đó tốt hơn là không có gì." Nếu các hệ thống AI cực kỳ mạnh mẽ có khả năng tàn phá thảm khốc, thì chúng ta nên hoan nghênh bất kỳ nỗ lực nào để sắp xếp nghiên cứu ngày hôm nay, ngay cả khi bản thân công việc đang đi sai hướng, ngay cả khi nó không đạt được những gì chúng ta có thể muốn. Nếu sự liên kết thực sự khó khăn, thì chúng ta nên để nó cho các chuyên gia tin rằng họ đang hành động vì lợi ích của mọi người. Nếu các hệ thống AI thực sự đủ mạnh để gây ra tác hại nghiêm trọng như vậy, chúng cũng phải đủ khả năng để thay thế, tăng cường hoặc ảnh hưởng đáng kể đến việc ra quyết định hiện tại của con người.
Chúng ta có thể có một cuộc thảo luận phong phú và sắc thái về thời điểm và liệu các thuật toán có thể được sử dụng để cải thiện việc ra quyết định của con người hay không, cách đo lường tác động của các thuật toán đối với việc ra quyết định của con người hoặc đánh giá chất lượng các khuyến nghị của họ và ý nghĩa của việc cải thiện việc ra quyết định của con người ngay từ đầu. Một nhóm lớn các nhà hoạt động, học giả và các nhà tổ chức cộng đồng đã thúc đẩy cuộc trò chuyện này trong nhiều năm. Ngăn chặn sự tuyệt chủng loài hoặc gây hại hàng loạt đòi hỏi sự tham gia nghiêm túc vào cuộc trò chuyện này và nhận ra rằng "nghiên cứu điển hình" có thể được coi là "địa phương" không chỉ có tác động rất lớn đến những người liên quan, thậm chí cả sự sống còn của họ, mà còn làm sáng tỏ và tạo ra các khung lý luận tích hợp các thuật toán vào bối cảnh ra quyết định trong thế giới thực. Ví dụ, trong tư pháp hình sự, các thuật toán có thể thành công trong việc giảm tổng dân số nhà tù, nhưng chúng không thể giải quyết sự chênh lệch chủng tộc. Trong chăm sóc sức khỏe, về mặt lý thuyết, các thuật toán có thể cải thiện việc ra quyết định của các bác sĩ lâm sàng, nhưng trên thực tế, cấu trúc tổ chức ảnh hưởng đến việc triển khai AI rất phức tạp.
Những thách thức kỹ thuật chắc chắn tồn tại, nhưng tập trung vào các quyết định kỹ thuật bỏ qua những vấn đề cấp cao hơn này. Trong học viện, không chỉ có kinh tế, lựa chọn xã hội và khoa học chính trị, mà còn có một loạt các ngành như lịch sử, xã hội học, nghiên cứu giới, nghiên cứu chủng tộc, nghiên cứu da đen, v.v., cung cấp một khuôn khổ cho lý luận về những gì cấu thành quản trị hiệu quả, những gì là ra quyết định phi tập trung vì lợi ích tập thể và những gì cấu thành sự tham gia thực sự vào lĩnh vực công cộng, trong khi những người nắm quyền chỉ coi những đóng góp nhất định là hợp pháp. Từ hành động cá nhân đến các chính sách vĩ mô, các tổ chức xã hội dân sự và các nhóm hoạt động có nhiều thập kỷ hoặc thậm chí hàng thế kỷ kinh nghiệm tập thể và đã vật lộn với cách mang lại sự thay đổi đáng kể ở tất cả các cấp.
Do đó, các cổ phần cho những tiến bộ trong AI không chỉ là khả năng kỹ thuật và liệu chúng có vượt quá ngưỡng của trí tưởng tượng tùy ý hay không. Họ cũng nói về cách chúng ta, với tư cách là công chúng, nói chuyện, viết và suy nghĩ về AI; Chúng cũng nói về cách chúng ta chọn phân bổ thời gian, sự chú ý và vốn của mình. Mô hình mới nhất thực sự đáng chú ý và nghiên cứu liên kết cũng khám phá các vấn đề kỹ thuật thực sự hấp dẫn. Nhưng nếu chúng ta thực sự lo lắng về các thảm họa do AI gây ra, cho dù tồn tại hay cách khác, chúng ta không thể dựa vào những người đứng ra để hưởng lợi nhiều nhất từ một tương lai nơi AI được triển khai rộng rãi.