Từ lý thuyết đến thực hành, dạng hoàn chỉnh của mô hình ngôn ngữ lớn LLM trông như thế nào?
Nhiều người sẽ nói rằng nó dựa trên sự hiểu biết sâu sắc về ngôn ngữ tự nhiên, nhưng dòng GPT của OpenAI đã làm rất tốt về mặt này. Một số người cũng đang thảo luận về khả năng thực tế của Tác nhân AI, nhưng hiện tại cuộc thảo luận này không thoát khỏi phạm vi xử lý ngôn ngữ tự nhiên.
Generative AI thực sự bao gồm hai khía cạnh, một trong số đó là mô hình ngôn ngữ lớn, tập trung vào việc hiểu ngôn ngữ của con người. Cái gọi là ứng dụng AIGC rộng hơn thực sự đề cập đến khả năng chuyển đổi đa phương thức được biểu thị bằng mô hình khuếch tán, còn được gọi là Vincent. hình ảnh, video Vincent, v.v.
Vậy còn việc kết hợp cả hai thì sao? Trong mắt nhiều người, đây thực sự là thế hệ tiếp theo của GPT, hoặc GPT sẽ trông như thế nào về tổng thể. Một bài báo của Trường Máy tính tại Đại học Quốc gia Singapore gần đây xuất hiện trên trang web in sẵn arxiv đã thu hút sự chú ý của mọi người vì mô hình NExT-GPT được thiết kế trong bài báo này cố gắng thực hiện chuyển đổi phương thức toàn diện.
Từ hình trên, chúng ta có thể thấy rằng đầu vào và đầu ra của mô hình NExT-GPT có thể tạo ra nhiều dạng phương thức khác nhau bao gồm văn bản, hình ảnh, âm thanh và video. Đầu ra sử dụng các mô hình khuếch tán tương ứng với các chế độ khác nhau ngoại trừ văn bản. Chuyển đổi phương tiện giữa đầu vào và đầu ra dựa trên các mô hình lớn.
Phong cách của mô hình NExT-GPT thực sự không chỉ phù hợp với xu hướng hiện nay là mọi người đang cố gắng kết hợp hai lực lượng của AI tổng quát: mô hình ngôn ngữ lớn và mô hình khuếch tán, nó thậm chí còn phù hợp với trực giác của con người ở một mức độ nhất định: bộ não con người dựa vào về Hiểu thế giới thông qua chuyển đổi miễn phí và hiểu biết tương tác về nhiều phương thức.
Điều đặc biệt đáng chỉ ra rằng cái gọi là sự kết hợp giữa chuyển đổi đa phương thức và khả năng mô hình ngôn ngữ lớn không phải là cách đơn giản để "xây cầu nối" giữa nhau, mà là kết hợp thực sự dữ liệu đa phương thức (vectơ) với ngôn ngữ Sau khi quá trình này thực sự diễn ra suôn sẻ, điều đó có nghĩa là các mô hình lớn không chỉ có thể học và hiểu ngôn ngữ của con người mà còn có thể mở rộng khả năng này sang nhiều phương thức hơn, một khi sự kết hợp này thành công sẽ mang lại bước nhảy vọt về chất trong khả năng AI.
Tổng quan về cấu trúc NExT-GPT:
Hai điểm đột phá
Người ta nói rằng cả Google và GPT5 của OpenAI đều đang tiến hành nghiên cứu tương tự. Trước đó, trước tiên chúng ta hãy xem mô hình NExT-GPT thực hiện điều đó như thế nào.
Nhìn chung, mô hình NExT-GPT kết nối một mô hình lớn với bộ chuyển đổi đa phương thức và bộ giải mã mô hình khuếch tán, chỉ với 1% điều chỉnh tham số trong lớp chiếu. Điểm đổi mới của bài báo là tạo ra hướng dẫn điều chỉnh chuyển đổi phương thức được gọi là MosIT và bộ dữ liệu dành riêng cho chuyển đổi phương thức chéo.
Cụ thể, NExT-GPT bao gồm ba lớp. Lớp đầu tiên là các bộ mã hóa hoàn thiện khác nhau mã hóa các đầu vào phương thức khác nhau, sau đó ánh xạ qua lớp chiếu tới một dạng mà một mô hình ngôn ngữ lớn có thể hiểu được. Lớp thứ hai là một mô hình ngôn ngữ lớn nguồn mở được sử dụng để suy luận. Điều đáng nói là mô hình ngôn ngữ lớn không chỉ tạo ra văn bản mà còn tạo ra một thẻ duy nhất để hướng dẫn lớp giải mã xuất ra nội dung phương thức cụ thể. Lớp thứ ba chiếu các tín hiệu lệnh này và tạo ra nội dung tương ứng tương ứng với các bộ mã hóa khác nhau.
Để giảm chi phí, NExT-GPT sử dụng các bộ mã hóa và giải mã sẵn có. Để giảm thiểu "nhiễu" xảy ra khi chuyển đổi nội dung theo các phương thức khác nhau, NExT-GPT sử dụng ImageBind, một mã hóa thống nhất đa phương thức .. bộ mã hóa, nhờ đó NExT-GPT không cần quản lý nhiều bộ mã hóa phương thức không đồng nhất mà có thể chiếu thống nhất các phương thức khác nhau thành một mô hình ngôn ngữ lớn.
Đối với giai đoạn đầu ra, NExT-GPT sử dụng rộng rãi nhiều mô hình hoàn thiện khác nhau, bao gồm khuếch tán ổn định để tạo hình ảnh, Zeroscope để tạo video và AudioLDM để tổng hợp âm thanh. Hình bên dưới là một phần của quá trình suy luận trong bài viết. Bạn có thể thấy rằng các mẫu văn bản và dấu hiệu tín hiệu xác định cách nhận dạng, kích hoạt và tạo ra các phương thức. Các phần màu xám là các tùy chọn phương thức không được kích hoạt.
Điều này liên quan đến vấn đề hiểu biết ngữ nghĩa giữa các phương thức khác nhau, vì vậy sự liên kết là điều cần thiết. Tuy nhiên, do có cấu trúc tương đối rõ ràng nên việc căn chỉnh NExT-GPT thực sự rất dễ vận hành. Tác giả đã thiết kế cấu trúc ghép 3 lớp, đầu mã hóa căn chỉnh theo mô hình lớn làm trung tâm, đầu giải mã căn chỉnh theo hướng dẫn. Việc căn chỉnh này bỏ qua việc thực hiện quy trình căn chỉnh toàn diện giữa mô hình khuếch tán và mô hình ngôn ngữ lớn mà thay vào đó chỉ sử dụng bộ mã hóa có điều kiện văn bản. Sau khi giảm thiểu khoảng cách giữa các điểm đánh dấu tín hiệu mẫu mô hình lớn và văn bản mô hình khuếch tán, việc căn chỉnh chỉ Dựa trên văn bản thuần túy, việc căn chỉnh này rất nhẹ, chỉ có khoảng 1% thông số cần điều chỉnh.
Xét đến nhu cầu NExT-GPT có khả năng tạo và suy luận chính xác giữa các phương thức, bài viết cũng giới thiệu MosIT, tức là Điều chỉnh hướng dẫn chuyển đổi phương thức. Quá trình đào tạo của nó dựa trên bộ dữ liệu bao gồm 5.000 mẫu chất lượng cao. .
Quá trình đào tạo cụ thể hơi phức tạp nên tôi sẽ không đi sâu vào chi tiết. Nói chung, MosIT có thể tái tạo lại nội dung văn bản đầu vào và đầu ra, để NExT-GPT có thể hiểu rõ các kết hợp chế độ khác nhau của văn bản, hình ảnh, video và âm thanh ... những hướng dẫn phức tạp, rất gần với phương thức hiểu biết và lý luận của con người.
**Sự hoàn hảo có đến không? **
Hiện tại, NExT-GPT vẫn còn nhiều điểm yếu, tác giả cũng đã đề cập đến nhiều điểm yếu trong bài báo, ví dụ rất dễ dàng cho rằng 4 phương thức vẫn còn hơi ít đối với một hệ thống lớn đa phương thức thực sự. Đào tạo MosIT Số lượng bộ dữ liệu cũng còn hạn chế.
Ngoài ra, tác giả cũng đang nỗ lực để điều chỉnh NExT-GPT phù hợp với nhiều kịch bản hơn thông qua các mô hình ngôn ngữ lớn với nhiều kích cỡ khác nhau.
Một vấn đề gai góc khác thực tế hơn là quy mô. Mặc dù NExT-GPT cho thấy triển vọng mạnh mẽ về khả năng đa phương thức, nhưng mức độ khả năng AIGC hiện tại được thể hiện bằng mô hình khuếch tán vẫn còn hạn chế, điều này ảnh hưởng đến hiệu suất của toàn bộ NExT-GPT.
Nhìn chung, AI đa phương thức có triển vọng rất hấp dẫn vì nó được tích hợp chặt chẽ hơn với các kịch bản ứng dụng và nhu cầu của người dùng. Với mức độ phổ biến hiện nay của các đường đua mô hình lớn đang giảm nhẹ, AI đa phương thức mang đến cho mọi người không gian tưởng tượng khổng lồ. Là một mô hình lớn đa phương thức từ đầu đến cuối, NExT-GPT thực sự có nguyên mẫu của AI đa phương thức. Các ý tưởng trong bài báo về căn chỉnh điều chỉnh tham số và sử dụng MosIT để nâng cao khả năng suy luận mô hình là rất ấn tượng, vì vậy chúng tôi có thể thậm chí có thể nói rằng ai đó đã thực hiện bước đầu tiên hướng tới AI hoàn chỉnh.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Có ai đó đã xây dựng GPT-5 cho OpenAI chưa?
Nguồn gốc: GenAI New World
Tác giả|Xue LiangNeil
Từ lý thuyết đến thực hành, dạng hoàn chỉnh của mô hình ngôn ngữ lớn LLM trông như thế nào?
Nhiều người sẽ nói rằng nó dựa trên sự hiểu biết sâu sắc về ngôn ngữ tự nhiên, nhưng dòng GPT của OpenAI đã làm rất tốt về mặt này. Một số người cũng đang thảo luận về khả năng thực tế của Tác nhân AI, nhưng hiện tại cuộc thảo luận này không thoát khỏi phạm vi xử lý ngôn ngữ tự nhiên.
Generative AI thực sự bao gồm hai khía cạnh, một trong số đó là mô hình ngôn ngữ lớn, tập trung vào việc hiểu ngôn ngữ của con người. Cái gọi là ứng dụng AIGC rộng hơn thực sự đề cập đến khả năng chuyển đổi đa phương thức được biểu thị bằng mô hình khuếch tán, còn được gọi là Vincent. hình ảnh, video Vincent, v.v.
Vậy còn việc kết hợp cả hai thì sao? Trong mắt nhiều người, đây thực sự là thế hệ tiếp theo của GPT, hoặc GPT sẽ trông như thế nào về tổng thể. Một bài báo của Trường Máy tính tại Đại học Quốc gia Singapore gần đây xuất hiện trên trang web in sẵn arxiv đã thu hút sự chú ý của mọi người vì mô hình NExT-GPT được thiết kế trong bài báo này cố gắng thực hiện chuyển đổi phương thức toàn diện.
Phong cách của mô hình NExT-GPT thực sự không chỉ phù hợp với xu hướng hiện nay là mọi người đang cố gắng kết hợp hai lực lượng của AI tổng quát: mô hình ngôn ngữ lớn và mô hình khuếch tán, nó thậm chí còn phù hợp với trực giác của con người ở một mức độ nhất định: bộ não con người dựa vào về Hiểu thế giới thông qua chuyển đổi miễn phí và hiểu biết tương tác về nhiều phương thức.
Điều đặc biệt đáng chỉ ra rằng cái gọi là sự kết hợp giữa chuyển đổi đa phương thức và khả năng mô hình ngôn ngữ lớn không phải là cách đơn giản để "xây cầu nối" giữa nhau, mà là kết hợp thực sự dữ liệu đa phương thức (vectơ) với ngôn ngữ Sau khi quá trình này thực sự diễn ra suôn sẻ, điều đó có nghĩa là các mô hình lớn không chỉ có thể học và hiểu ngôn ngữ của con người mà còn có thể mở rộng khả năng này sang nhiều phương thức hơn, một khi sự kết hợp này thành công sẽ mang lại bước nhảy vọt về chất trong khả năng AI.
Tổng quan về cấu trúc NExT-GPT:
Hai điểm đột phá
Người ta nói rằng cả Google và GPT5 của OpenAI đều đang tiến hành nghiên cứu tương tự. Trước đó, trước tiên chúng ta hãy xem mô hình NExT-GPT thực hiện điều đó như thế nào.
Nhìn chung, mô hình NExT-GPT kết nối một mô hình lớn với bộ chuyển đổi đa phương thức và bộ giải mã mô hình khuếch tán, chỉ với 1% điều chỉnh tham số trong lớp chiếu. Điểm đổi mới của bài báo là tạo ra hướng dẫn điều chỉnh chuyển đổi phương thức được gọi là MosIT và bộ dữ liệu dành riêng cho chuyển đổi phương thức chéo.
Cụ thể, NExT-GPT bao gồm ba lớp. Lớp đầu tiên là các bộ mã hóa hoàn thiện khác nhau mã hóa các đầu vào phương thức khác nhau, sau đó ánh xạ qua lớp chiếu tới một dạng mà một mô hình ngôn ngữ lớn có thể hiểu được. Lớp thứ hai là một mô hình ngôn ngữ lớn nguồn mở được sử dụng để suy luận. Điều đáng nói là mô hình ngôn ngữ lớn không chỉ tạo ra văn bản mà còn tạo ra một thẻ duy nhất để hướng dẫn lớp giải mã xuất ra nội dung phương thức cụ thể. Lớp thứ ba chiếu các tín hiệu lệnh này và tạo ra nội dung tương ứng tương ứng với các bộ mã hóa khác nhau.
Để giảm chi phí, NExT-GPT sử dụng các bộ mã hóa và giải mã sẵn có. Để giảm thiểu "nhiễu" xảy ra khi chuyển đổi nội dung theo các phương thức khác nhau, NExT-GPT sử dụng ImageBind, một mã hóa thống nhất đa phương thức .. bộ mã hóa, nhờ đó NExT-GPT không cần quản lý nhiều bộ mã hóa phương thức không đồng nhất mà có thể chiếu thống nhất các phương thức khác nhau thành một mô hình ngôn ngữ lớn.
Đối với giai đoạn đầu ra, NExT-GPT sử dụng rộng rãi nhiều mô hình hoàn thiện khác nhau, bao gồm khuếch tán ổn định để tạo hình ảnh, Zeroscope để tạo video và AudioLDM để tổng hợp âm thanh. Hình bên dưới là một phần của quá trình suy luận trong bài viết. Bạn có thể thấy rằng các mẫu văn bản và dấu hiệu tín hiệu xác định cách nhận dạng, kích hoạt và tạo ra các phương thức. Các phần màu xám là các tùy chọn phương thức không được kích hoạt.
Xét đến nhu cầu NExT-GPT có khả năng tạo và suy luận chính xác giữa các phương thức, bài viết cũng giới thiệu MosIT, tức là Điều chỉnh hướng dẫn chuyển đổi phương thức. Quá trình đào tạo của nó dựa trên bộ dữ liệu bao gồm 5.000 mẫu chất lượng cao. .
**Sự hoàn hảo có đến không? **
Hiện tại, NExT-GPT vẫn còn nhiều điểm yếu, tác giả cũng đã đề cập đến nhiều điểm yếu trong bài báo, ví dụ rất dễ dàng cho rằng 4 phương thức vẫn còn hơi ít đối với một hệ thống lớn đa phương thức thực sự. Đào tạo MosIT Số lượng bộ dữ liệu cũng còn hạn chế.
Ngoài ra, tác giả cũng đang nỗ lực để điều chỉnh NExT-GPT phù hợp với nhiều kịch bản hơn thông qua các mô hình ngôn ngữ lớn với nhiều kích cỡ khác nhau.
Một vấn đề gai góc khác thực tế hơn là quy mô. Mặc dù NExT-GPT cho thấy triển vọng mạnh mẽ về khả năng đa phương thức, nhưng mức độ khả năng AIGC hiện tại được thể hiện bằng mô hình khuếch tán vẫn còn hạn chế, điều này ảnh hưởng đến hiệu suất của toàn bộ NExT-GPT.
Nhìn chung, AI đa phương thức có triển vọng rất hấp dẫn vì nó được tích hợp chặt chẽ hơn với các kịch bản ứng dụng và nhu cầu của người dùng. Với mức độ phổ biến hiện nay của các đường đua mô hình lớn đang giảm nhẹ, AI đa phương thức mang đến cho mọi người không gian tưởng tượng khổng lồ. Là một mô hình lớn đa phương thức từ đầu đến cuối, NExT-GPT thực sự có nguyên mẫu của AI đa phương thức. Các ý tưởng trong bài báo về căn chỉnh điều chỉnh tham số và sử dụng MosIT để nâng cao khả năng suy luận mô hình là rất ấn tượng, vì vậy chúng tôi có thể thậm chí có thể nói rằng ai đó đã thực hiện bước đầu tiên hướng tới AI hoàn chỉnh.