[AI không minh bạch? Từ Datanets nhìn vào cách dữ liệu trở nên "có thể truy nguyên"]
Trong cơn bùng nổ AI trong năm qua, các mô hình lớn liên tục làm mới giới hạn kỹ thuật, nhưng cũng đã phơi bày một vấn đề chưa được giải quyết - vấn đề hộp đen của nguồn dữ liệu. Chúng ta không thể biết một mô hình được đào tạo dựa trên tài liệu nào, ai đã cung cấp dữ liệu quan trọng, cũng như không thể xác định liệu đầu ra của mô hình có vi phạm quyền lợi nội dung của ai không. Sự "không minh bạch" này đang trở thành một trở ngại cho việc quy mô hóa AI hơn nữa.
Và điểm cắt của OpenLedger chính là việc phá vỡ vấn đề cấu trúc sâu xa này - tái cấu trúc tính minh bạch và logic kích thích của AI từ phía dữ liệu, cốt lõi của nó là: Datanets.
Một, Datanets là gì? Một kiến trúc mạng dữ liệu được sinh ra cho AI.
Datanets là hệ thống cốt lõi được xây dựng bởi OpenLedger, mục tiêu là làm cho dữ liệu được sử dụng bởi các mô hình AI "có thể theo dõi" và "có thể đo lường khuyến khích". Nó không chỉ là một cơ sở dữ liệu đơn giản hay một nền tảng crowdsourcing, mà là một hệ thống mạng mô-đun kết hợp giữa xác thực trên chuỗi, quản lý nhiệm vụ và khuyến khích kinh tế, có thể tổ chức cấu trúc quá trình cung cấp, xử lý và tiêu thụ dữ liệu.
Mỗi Datanet đều là một không gian thu thập dữ liệu và hợp tác nhiệm vụ cụ thể, xoay quanh một lĩnh vực dọc nào đó, như chỉ số DeFi, giới thiệu dự án NFT, tập hợp dữ liệu đối thoại AI, v.v. Thiết kế này thể hiện sự hiểu biết của OpenLedger về hệ sinh thái "mô hình ngôn ngữ chuyên dụng (SLM)": không phải là thu thập càng nhiều dữ liệu càng tốt, mà là thu thập dữ liệu có chất lượng cao hơn và chuyên dụng cho lĩnh vực.
Hai, cốt lõi của cơ chế: PoA, Infini-gram và mô hình hợp tác dữ liệu mới
OpenLedger đã giới thiệu hai cơ chế chính trong Datanets, tái cấu trúc quy trình truyền thống "cung cấp dữ liệu → đào tạo mô hình":
(1) Chứng minh nguồn gốc (PoA): Một cơ chế được sử dụng để ghi lại mối liên hệ giữa người đóng góp dữ liệu và sản phẩm AI. Nó cho phép mỗi lần đầu ra của mô hình có thể được "truy nguyên" một phần đến dữ liệu tham gia đào tạo, từ đó thực hiện phân phối khuyến khích có thể theo dõi.
(2) Đơn vị mô hình Infini-gram: OpenLedger sử dụng một thiết kế mô-đun vi mô linh hoạt hơn, chia nhỏ mô hình thành các thành phần có độ chi tiết cao hơn, mỗi thành phần có thể gắn liền với nguồn dữ liệu tương ứng của nó. Thiết kế này không chỉ nâng cao khả năng kết hợp của mô hình mà còn cho phép "truy trách nhiệm theo dữ liệu".
Datanets không tồn tại một cách tách biệt, mà được kết nối thông qua giao diện mô-đun với Agents và mô hình Payable AI, xây dựng một chuỗi lưu thông hoàn chỉnh "nhiệm vụ - dữ liệu - mô hình - ứng dụng". Điều này cũng có nghĩa là: trong tương lai bạn không chỉ có thể cung cấp dữ liệu, mà còn tham gia vào nhiệm vụ huấn luyện, sử dụng mô hình và nhận phản hồi cũng như lợi nhuận.
Ba, Datanets đã giải quyết vấn đề gì so với các nền tảng gán nhãn dữ liệu và crowdsourcing truyền thống?
Trong quá khứ, chúng ta đã thấy nhiều nền tảng dữ liệu crowdsourcing Web2, như Amazon Mechanical Turk, Scale AI, v.v., chúng đã đạt được một số thành tựu về quy mô, nhưng thường gặp phải hai vấn đề:
(1) Dữ liệu không có quyền sở hữu: Dữ liệu do người tham gia cung cấp cuối cùng thuộc về nền tảng, và một khi đã được AI sử dụng, rất khó để theo dõi hoặc chia sẻ lợi nhuận sau này.
(2) Nhiệm vụ rời rạc, lặp đi lặp lại không có động lực: Nhiều nhiệm vụ thiếu mục tiêu dài hạn hoặc hợp tác có cấu trúc, dẫn đến lao động lặp đi lặp lại và chất lượng dữ liệu khó đảm bảo.
Mục tiêu của Datanets là - biến "nhiệm vụ dữ liệu" thành một tài sản hợp tác lâu dài, không còn là hành vi khai thác một lần của nền tảng, mà là thiết lập một mối quan hệ bền vững. Dữ liệu bạn cung cấp là tài sản trên chuỗi, nhiệm vụ bạn tham gia là các mô-đun có thể kết hợp, và đóng góp của bạn có thể được bất kỳ mô hình nào sau này gọi và nhận được lợi nhuận.
Bốn, Tóm tắt: Datanets là cơ sở hạ tầng dữ liệu chuyên dụng cho thời đại AI.
OpenLedger không cố gắng trở thành ChatGPT tiếp theo, mà là để giải quyết một vấn đề cơ bản mà ChatGPT không thể giải quyết: Làm thế nào để tái cấu trúc logic sản xuất dữ liệu của AI?
Việc đề xuất và thực tiễn của Datanets cho thấy OpenLedger coi "minh bạch, hợp tác, có thể đo lường" là các nguyên tắc cốt lõi của hệ thống dữ liệu, đây là một phản hồi rất bản chất đối với AI trong bối cảnh Web3. Trong tương lai, liệu mô hình AI có đáng tin cậy hay không có lẽ không phụ thuộc vào quy mô tham số, mà phụ thuộc vào việc nó "có thể giải thích rõ ràng dữ liệu nào đang được sử dụng".
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
[AI không minh bạch? Từ Datanets nhìn vào cách dữ liệu trở nên "có thể truy nguyên"]
Trong cơn bùng nổ AI trong năm qua, các mô hình lớn liên tục làm mới giới hạn kỹ thuật, nhưng cũng đã phơi bày một vấn đề chưa được giải quyết - vấn đề hộp đen của nguồn dữ liệu. Chúng ta không thể biết một mô hình được đào tạo dựa trên tài liệu nào, ai đã cung cấp dữ liệu quan trọng, cũng như không thể xác định liệu đầu ra của mô hình có vi phạm quyền lợi nội dung của ai không. Sự "không minh bạch" này đang trở thành một trở ngại cho việc quy mô hóa AI hơn nữa.
Và điểm cắt của OpenLedger chính là việc phá vỡ vấn đề cấu trúc sâu xa này - tái cấu trúc tính minh bạch và logic kích thích của AI từ phía dữ liệu, cốt lõi của nó là: Datanets.
Một, Datanets là gì? Một kiến trúc mạng dữ liệu được sinh ra cho AI.
Datanets là hệ thống cốt lõi được xây dựng bởi OpenLedger, mục tiêu là làm cho dữ liệu được sử dụng bởi các mô hình AI "có thể theo dõi" và "có thể đo lường khuyến khích". Nó không chỉ là một cơ sở dữ liệu đơn giản hay một nền tảng crowdsourcing, mà là một hệ thống mạng mô-đun kết hợp giữa xác thực trên chuỗi, quản lý nhiệm vụ và khuyến khích kinh tế, có thể tổ chức cấu trúc quá trình cung cấp, xử lý và tiêu thụ dữ liệu.
Mỗi Datanet đều là một không gian thu thập dữ liệu và hợp tác nhiệm vụ cụ thể, xoay quanh một lĩnh vực dọc nào đó, như chỉ số DeFi, giới thiệu dự án NFT, tập hợp dữ liệu đối thoại AI, v.v. Thiết kế này thể hiện sự hiểu biết của OpenLedger về hệ sinh thái "mô hình ngôn ngữ chuyên dụng (SLM)": không phải là thu thập càng nhiều dữ liệu càng tốt, mà là thu thập dữ liệu có chất lượng cao hơn và chuyên dụng cho lĩnh vực.
Hai, cốt lõi của cơ chế: PoA, Infini-gram và mô hình hợp tác dữ liệu mới
OpenLedger đã giới thiệu hai cơ chế chính trong Datanets, tái cấu trúc quy trình truyền thống "cung cấp dữ liệu → đào tạo mô hình":
(1) Chứng minh nguồn gốc (PoA): Một cơ chế được sử dụng để ghi lại mối liên hệ giữa người đóng góp dữ liệu và sản phẩm AI. Nó cho phép mỗi lần đầu ra của mô hình có thể được "truy nguyên" một phần đến dữ liệu tham gia đào tạo, từ đó thực hiện phân phối khuyến khích có thể theo dõi.
(2) Đơn vị mô hình Infini-gram: OpenLedger sử dụng một thiết kế mô-đun vi mô linh hoạt hơn, chia nhỏ mô hình thành các thành phần có độ chi tiết cao hơn, mỗi thành phần có thể gắn liền với nguồn dữ liệu tương ứng của nó. Thiết kế này không chỉ nâng cao khả năng kết hợp của mô hình mà còn cho phép "truy trách nhiệm theo dữ liệu".
Datanets không tồn tại một cách tách biệt, mà được kết nối thông qua giao diện mô-đun với Agents và mô hình Payable AI, xây dựng một chuỗi lưu thông hoàn chỉnh "nhiệm vụ - dữ liệu - mô hình - ứng dụng". Điều này cũng có nghĩa là: trong tương lai bạn không chỉ có thể cung cấp dữ liệu, mà còn tham gia vào nhiệm vụ huấn luyện, sử dụng mô hình và nhận phản hồi cũng như lợi nhuận.
Ba, Datanets đã giải quyết vấn đề gì so với các nền tảng gán nhãn dữ liệu và crowdsourcing truyền thống?
Trong quá khứ, chúng ta đã thấy nhiều nền tảng dữ liệu crowdsourcing Web2, như Amazon Mechanical Turk, Scale AI, v.v., chúng đã đạt được một số thành tựu về quy mô, nhưng thường gặp phải hai vấn đề:
(1) Dữ liệu không có quyền sở hữu: Dữ liệu do người tham gia cung cấp cuối cùng thuộc về nền tảng, và một khi đã được AI sử dụng, rất khó để theo dõi hoặc chia sẻ lợi nhuận sau này.
(2) Nhiệm vụ rời rạc, lặp đi lặp lại không có động lực: Nhiều nhiệm vụ thiếu mục tiêu dài hạn hoặc hợp tác có cấu trúc, dẫn đến lao động lặp đi lặp lại và chất lượng dữ liệu khó đảm bảo.
Mục tiêu của Datanets là - biến "nhiệm vụ dữ liệu" thành một tài sản hợp tác lâu dài, không còn là hành vi khai thác một lần của nền tảng, mà là thiết lập một mối quan hệ bền vững. Dữ liệu bạn cung cấp là tài sản trên chuỗi, nhiệm vụ bạn tham gia là các mô-đun có thể kết hợp, và đóng góp của bạn có thể được bất kỳ mô hình nào sau này gọi và nhận được lợi nhuận.
Bốn, Tóm tắt: Datanets là cơ sở hạ tầng dữ liệu chuyên dụng cho thời đại AI.
OpenLedger không cố gắng trở thành ChatGPT tiếp theo, mà là để giải quyết một vấn đề cơ bản mà ChatGPT không thể giải quyết: Làm thế nào để tái cấu trúc logic sản xuất dữ liệu của AI?
Việc đề xuất và thực tiễn của Datanets cho thấy OpenLedger coi "minh bạch, hợp tác, có thể đo lường" là các nguyên tắc cốt lõi của hệ thống dữ liệu, đây là một phản hồi rất bản chất đối với AI trong bối cảnh Web3. Trong tương lai, liệu mô hình AI có đáng tin cậy hay không có lẽ không phụ thuộc vào quy mô tham số, mà phụ thuộc vào việc nó "có thể giải thích rõ ràng dữ liệu nào đang được sử dụng".