"MIT Technology Review" từng đăng tải một bài viết trên trang web chính thức của mình nói rằng với sự phổ biến liên tục của các mô hình lớn như ChatGPT, nhu cầu về dữ liệu đào tạo ngày càng tăng. Một mô hình lớn giống như một "lỗ đen mạng" liên tục bị hấp thụ, cuối cùng dẫn đến không có đủ dữ liệu để đào tạo.
Epochai, một tổ chức nghiên cứu AI nổi tiếng, đã xuất bản một bài báo trực tiếp về vấn đề đào tạo dữ liệu và chỉ ra rằng vào năm 2026, các mô hình lớn sẽ tiêu thụ dữ liệu chất lượng cao và đến năm 2030-2050, tất cả dữ liệu chất lượng thấp sẽ bị tiêu thụ.
Đến năm 2030-2060, tất cả dữ liệu đào tạo hình ảnh sẽ cạn kiệt. (Dữ liệu ở đây đề cập đến dữ liệu gốc chưa được dán nhãn hoặc bị ô nhiễm theo bất kỳ cách nào.)
Địa chỉ:
Trên thực tế, vấn đề với dữ liệu đào tạo đã xuất hiện. OpenAI cho rằng việc thiếu dữ liệu đào tạo chất lượng cao sẽ là một trong những thách thức quan trọng trong việc phát triển GPT-5. Nó giống như đi học ở người, khi trình độ kiến thức của bạn đạt đến trình độ tiến sĩ, thì việc cho bạn thấy kiến thức của trường trung học cơ sở không hữu ích cho việc học.
Do đó, để tăng cường khả năng học tập, lý luận và AGI chung của GPT-5, OpenAI đã thành lập một "liên minh dữ liệu", hy vọng thu thập văn bản, video, âm thanh và các dữ liệu khác riêng tư, siêu dài trong một khu vực rộng lớn, để mô hình có thể mô phỏng sâu và học hỏi tư duy và phương pháp làm việc của con người **.
Hiện tại, Iceland, Dự án Luật Tự do và các tổ chức khác đã tham gia liên minh để cung cấp cho OpenAI nhiều dữ liệu khác nhau để giúp nó tăng tốc phát triển mô hình.
Ngoài ra, khi nội dung AI do ChatGPT, Midjourney, Gen-2 và các mô hình khác tạo ra đi vào mạng công cộng, điều này sẽ gây ô nhiễm nghiêm trọng nhóm dữ liệu công cộng do con người xây dựng và sẽ có các đặc điểm như tính đồng nhất và logic đơn, đẩy nhanh quá trình tiêu thụ dữ liệu chất lượng cao.
** Dữ liệu đào tạo chất lượng cao là điều cần thiết để phát triển mô hình lớn **
Từ quan điểm kỹ thuật, các mô hình ngôn ngữ lớn có thể được coi là "máy dự đoán ngôn ngữ", học hỏi từ một lượng lớn dữ liệu văn bản, thiết lập các mẫu liên kết giữa các từ và sau đó sử dụng các mẫu này để dự đoán từ hoặc câu tiếp theo của văn bản.
Transformer là một trong những kiến trúc nổi tiếng và được sử dụng rộng rãi nhất, và ChatGPT và những người khác đã vay mượn từ công nghệ này.
Nói một cách đơn giản, một mô hình ngôn ngữ lớn là một "quả bầu và một cái muỗng", và con người có thể nói bất cứ điều gì họ muốn. Vì vậy, khi bạn sử dụng một mô hình như ChatGPT để tạo văn bản, có cảm giác như bạn đã thấy mô hình tường thuật của những nội dung văn bản này ở đâu.
Do đó, chất lượng của dữ liệu đào tạo quyết định trực tiếp liệu cấu trúc của mô hình học tập lớn có chính xác hay không. Nếu dữ liệu chứa nhiều lỗi ngữ pháp, cách diễn đạt kém, ngắt câu không chính xác, nội dung sai, v.v., thì nội dung được dự đoán bởi mô hình sẽ tự nhiên chứa những vấn đề này.
Ví dụ, nếu một mô hình dịch thuật được đào tạo, nhưng dữ liệu được sử dụng đều là nội dung bịa đặt và kém chất lượng, nội dung được dịch bởi AI đương nhiên sẽ rất kém.
Đây là một trong những lý do chính khiến chúng ta thường thấy nhiều mô hình có thông số nhỏ nhưng hiệu suất và đầu ra tốt hơn so với thông số cao và một trong những lý do chính là việc sử dụng dữ liệu đào tạo chất lượng cao.
** Trong thời đại của các mô hình lớn, dữ liệu là vua **
Do tầm quan trọng của dữ liệu, dữ liệu đào tạo chất lượng cao đã trở thành nguồn tài nguyên quý giá cho OpenAI, Baidu, Anthropic, Cohere và các nhà cung cấp khác, và đã trở thành "dầu" trong kỷ nguyên của các mô hình lớn.
Ngay từ tháng 3 năm nay, khi Trung Quốc vẫn đang điên cuồng nghiên cứu giả kim thuật trên các mô hình lớn, Baidu đã đi đầu trong việc phát hành một sản phẩm AI tạo ra so với ChatGPT - Wenxin Yiyansheng.
Ngoài khả năng R &D mạnh mẽ, dữ liệu kho dữ liệu khổng lồ của Baidu được tích lũy thông qua các công cụ tìm kiếm trong hơn 20 năm đã giúp ích rất nhiều và đóng một vai trò quan trọng trong nhiều lần lặp lại của Wenxin Yiyan, vượt xa các nhà sản xuất trong nước khác.
Dữ liệu chất lượng cao thường bao gồm sách đã xuất bản, tác phẩm văn học, bài báo học thuật, sách giáo khoa, báo cáo tin tức từ các phương tiện truyền thông có thẩm quyền, Wikipedia, Bách khoa toàn thư Baidu, v.v., văn bản, video, âm thanh và các dữ liệu khác đã được xác minh bởi thời gian và con người.
Nhưng các viện nghiên cứu đã phát hiện ra rằng sự tăng trưởng của loại dữ liệu chất lượng cao này là rất chậm. Ví dụ, xuất bản sách cần phải trải qua các quy trình rườm rà như nghiên cứu thị trường, soạn thảo đầu tiên, chỉnh sửa và xem xét lại, và phải mất hàng tháng hoặc thậm chí nhiều năm để xuất bản một cuốn sách, kém xa sự tăng trưởng nhu cầu về dữ liệu đào tạo mô hình lớn.
Đánh giá từ xu hướng phát triển của các mô hình ngôn ngữ lớn trong bốn năm qua, tốc độ tăng trưởng khối lượng dữ liệu đào tạo hàng năm của nó đã vượt quá 50%. Nói cách khác, cứ sau 1 năm, lượng dữ liệu cần thiết để đào tạo mô hình cần được tăng gấp đôi để đạt được hiệu suất và cải thiện chức năng**.
Một mặt, đó là để bảo vệ quyền riêng tư của người dùng khỏi bị thu thập bởi các tổ chức bên thứ ba, và có hành vi trộm cắp và lạm dụng;
Mặt khác, để ngăn chặn dữ liệu quan trọng bị độc quyền và tích trữ bởi một số ít tổ chức, không có dữ liệu có sẵn trong quá trình nghiên cứu và phát triển công nghệ.
** Đến năm 2026, chúng tôi có thể hết dữ liệu đào tạo chất lượng cao **
Để điều tra vấn đề tiêu thụ dữ liệu đào tạo, các nhà nghiên cứu của Epochai đã mô phỏng việc sản xuất dữ liệu ngôn ngữ và hình ảnh hàng năm từ năm 2022 đến năm 2100, sau đó tính toán tổng lượng dữ liệu này.
Nó cũng mô phỏng tốc độ tiêu thụ dữ liệu của các mô hình lớn như ChatGPT. Cuối cùng, tốc độ tăng trưởng dữ liệu và tốc độ tiêu thụ được so sánh và các kết luận quan trọng sau đây được rút ra:
Theo xu hướng phát triển nhanh chóng hiện nay của các mô hình lớn, tất cả dữ liệu chất lượng thấp sẽ cạn kiệt vào năm 2030-2050 và dữ liệu chất lượng cao rất có thể sẽ được tiêu thụ vào năm 2026.
Đến năm 2030-2060, tất cả dữ liệu đào tạo hình ảnh sẽ được tiêu thụ và đến năm 2040, việc lặp lại chức năng của các mô hình lớn có thể có dấu hiệu chậm lại do thiếu dữ liệu đào tạo.
Các nhà nghiên cứu đã sử dụng hai mô hình để tính toán: mô hình thứ nhất, sử dụng các bộ dữ liệu thực sự được sử dụng trong cả hai lĩnh vực của các mô hình ngôn ngữ và hình ảnh lớn và ngoại suy chúng từ số liệu thống kê lịch sử để dự đoán khi nào chúng sẽ đạt đỉnh và mức tiêu thụ trung bình.
Mô hình thứ hai dự đoán có bao nhiêu dữ liệu mới sẽ được tạo ra trên toàn cầu mỗi năm trong tương lai. Mô hình này dựa trên ba biến, số lượng dân số toàn cầu, sự thâm nhập internet và dữ liệu trung bình được tạo ra trên mỗi người dùng Internet mỗi năm.
Đồng thời, các nhà nghiên cứu đã sử dụng dữ liệu của Liên Hợp Quốc để phù hợp với đường cong tăng trưởng dân số, chức năng hình chữ S để phù hợp với việc sử dụng Internet và đưa ra một giả định đơn giản rằng dữ liệu đầu ra hàng năm trên mỗi người về cơ bản là giống nhau và nhân với ba để ước tính lượng dữ liệu mới trên thế giới mỗi năm.
Mô hình đã dự đoán chính xác sản lượng hàng tháng của Reddit (một diễn đàn nổi tiếng), vì vậy tỷ lệ chính xác cao**.
Cuối cùng, các nhà nghiên cứu đã kết hợp hai mô hình để đi đến kết luận trên.
Các nhà nghiên cứu nói rằng mặc dù dữ liệu này được mô phỏng và ước tính, nhưng có một mức độ không chắc chắn nhất định. Tuy nhiên, đó là một hồi chuông cảnh tỉnh cho cộng đồng mô hình lớn và dữ liệu đào tạo có thể sớm trở thành một nút thắt quan trọng hạn chế việc mở rộng và ứng dụng các mô hình AI.
Các nhà cung cấp AI cần đưa ra các phương pháp hiệu quả để tái tạo và tổng hợp dữ liệu trước để tránh tình trạng thiếu dữ liệu giống như vách đá trong quá trình phát triển các mô hình lớn
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Các mô hình như ChatGPT: Đến năm 2026, dữ liệu đào tạo chất lượng cao sẽ cạn kiệt
Nguồn gốc: Cộng đồng mở AIGC
"MIT Technology Review" từng đăng tải một bài viết trên trang web chính thức của mình nói rằng với sự phổ biến liên tục của các mô hình lớn như ChatGPT, nhu cầu về dữ liệu đào tạo ngày càng tăng. Một mô hình lớn giống như một "lỗ đen mạng" liên tục bị hấp thụ, cuối cùng dẫn đến không có đủ dữ liệu để đào tạo.
Epochai, một tổ chức nghiên cứu AI nổi tiếng, đã xuất bản một bài báo trực tiếp về vấn đề đào tạo dữ liệu và chỉ ra rằng vào năm 2026, các mô hình lớn sẽ tiêu thụ dữ liệu chất lượng cao và đến năm 2030-2050, tất cả dữ liệu chất lượng thấp sẽ bị tiêu thụ.
Đến năm 2030-2060, tất cả dữ liệu đào tạo hình ảnh sẽ cạn kiệt. (Dữ liệu ở đây đề cập đến dữ liệu gốc chưa được dán nhãn hoặc bị ô nhiễm theo bất kỳ cách nào.)
Địa chỉ:
Do đó, để tăng cường khả năng học tập, lý luận và AGI chung của GPT-5, OpenAI đã thành lập một "liên minh dữ liệu", hy vọng thu thập văn bản, video, âm thanh và các dữ liệu khác riêng tư, siêu dài trong một khu vực rộng lớn, để mô hình có thể mô phỏng sâu và học hỏi tư duy và phương pháp làm việc của con người **.
Hiện tại, Iceland, Dự án Luật Tự do và các tổ chức khác đã tham gia liên minh để cung cấp cho OpenAI nhiều dữ liệu khác nhau để giúp nó tăng tốc phát triển mô hình.
Ngoài ra, khi nội dung AI do ChatGPT, Midjourney, Gen-2 và các mô hình khác tạo ra đi vào mạng công cộng, điều này sẽ gây ô nhiễm nghiêm trọng nhóm dữ liệu công cộng do con người xây dựng và sẽ có các đặc điểm như tính đồng nhất và logic đơn, đẩy nhanh quá trình tiêu thụ dữ liệu chất lượng cao.
** Dữ liệu đào tạo chất lượng cao là điều cần thiết để phát triển mô hình lớn **
Từ quan điểm kỹ thuật, các mô hình ngôn ngữ lớn có thể được coi là "máy dự đoán ngôn ngữ", học hỏi từ một lượng lớn dữ liệu văn bản, thiết lập các mẫu liên kết giữa các từ và sau đó sử dụng các mẫu này để dự đoán từ hoặc câu tiếp theo của văn bản.
Transformer là một trong những kiến trúc nổi tiếng và được sử dụng rộng rãi nhất, và ChatGPT và những người khác đã vay mượn từ công nghệ này.
Nói một cách đơn giản, một mô hình ngôn ngữ lớn là một "quả bầu và một cái muỗng", và con người có thể nói bất cứ điều gì họ muốn. Vì vậy, khi bạn sử dụng một mô hình như ChatGPT để tạo văn bản, có cảm giác như bạn đã thấy mô hình tường thuật của những nội dung văn bản này ở đâu.
Ví dụ, nếu một mô hình dịch thuật được đào tạo, nhưng dữ liệu được sử dụng đều là nội dung bịa đặt và kém chất lượng, nội dung được dịch bởi AI đương nhiên sẽ rất kém.
Đây là một trong những lý do chính khiến chúng ta thường thấy nhiều mô hình có thông số nhỏ nhưng hiệu suất và đầu ra tốt hơn so với thông số cao và một trong những lý do chính là việc sử dụng dữ liệu đào tạo chất lượng cao.
** Trong thời đại của các mô hình lớn, dữ liệu là vua **
Do tầm quan trọng của dữ liệu, dữ liệu đào tạo chất lượng cao đã trở thành nguồn tài nguyên quý giá cho OpenAI, Baidu, Anthropic, Cohere và các nhà cung cấp khác, và đã trở thành "dầu" trong kỷ nguyên của các mô hình lớn.
Ngay từ tháng 3 năm nay, khi Trung Quốc vẫn đang điên cuồng nghiên cứu giả kim thuật trên các mô hình lớn, Baidu đã đi đầu trong việc phát hành một sản phẩm AI tạo ra so với ChatGPT - Wenxin Yiyansheng.
Ngoài khả năng R &D mạnh mẽ, dữ liệu kho dữ liệu khổng lồ của Baidu được tích lũy thông qua các công cụ tìm kiếm trong hơn 20 năm đã giúp ích rất nhiều và đóng một vai trò quan trọng trong nhiều lần lặp lại của Wenxin Yiyan, vượt xa các nhà sản xuất trong nước khác.
Dữ liệu chất lượng cao thường bao gồm sách đã xuất bản, tác phẩm văn học, bài báo học thuật, sách giáo khoa, báo cáo tin tức từ các phương tiện truyền thông có thẩm quyền, Wikipedia, Bách khoa toàn thư Baidu, v.v., văn bản, video, âm thanh và các dữ liệu khác đã được xác minh bởi thời gian và con người.
Nhưng các viện nghiên cứu đã phát hiện ra rằng sự tăng trưởng của loại dữ liệu chất lượng cao này là rất chậm. Ví dụ, xuất bản sách cần phải trải qua các quy trình rườm rà như nghiên cứu thị trường, soạn thảo đầu tiên, chỉnh sửa và xem xét lại, và phải mất hàng tháng hoặc thậm chí nhiều năm để xuất bản một cuốn sách, kém xa sự tăng trưởng nhu cầu về dữ liệu đào tạo mô hình lớn.
Đánh giá từ xu hướng phát triển của các mô hình ngôn ngữ lớn trong bốn năm qua, tốc độ tăng trưởng khối lượng dữ liệu đào tạo hàng năm của nó đã vượt quá 50%. Nói cách khác, cứ sau 1 năm, lượng dữ liệu cần thiết để đào tạo mô hình cần được tăng gấp đôi để đạt được hiệu suất và cải thiện chức năng**.
Một mặt, đó là để bảo vệ quyền riêng tư của người dùng khỏi bị thu thập bởi các tổ chức bên thứ ba, và có hành vi trộm cắp và lạm dụng;
Mặt khác, để ngăn chặn dữ liệu quan trọng bị độc quyền và tích trữ bởi một số ít tổ chức, không có dữ liệu có sẵn trong quá trình nghiên cứu và phát triển công nghệ.
** Đến năm 2026, chúng tôi có thể hết dữ liệu đào tạo chất lượng cao **
Để điều tra vấn đề tiêu thụ dữ liệu đào tạo, các nhà nghiên cứu của Epochai đã mô phỏng việc sản xuất dữ liệu ngôn ngữ và hình ảnh hàng năm từ năm 2022 đến năm 2100, sau đó tính toán tổng lượng dữ liệu này.
Nó cũng mô phỏng tốc độ tiêu thụ dữ liệu của các mô hình lớn như ChatGPT. Cuối cùng, tốc độ tăng trưởng dữ liệu và tốc độ tiêu thụ được so sánh và các kết luận quan trọng sau đây được rút ra:
Theo xu hướng phát triển nhanh chóng hiện nay của các mô hình lớn, tất cả dữ liệu chất lượng thấp sẽ cạn kiệt vào năm 2030-2050 và dữ liệu chất lượng cao rất có thể sẽ được tiêu thụ vào năm 2026.
Mô hình thứ hai dự đoán có bao nhiêu dữ liệu mới sẽ được tạo ra trên toàn cầu mỗi năm trong tương lai. Mô hình này dựa trên ba biến, số lượng dân số toàn cầu, sự thâm nhập internet và dữ liệu trung bình được tạo ra trên mỗi người dùng Internet mỗi năm.
Đồng thời, các nhà nghiên cứu đã sử dụng dữ liệu của Liên Hợp Quốc để phù hợp với đường cong tăng trưởng dân số, chức năng hình chữ S để phù hợp với việc sử dụng Internet và đưa ra một giả định đơn giản rằng dữ liệu đầu ra hàng năm trên mỗi người về cơ bản là giống nhau và nhân với ba để ước tính lượng dữ liệu mới trên thế giới mỗi năm.
Mô hình đã dự đoán chính xác sản lượng hàng tháng của Reddit (một diễn đàn nổi tiếng), vì vậy tỷ lệ chính xác cao**.
Cuối cùng, các nhà nghiên cứu đã kết hợp hai mô hình để đi đến kết luận trên.
Các nhà nghiên cứu nói rằng mặc dù dữ liệu này được mô phỏng và ước tính, nhưng có một mức độ không chắc chắn nhất định. Tuy nhiên, đó là một hồi chuông cảnh tỉnh cho cộng đồng mô hình lớn và dữ liệu đào tạo có thể sớm trở thành một nút thắt quan trọng hạn chế việc mở rộng và ứng dụng các mô hình AI.
Các nhà cung cấp AI cần đưa ra các phương pháp hiệu quả để tái tạo và tổng hợp dữ liệu trước để tránh tình trạng thiếu dữ liệu giống như vách đá trong quá trình phát triển các mô hình lớn