مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
نشرت "MIT Technology Review" ذات مرة مقالا على موقعها الرسمي على الإنترنت يقول إنه مع استمرار شعبية النماذج الكبيرة مثل ChatGPT ، يتزايد الطلب على بيانات التدريب. يشبه النموذج الكبير "الثقب الأسود السيبراني" الذي يتم امتصاصه باستمرار ، مما يؤدي في النهاية إلى عدم وجود بيانات كافية للتدريب.
نشرت Epochai ، وهي مؤسسة أبحاث الذكاء الاصطناعي معروفة ، ورقة مباشرة حول مشكلة التدريب على البيانات ، وأشارت إلى أنه بحلول عام 2026 ، ستستهلك النماذج الكبيرة بيانات عالية الجودة ، وبحلول 2030-2050 ، سيتم استهلاك جميع البيانات منخفضة الجودة.
بحلول 2030-2060 ، سيتم استنفاد جميع بيانات التدريب على الصور. (تشير البيانات هنا إلى البيانات الأصلية التي لم يتم تصنيفها أو تلوثها بأي شكل من الأشكال.)
عنوان:
في الواقع ، ظهرت بالفعل مشكلة بيانات التدريب. قالت OpenAI إن الافتقار إلى بيانات التدريب عالية الجودة سيكون أحد التحديات المهمة في تطوير GPT-5. إنه مثل الذهاب إلى المدرسة في البشر ، عندما يصل مستوى معرفتك إلى مستوى الدكتوراه ، فإن إظهار معرفة المدرسة الإعدادية ليس مفيدا للتعلم.
لذلك ، من أجل تعزيز قدرات GPT-5 التعليمية والتفكير وقدرات AGI العامة ، أنشأت OpenAI "تحالف بيانات" ، على أمل جمع بيانات نصية وفيديو وصوت وبيانات أخرى خاصة وطويلة جدا في منطقة كبيرة ، بحيث يمكن للنموذج محاكاة وتعلم التفكير البشري وأساليب العمل بعمق **.
في الوقت الحاضر ، انضمت أيسلندا ومشروع القانون الحر ومنظمات أخرى إلى التحالف لتزويد OpenAI ببيانات مختلفة لمساعدتها على تسريع تطوير النموذج.
بالإضافة إلى ذلك ، مع دخول المحتوى الذكاء الاصطناعي الذي تم إنشاؤه بواسطة ChatGPT و Midjourney و Gen-2 ونماذج أخرى إلى الشبكة العامة ، سيؤدي ذلك إلى تلويث مجموعة البيانات العامة التي بناها البشر بشكل خطير ، وستكون هناك خصائص مثل التجانس والمنطق الفردي ، مما يسرع عملية استهلاك البيانات عالية الجودة.
** بيانات التدريب عالية الجودة ضرورية لتطوير نموذج كبير **
من وجهة نظر فنية ، يمكن اعتبار نماذج اللغة الكبيرة "آلات التنبؤ باللغة" ، والتي تتعلم من كمية كبيرة من البيانات النصية ، وتنشئ أنماطا من الارتباط بين الكلمات ، ثم تستخدم هذه الأنماط للتنبؤ بالكلمة أو الجملة التالية من النص.
يعد Transformer أحد أكثر البنى شهرة واستخداما على نطاق واسع ، وقد اقترض ChatGPT وغيره من هذه التكنولوجيا.
ببساطة ، نموذج اللغة الكبير هو "قرع ومغرفة" ، ويمكن للبشر أن يقولوا ما يريدون. لذلك ، عند استخدام نموذج مثل ChatGPT لإنشاء نص ، يبدو الأمر كما لو كنت قد رأيت النمط السردي لهذه المحتويات النصية.
لذلك ، تحدد جودة بيانات التدريب بشكل مباشر ما إذا كان هيكل تعلم النموذج الكبير دقيقا. إذا كانت البيانات تحتوي على الكثير من الأخطاء النحوية ، والصياغة السيئة ، وفواصل الجمل غير الدقيقة ، والمحتوى الخاطئ ، وما إلى ذلك ، فإن المحتوى الذي تنبأ به النموذج سيحتوي بشكل طبيعي على هذه المشكلات.
على سبيل المثال ، إذا تم تدريب نموذج ترجمة ، ولكن البيانات المستخدمة كلها ملفقة ومحتوى رديء ، فإن المحتوى المترجم من قبل الذكاء الاصطناعي سيكون بطبيعة الحال سيئا للغاية.
هذا هو أحد الأسباب الرئيسية التي تجعلنا نرى في كثير من الأحيان العديد من النماذج ذات المعلمات الصغيرة ولكن الأداء والإخراج أفضل من المعلمات العالية ، وأحد الأسباب الرئيسية هو استخدام بيانات تدريب عالية الجودة.
في عصر النماذج الكبيرة البيانات هي الملك
نظرا لأهمية البيانات ، أصبحت بيانات التدريب عالية الجودة موردا قيما ل OpenAI و Baidu و Anthropic و Cohere والبائعين الآخرين ، وأصبحت "النفط" في عصر النماذج الكبيرة.
في وقت مبكر من شهر مارس من هذا العام ، عندما كانت الصين لا تزال تبحث بشكل محموم عن الكيمياء على النماذج الكبيرة ، أخذت بايدو زمام المبادرة في إطلاق منتج الذكاء الاصطناعي التوليدي الذي تم قياسه مقابل ChatGPT - Wenxin Yiyansheng.
بالإضافة إلى قدراتها القوية في مجال البحث والتطوير ، ساعدت بيانات مجموعة Baidu الصينية الضخمة المتراكمة من خلال محركات البحث لأكثر من 20 عاما كثيرا ، ولعبت دورا مهما في التكرارات المتعددة ل Wenxin Yiyan ، متقدمة بفارق كبير عن الشركات المصنعة المحلية الأخرى.
تتضمن البيانات عالية الجودة عادة الكتب المنشورة ، والأعمال الأدبية ، والأوراق الأكاديمية ، والكتب المدرسية ، والتقارير الإخبارية من وسائل الإعلام الموثوقة ، وويكيبيديا ، وموسوعة بايدو ، وما إلى ذلك ، والنصوص ، والفيديو ، والصوت وغيرها من البيانات التي تم التحقق منها من قبل الوقت والبشر.
لكن معاهد البحوث وجدت أن نمو هذا النوع من البيانات عالية الجودة بطيء للغاية. على سبيل المثال ، يجب أن يمر نشر الكتب بعمليات مرهقة مثل أبحاث السوق ، والصياغة الأولى ، والتحرير ، وإعادة المراجعة ، ويستغرق نشر كتاب شهورا أو حتى سنوات ، وهو ما يتخلف كثيرا عن نمو الطلب على بيانات التدريب النموذجية الكبيرة.
انطلاقا من اتجاه تطوير نماذج اللغة الكبيرة في السنوات الأربع الماضية ، تجاوز معدل نمو حجم بيانات التدريب السنوية 50٪. بمعنى آخر ، كل عام 1 ، يجب مضاعفة كمية البيانات اللازمة لتدريب النموذج لتحقيق تحسينات في الأداء والوظيفة **.
من ناحية ، هو حماية خصوصية المستخدمين من جمعها من قبل منظمات الطرف الثالث ، وهناك سرقة وسوء استخدام.
من ناحية أخرى ، من أجل منع احتكار البيانات المهمة وتخزينها من قبل عدد صغير من المؤسسات ، لا توجد بيانات متاحة أثناء البحث والتطوير التكنولوجي.
**بحلول عام 2026 ، قد تنفد بيانات التدريب عالية الجودة **
للتحقيق في مشكلة استهلاك بيانات التدريب ، قام باحثو Epochai بمحاكاة الإنتاج السنوي لبيانات اللغة والصور من 2022 إلى 2100 ، ثم قاموا بحساب المبلغ الإجمالي لهذه البيانات.
كما أنه يحاكي معدل استهلاك البيانات للطرز الكبيرة مثل ChatGPT. أخيرا ، تتم مقارنة معدل نمو البيانات ومعدل الاستهلاك ، ويتم استخلاص الاستنتاجات المهمة التالية:
في ظل اتجاه التطور السريع الحالي للنماذج الكبيرة ، سيتم استنفاد جميع البيانات منخفضة الجودة بحلول 2030-2050 ، ومن المرجح أن يتم استهلاك البيانات عالية الجودة بحلول عام 2026.
بحلول 2030-2060 ، سيتم استهلاك جميع بيانات التدريب على الصور ، وبحلول عام 2040 ، قد يظهر التكرار الوظيفي للنماذج الكبيرة علامات التباطؤ بسبب نقص بيانات التدريب.
استخدم الباحثون نموذجين للحساب: الأول ، باستخدام مجموعات البيانات المستخدمة بالفعل في كلا المجالين من نماذج اللغة والصور الكبيرة ، واستقراءها من الإحصاءات التاريخية للتنبؤ بموعد وصولها إلى الذروة ومتوسط الاستهلاك.
يتنبأ النموذج الثاني بكمية البيانات الجديدة التي سيتم إنشاؤها على مستوى العالم كل عام في المستقبل. يعتمد النموذج على ثلاثة متغيرات ، عدد سكان العالم ، وانتشار الإنترنت ، ومتوسط البيانات التي يتم إنشاؤها لكل مستخدم للإنترنت سنويا.
في الوقت نفسه، استخدم الباحثون بيانات الأمم المتحدة لتناسب منحنى النمو السكاني، وهي وظيفة على شكل حرف S لتناسب استخدام الإنترنت، ووضعوا افتراضا بسيطا بأن بيانات الناتج السنوي لكل شخص هي نفسها في الأساس، ومضروبة في الثلاثة لتقدير كمية البيانات الجديدة في العالم كل عام.
لقد تنبأ النموذج بدقة بالناتج الشهري ل Reddit (منتدى معروف) ، وبالتالي فإن معدل الدقة مرتفع **.
أخيرا ، جمع الباحثون بين النموذجين للوصول إلى الاستنتاجات المذكورة أعلاه.
وقال الباحثون إنه على الرغم من محاكاة هذه البيانات وتقديرها ، إلا أن هناك درجة معينة من عدم اليقين. ومع ذلك ، فهي دعوة للاستيقاظ لمجتمع النماذج الكبير ، وقد تصبح بيانات التدريب قريبا عنق زجاجة مهم يقيد توسيع وتطبيق نماذج الذكاء الاصطناعي.
يحتاج بائعو الذكاء الاصطناعي إلى وضع طرق فعالة لتجديد البيانات وتوليفها مسبقا لتجنب نقص البيانات الشبيه بالجرف في عملية تطوير نماذج كبيرة
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
نماذج مثل ChatGPT: بحلول عام 2026 ، سيتم استنفاد بيانات التدريب عالية الجودة
المصدر الأصلي: مجتمع AIGC المفتوح
نشرت "MIT Technology Review" ذات مرة مقالا على موقعها الرسمي على الإنترنت يقول إنه مع استمرار شعبية النماذج الكبيرة مثل ChatGPT ، يتزايد الطلب على بيانات التدريب. يشبه النموذج الكبير "الثقب الأسود السيبراني" الذي يتم امتصاصه باستمرار ، مما يؤدي في النهاية إلى عدم وجود بيانات كافية للتدريب.
نشرت Epochai ، وهي مؤسسة أبحاث الذكاء الاصطناعي معروفة ، ورقة مباشرة حول مشكلة التدريب على البيانات ، وأشارت إلى أنه بحلول عام 2026 ، ستستهلك النماذج الكبيرة بيانات عالية الجودة ، وبحلول 2030-2050 ، سيتم استهلاك جميع البيانات منخفضة الجودة.
بحلول 2030-2060 ، سيتم استنفاد جميع بيانات التدريب على الصور. (تشير البيانات هنا إلى البيانات الأصلية التي لم يتم تصنيفها أو تلوثها بأي شكل من الأشكال.)
عنوان:
لذلك ، من أجل تعزيز قدرات GPT-5 التعليمية والتفكير وقدرات AGI العامة ، أنشأت OpenAI "تحالف بيانات" ، على أمل جمع بيانات نصية وفيديو وصوت وبيانات أخرى خاصة وطويلة جدا في منطقة كبيرة ، بحيث يمكن للنموذج محاكاة وتعلم التفكير البشري وأساليب العمل بعمق **.
في الوقت الحاضر ، انضمت أيسلندا ومشروع القانون الحر ومنظمات أخرى إلى التحالف لتزويد OpenAI ببيانات مختلفة لمساعدتها على تسريع تطوير النموذج.
بالإضافة إلى ذلك ، مع دخول المحتوى الذكاء الاصطناعي الذي تم إنشاؤه بواسطة ChatGPT و Midjourney و Gen-2 ونماذج أخرى إلى الشبكة العامة ، سيؤدي ذلك إلى تلويث مجموعة البيانات العامة التي بناها البشر بشكل خطير ، وستكون هناك خصائص مثل التجانس والمنطق الفردي ، مما يسرع عملية استهلاك البيانات عالية الجودة.
** بيانات التدريب عالية الجودة ضرورية لتطوير نموذج كبير **
من وجهة نظر فنية ، يمكن اعتبار نماذج اللغة الكبيرة "آلات التنبؤ باللغة" ، والتي تتعلم من كمية كبيرة من البيانات النصية ، وتنشئ أنماطا من الارتباط بين الكلمات ، ثم تستخدم هذه الأنماط للتنبؤ بالكلمة أو الجملة التالية من النص.
يعد Transformer أحد أكثر البنى شهرة واستخداما على نطاق واسع ، وقد اقترض ChatGPT وغيره من هذه التكنولوجيا.
ببساطة ، نموذج اللغة الكبير هو "قرع ومغرفة" ، ويمكن للبشر أن يقولوا ما يريدون. لذلك ، عند استخدام نموذج مثل ChatGPT لإنشاء نص ، يبدو الأمر كما لو كنت قد رأيت النمط السردي لهذه المحتويات النصية.
على سبيل المثال ، إذا تم تدريب نموذج ترجمة ، ولكن البيانات المستخدمة كلها ملفقة ومحتوى رديء ، فإن المحتوى المترجم من قبل الذكاء الاصطناعي سيكون بطبيعة الحال سيئا للغاية.
هذا هو أحد الأسباب الرئيسية التي تجعلنا نرى في كثير من الأحيان العديد من النماذج ذات المعلمات الصغيرة ولكن الأداء والإخراج أفضل من المعلمات العالية ، وأحد الأسباب الرئيسية هو استخدام بيانات تدريب عالية الجودة.
في عصر النماذج الكبيرة البيانات هي الملك
نظرا لأهمية البيانات ، أصبحت بيانات التدريب عالية الجودة موردا قيما ل OpenAI و Baidu و Anthropic و Cohere والبائعين الآخرين ، وأصبحت "النفط" في عصر النماذج الكبيرة.
في وقت مبكر من شهر مارس من هذا العام ، عندما كانت الصين لا تزال تبحث بشكل محموم عن الكيمياء على النماذج الكبيرة ، أخذت بايدو زمام المبادرة في إطلاق منتج الذكاء الاصطناعي التوليدي الذي تم قياسه مقابل ChatGPT - Wenxin Yiyansheng.
بالإضافة إلى قدراتها القوية في مجال البحث والتطوير ، ساعدت بيانات مجموعة Baidu الصينية الضخمة المتراكمة من خلال محركات البحث لأكثر من 20 عاما كثيرا ، ولعبت دورا مهما في التكرارات المتعددة ل Wenxin Yiyan ، متقدمة بفارق كبير عن الشركات المصنعة المحلية الأخرى.
تتضمن البيانات عالية الجودة عادة الكتب المنشورة ، والأعمال الأدبية ، والأوراق الأكاديمية ، والكتب المدرسية ، والتقارير الإخبارية من وسائل الإعلام الموثوقة ، وويكيبيديا ، وموسوعة بايدو ، وما إلى ذلك ، والنصوص ، والفيديو ، والصوت وغيرها من البيانات التي تم التحقق منها من قبل الوقت والبشر.
لكن معاهد البحوث وجدت أن نمو هذا النوع من البيانات عالية الجودة بطيء للغاية. على سبيل المثال ، يجب أن يمر نشر الكتب بعمليات مرهقة مثل أبحاث السوق ، والصياغة الأولى ، والتحرير ، وإعادة المراجعة ، ويستغرق نشر كتاب شهورا أو حتى سنوات ، وهو ما يتخلف كثيرا عن نمو الطلب على بيانات التدريب النموذجية الكبيرة.
انطلاقا من اتجاه تطوير نماذج اللغة الكبيرة في السنوات الأربع الماضية ، تجاوز معدل نمو حجم بيانات التدريب السنوية 50٪. بمعنى آخر ، كل عام 1 ، يجب مضاعفة كمية البيانات اللازمة لتدريب النموذج لتحقيق تحسينات في الأداء والوظيفة **.
من ناحية ، هو حماية خصوصية المستخدمين من جمعها من قبل منظمات الطرف الثالث ، وهناك سرقة وسوء استخدام.
من ناحية أخرى ، من أجل منع احتكار البيانات المهمة وتخزينها من قبل عدد صغير من المؤسسات ، لا توجد بيانات متاحة أثناء البحث والتطوير التكنولوجي.
**بحلول عام 2026 ، قد تنفد بيانات التدريب عالية الجودة **
للتحقيق في مشكلة استهلاك بيانات التدريب ، قام باحثو Epochai بمحاكاة الإنتاج السنوي لبيانات اللغة والصور من 2022 إلى 2100 ، ثم قاموا بحساب المبلغ الإجمالي لهذه البيانات.
كما أنه يحاكي معدل استهلاك البيانات للطرز الكبيرة مثل ChatGPT. أخيرا ، تتم مقارنة معدل نمو البيانات ومعدل الاستهلاك ، ويتم استخلاص الاستنتاجات المهمة التالية:
في ظل اتجاه التطور السريع الحالي للنماذج الكبيرة ، سيتم استنفاد جميع البيانات منخفضة الجودة بحلول 2030-2050 ، ومن المرجح أن يتم استهلاك البيانات عالية الجودة بحلول عام 2026.
يتنبأ النموذج الثاني بكمية البيانات الجديدة التي سيتم إنشاؤها على مستوى العالم كل عام في المستقبل. يعتمد النموذج على ثلاثة متغيرات ، عدد سكان العالم ، وانتشار الإنترنت ، ومتوسط البيانات التي يتم إنشاؤها لكل مستخدم للإنترنت سنويا.
في الوقت نفسه، استخدم الباحثون بيانات الأمم المتحدة لتناسب منحنى النمو السكاني، وهي وظيفة على شكل حرف S لتناسب استخدام الإنترنت، ووضعوا افتراضا بسيطا بأن بيانات الناتج السنوي لكل شخص هي نفسها في الأساس، ومضروبة في الثلاثة لتقدير كمية البيانات الجديدة في العالم كل عام.
لقد تنبأ النموذج بدقة بالناتج الشهري ل Reddit (منتدى معروف) ، وبالتالي فإن معدل الدقة مرتفع **.
أخيرا ، جمع الباحثون بين النموذجين للوصول إلى الاستنتاجات المذكورة أعلاه.
وقال الباحثون إنه على الرغم من محاكاة هذه البيانات وتقديرها ، إلا أن هناك درجة معينة من عدم اليقين. ومع ذلك ، فهي دعوة للاستيقاظ لمجتمع النماذج الكبير ، وقد تصبح بيانات التدريب قريبا عنق زجاجة مهم يقيد توسيع وتطبيق نماذج الذكاء الاصطناعي.
يحتاج بائعو الذكاء الاصطناعي إلى وضع طرق فعالة لتجديد البيانات وتوليفها مسبقا لتجنب نقص البيانات الشبيه بالجرف في عملية تطوير نماذج كبيرة