Такие модели, как ChatGPT: К 2026 году качественные обучающие данные будут исчерпаны

Первоисточник: Открытое сообщество AIGC

Источник изображения: Generated by Unbounded AI

«MIT Technology Review» однажды опубликовал статью на своем официальном сайте, в которой говорилось, что с продолжающейся популярностью крупных моделей, таких как ChatGPT, спрос на обучающие данные растет. Большая модель похожа на «киберчерную дыру», которая постоянно поглощается, что в конечном итоге приводит к тому, что не хватает данных для обучения.

Известное научно-исследовательское учреждение в области искусственного интеллекта Epochai опубликовало статью, посвященную непосредственно проблеме обучения данных, и указало, что к 2026 году большие модели будут потреблять данные высокого качества, а к 2030-2050 годам будут потребляться все данные низкого качества.

К 2030-2060 годам все данные для обучения изображений будут исчерпаны. (Под данными здесь подразумеваются исходные данные, которые не были помечены или каким-либо образом загрязнены.)

Адрес:

На самом деле, проблема с обучающими данными уже возникла. В OpenAI заявили, что отсутствие качественных обучающих данных станет одной из важных проблем при разработке GPT-5. Это похоже на то, как если бы вы ходили в школу по изучению людей, когда ваш уровень знаний достигает уровня докторантуры, то демонстрация вам знаний младших классов средней школы не помогает в обучении.

Поэтому, чтобы улучшить обучение, рассуждения и общие возможности GPT-5, OpenAI создала «альянс данных», надеясь собирать частные, сверхдлинные текстовые, видео, аудио и другие данные на большой площади, чтобы модель могла глубоко моделировать и изучать человеческое мышление и методы работы**.

В настоящее время Исландия, Free Law Project и другие организации присоединились к альянсу, чтобы предоставить OpenAI различные данные, которые помогут ему ускорить разработку моделей.

Кроме того, по мере того, как ИИ-контент, генерируемый ChatGPT, Midjourney, Gen-2 и другими моделями, будет попадать в публичную сеть, это серьезно загрязнит публичный пул данных, построенный людьми, и появятся такие характеристики, как однородность и единая логика, ускоряющие процесс потребления качественных данных.

Высококачественные обучающие данные необходимы для разработки больших моделей

С технической точки зрения большие языковые модели можно рассматривать как «машины языкового прогнозирования», которые обучаются на большом объеме текстовых данных, устанавливают закономерности ассоциаций между словами, а затем используют эти закономерности для предсказания следующего слова или предложения текста.

Transformer — одна из самых известных и широко используемых архитектур, и ChatGPT и другие позаимствовали эту технологию.

Проще говоря, большая языковая модель — это «тыква и совок», и люди могут говорить все, что захотят. Поэтому, когда вы используете такую модель, как ChatGPT, для генерации текста, кажется, что где вы видели повествовательный шаблон этого текстового контента.

Таким образом, качество обучающих данных напрямую определяет, является ли структура обучения большой модели точной. Если данные содержат много грамматических ошибок, неудачных формулировок, неточных разрывов предложений, ложного содержания и т.д., то контент, предсказанный моделью, естественно, будет содержать эти проблемы.

Например, если модель перевода обучена, но все используемые данные являются сфабрикованными и некачественными, контент, переведенный ИИ, естественно, будет очень плохим.

Это одна из основных причин, почему мы часто видим много моделей с небольшими параметрами, но лучшей производительностью и производительностью, чем с высокими параметрами, и одна из главных причин — использование качественных обучающих данных.

В эпоху больших моделей данные — это король

Из-за важности данных высококачественные обучающие данные стали ценным ресурсом для OpenAI, Baidu, Anthropic, Cohere и других вендоров, а также стали «нефтью» в эпоху больших моделей.

Еще в марте этого года, когда Китай все еще лихорадочно проводил алхимические исследования на больших моделях, Baidu взяла на себя инициативу по выпуску продукта генеративного искусственного интеллекта, который сравнивался с ChatGPT - Wenxin Yiyansheng.

В дополнение к мощным возможностям в области исследований и разработок, огромный китайский корпус данных Baidu, накопленный через поисковые системы в течение более чем 20 лет, очень помог и сыграл важную роль в многочисленных итерациях Wenxin Yiyan, намного опередив других отечественных производителей.

К высококачественным данным обычно относятся опубликованные книги, литературные произведения, научные статьи, школьные учебники, новостные сообщения из авторитетных СМИ, Википедия, энциклопедия Baidu и т.д., текст, видео, аудио и другие данные, проверенные временем и людьми.

Но научно-исследовательские институты обнаружили, что рост этого типа высококачественных данных происходит очень медленно. Например, публикация книг должна пройти через громоздкие процессы, такие как исследование рынка, первая подготовка, редактирование и повторное рецензирование, а публикация книги занимает месяцы или даже годы, что значительно отстает от роста спроса на большие данные для обучения моделей.

Судя по тенденции развития больших языковых моделей за последние четыре года, темпы роста годового объема данных об обучении превысили 50%. Другими словами, каждые 1 год объем данных, необходимых для обучения модели, необходимо удваивать, чтобы добиться повышения производительности и функциональности**.

С одной стороны, это защита конфиденциальности пользователей от сбора сторонними организациями, а также от кражи и неправомерного использования;

С другой стороны, для того, чтобы предотвратить монополизацию и накопление важных данных небольшим числом учреждений, в ходе технологических исследований и разработок отсутствуют данные.

К 2026 году у нас могут закончиться высококачественные обучающие данные

Чтобы исследовать проблему потребления обучающих данных, исследователи Epochai смоделировали годовое производство данных о языке и изображениях с 2022 по 2100 год, а затем подсчитали общий объем этих данных.

Он также моделирует скорость потребления данных большими моделями, такими как ChatGPT. Наконец, сравниваются темпы роста данных и темпы их потребления, и делаются следующие важные выводы:

При нынешнем тренде на быстрое развитие больших моделей все некачественные данные будут исчерпаны к 2030-2050 годам, а высококачественные данные, скорее всего, будут потреблены к 2026 году.

К 2030-2060 гг. все обучающие данные изображений будут исчерпаны, а к 2040 г. функциональная итерация больших моделей может демонстрировать признаки замедления из-за нехватки обучающих данных.

Исследователи использовали две модели для расчетов: первую, используя наборы данных, которые фактически используются в обеих областях больших языковых моделей и моделей изображений, и экстраполируя их на основе исторической статистики, чтобы предсказать, когда они достигнут пика и среднего потребления.

Вторая модель предсказывает, сколько новых данных будет создаваться в мире каждый год в будущем. Модель основана на трех переменных: численности населения мира, проникновении интернета и среднем объеме данных, генерируемых на одного интернет-пользователя в год.

В то же время исследователи использовали данные Организации Объединенных Наций для подгонки кривой роста населения, S-образной функции для соответствия использованию Интернета, и сделали простое предположение, что годовые данные о выпуске на душу населения в основном одинаковы, и умножили их на три, чтобы оценить количество новых данных в мире каждый год.

Модель точно предсказала ежемесячную выдачу Reddit (известного форума), поэтому точность высокая**.

Наконец, исследователи объединили две модели, чтобы прийти к вышеуказанным выводам.

Исследователи говорят, что, хотя эти данные смоделированы и оценены, существует определенная степень неопределенности. Тем не менее, это тревожный звонок для большого сообщества моделей, и обучающие данные вскоре могут стать важным узким местом, ограничивающим расширение и применение моделей ИИ.

Поставщикам ИИ необходимо заранее разработать эффективные методы регенерации и синтеза данных, чтобы избежать обрывистой нехватки данных в процессе разработки больших моделей

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить