Модель ИИ с точки зрения «больше значит лучше» больше не работает

Автор Переводчик The Economist |

Ответственный редактор | Ся Мэн

Листинг | CSDN (ID: CSDNnews)

Источник изображения: сгенерировано Unbounded AI

Если ИИ хочет стать лучше, ему придется делать больше с меньшими ресурсами.

Говоря о «больших языковых моделях» (LLM), таких как OpenAI GPT (Generative Pre-trained Transformer) — основной движущей силе популярных чат-ботов в Соединенных Штатах — название говорит само за себя. Такие современные системы искусственного интеллекта питаются от обширных искусственных нейронных сетей, которые во многом имитируют работу биологического мозга. GPT-3, выпущенный в 2020 году, представляет собой гигантскую языковую модель со 175 миллиардами «параметров» — так называются смоделированные связи между нейронами. GPT-3 обучается путем обработки триллионов слов текста за несколько недель с использованием тысяч графических процессоров с искусственным интеллектом, что оценивается в более чем 4,6 миллиона долларов.

Однако в современных исследованиях ИИ существует консенсус: «чем больше, тем лучше, и больше, тем лучше». Таким образом, скорость роста масштаба модели была в быстром развитии. Выпущенный в марте GPT-4, по оценкам, имеет около 1 триллиона параметров — почти в шесть раз больше, чем в предыдущем поколении. По оценкам генерального директора OpenAI Сэма Альтмана, разработка обошлась в более чем 100 миллионов долларов. И отрасль в целом демонстрирует ту же тенденцию. Исследовательская компания Epoch AI прогнозирует, что в 2022 году вычислительная мощность, необходимая для обучения топ-моделей, будет удваиваться каждые шесть-десять месяцев (см. диаграмму ниже).

Постоянно увеличивающийся размер параметров модели ИИ создает некоторые проблемы. Если прогнозы Epoch AI верны, а затраты на обучение удваиваются каждые десять месяцев, к 2026 году затраты на обучение могут превысить миллиард долларов — и это только при условии, что данные не будут исчерпаны в первую очередь. Анализ, проведенный в октябре 2022 года, показал, что высококачественный текст, используемый для обучения, может быть исчерпан за то же время. Кроме того, даже после завершения обучения модели фактическая стоимость запуска большой модели может быть непомерно высокой.

Ранее в этом году Morgan Stanley подсчитал, что если половина поисковых запросов Google будет обрабатываться текущими программами типа GPT, это будет стоить компании дополнительно 6 миллиардов долларов в год. Это число, вероятно, будет продолжать расти по мере роста размера модели.

В результате мнение многих людей о том, что модели ИИ «чем больше, тем лучше», больше не соответствует действительности. Если они собираются продолжать улучшать модели ИИ (не говоря уже о реализации этих грандиозных мечтаний об ИИ), разработчикам необходимо выяснить, как повысить производительность с ограниченными ресурсами. Как сказал г-н Альтман в апреле этого года, оглядываясь назад на историю крупномасштабного ИИ: «Я думаю, что мы достигли конца эпохи».

Количественный анализ

Вместо этого исследователи начали сосредотачиваться на том, как повысить эффективность модели, а не только на погоне за масштабом. Один из способов — найти компромисс, уменьшив количество параметров, но используя больше данных для обучения модели. В 2022 году подразделение Google DeepMind обучило LLM с 70 миллиардами параметров под названием Chinchilla на корпусе из 1,4 триллиона слов. Несмотря на меньшее количество параметров, чем 175 миллиардов GPT-3, и обучающие данные всего 300 миллиардов слов, эта модель превзошла GPT-3. Загрузка меньшего LLM большего количества данных означает, что обучение занимает больше времени, но в результате получается модель меньшего размера, более быстрая и дешевая.

Другой вариант — позволить уменьшить точность чисел с плавающей запятой. Уменьшение количества разрядов точности в каждом числе в модели, т. е. округление, может значительно снизить требования к оборудованию. Исследователи из Австрийского института науки и технологий в марте продемонстрировали, что округление может резко сократить потребление памяти модели, подобной GPT-3, позволяя модели работать на одном высокопроизводительном графическом процессоре вместо пяти с «незначительной потерей точности». " ".

Некоторые пользователи настраивают LLM общего назначения, чтобы сосредоточиться на конкретных задачах, таких как создание юридических документов или обнаружение фальшивых новостей. Хотя это не так сложно, как обучение LLM в первый раз, оно все же может быть дорогим и трудоемким. Точная настройка модели LLaMA с 65 миллиардами параметров, исходный код которой был открыт Meta (материнской компанией Facebook), требовала нескольких графических процессоров и занимала от нескольких часов до нескольких дней.

Исследователи из Вашингтонского университета изобрели более эффективный способ создания новой модели Guanaco от LLaMA на одном GPU за день с незначительной потерей производительности. Частью хитрости является метод округления, аналогичный тому, который использовали австрийские исследователи. Но они также использовали метод, называемый адаптацией низкого ранга (LoRA), который включает в себя исправление существующих параметров модели, а затем добавление к ней нового, меньшего набора параметров. Тонкая настройка выполняется путем изменения только этих новых переменных. Это упрощает дело до такой степени, что даже относительно слабый компьютер, такой как смартфон, справится с этой задачей. Если LLM можно будет запустить на устройстве пользователя, а не в нынешнем гигантском центре обработки данных, это может обеспечить большую персонализацию и лучшую защиту конфиденциальности.

Тем временем команда Google предлагает новые варианты для тех, кто может жить с меньшими моделями. Этот подход фокусируется на извлечении конкретных знаний из большой общей модели и преобразовании ее в меньшую и специализированную модель. Большая модель выступает в роли учителя, а маленькая — в роли ученика. Исследователи попросили учителей ответить на вопросы и продемонстрировать свои рассуждения. И ответы, и выводы из модели учителя (большая модель) используются для обучения модели ученика (маленькая модель). Команда успешно обучила модель ученика всего с 7,7 миллиардами параметров (малая модель), чтобы превзойти модель учителя с 540 миллиардами параметров (большая модель) в конкретных задачах логического вывода.

Другой подход заключается в том, чтобы изменить способ построения модели вместо того, чтобы сосредоточиться на том, что делает модель. Большинство моделей ИИ разрабатываются на языке Python. Он разработан, чтобы быть простым в использовании, освобождая программиста от необходимости думать о том, как программа управляет чипом во время его работы. Цена сокрытия этих деталей заключается в том, что код работает медленнее. Уделение большего внимания этим деталям реализации может принести огромные дивиденды. По словам Томаса Вольфа, главного научного сотрудника компании Hugging Face, занимающейся разработкой искусственного интеллекта с открытым исходным кодом, это «важный аспект текущих исследований в области искусственного интеллекта».

оптимизированный код

Например, в 2022 году исследователи из Стэнфордского университета выпустили улучшенную версию «алгоритма внимания», который позволяет большим языковым моделям (LLM) изучать связи между словами и понятиями. Идея состоит в том, чтобы модифицировать код, чтобы он учитывал, что происходит на чипе, на котором он работает, в частности, чтобы отслеживать, когда конкретная информация должна быть извлечена или сохранена. Их алгоритму удалось утроить скорость обучения GPT-2, ранней модели большого языка, а также улучшить его способность обрабатывать более длинные запросы.

Более чистый код можно сделать и с помощью лучших инструментов. Ранее в этом году Meta выпустила новую версию своей среды программирования искусственного интеллекта PyTorch. Заставив программистов больше думать о том, как организовать вычисления на реальных чипах, можно удвоить скорость обучения моделей, добавив всего одну строку кода. Modular, стартап, основанный бывшими инженерами Apple и Google, в прошлом месяце выпустил новый язык программирования, ориентированный на ИИ, под названием Mojo, основанный на Python. Mojo дает программистам контроль над всеми деталями, которые раньше были скрыты, и в некоторых случаях код, написанный с помощью Mojo, может работать в тысячи раз быстрее, чем эквивалентный блок кода, написанный на Python.

Последний вариант — улучшить чип, который запускает код. Хотя изначально графические процессоры разрабатывались для обработки сложной графики в современных видеоиграх, они на удивление хорошо справляются с моделями ИИ. Исследователь аппаратного обеспечения из Meta сказал, что для «логического вывода» (т. е. фактического выполнения модели после ее обучения) графические процессоры не созданы идеально. В результате некоторые компании разрабатывают собственное более специализированное оборудование. Google уже запускает большинство своих проектов искусственного интеллекта на собственных чипах TPU. Meta со своим чипом MTIA и Amazon со своим чипом Inferentia пытаются сделать что-то подобное.

Может показаться удивительным, что иногда такие простые изменения, как округление чисел или переключение языков программирования, могут дать огромный прирост производительности. Но это отражает быстрое развитие больших языковых моделей (LLM). В течение многих лет большие языковые модели были в основном исследовательским проектом, и основное внимание уделялось тому, чтобы заставить их работать и давать достоверные результаты, а не элегантности их дизайна. Только недавно они превратились в коммерческие продукты для массового рынка. Большинство экспертов сходятся во мнении, что есть много возможностей для улучшения. Как сказал Крис Мэннинг, ученый-компьютерщик из Стэнфордского университета: «Нет оснований полагать, что используемая в настоящее время нейронная архитектура (имеется в виду текущая структура нейронной сети) является оптимальной, и не исключено, что появятся более совершенные архитектуры. в будущем."

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить