За битвою ста моделей: технологічні прориви та комерційні виклики в сфері ШІ

robot
Генерація анотацій у процесі

"Битва ста моделей" у сфері ШІ: хто ж насправді переможе?

Минулого місяця в світі ШІ спалахнула "війна тварин". З одного боку - модель Llama( від Meta, з іншого - великий модель Falcon).

Llama завдяки своїм відкритим характеристикам користується великою популярністю серед розробників. Японська компанія NEC швидко розробила японську версію ChatGPT, вивчаючи документи та вихідний код Llama. А в травні цього року з'явилася модель Falcon-40B, яка випередила Llama і зайняла перше місце в рейтингу відкритих LLM.

Цікаво, що розробники Falcon не є технологічною компанією, а дослідницьким інститутом технологічних інновацій ОАЕ. Уряд ОАЕ заявив, що вони беруть участь у змаганні з ШІ, щоб "перевернути основних гравців".

Нині сфера штучного інтелекту вступила в етап змагання. Будь-яка країна та компанія з певними фінансовими ресурсами створюють свої великі мовні моделі. Лише в країнах Перської затоки є кілька учасників, Саудівська Аравія лише що придбала понад 3000 чіпів H100 для навчання LLM для своїх університетів.

Інвестор поскаржився: "Коли-то я недооцінював інновації бізнес-моделей Інтернету, вважаючи, що немає бар'єрів. Не очікував, що стартапи в галузі жорстких технологій все ще стикаються з битвою сотень моделей..."

То чому, якщо це вважається важкою технологією, зараз це стало "одна країна - одна модель, урожай на акр сто тисяч斤"?

Алгоритм Transformer: Точка спалаху AI революції

Поточні різні великі моделі можуть з'являтися, як гриби після дощу, завдяки алгоритму Transformer, опублікованому Google у 2017 році. Ця стаття є третьою за кількістю цитувань у історії ШІ, поява Transformer викликала цю хвилю захоплення ШІ.

До цього часу "навчити машини читати" було визнаною академічною проблемою. Люди під час читання поєднують контекст для розуміння, тоді як ранні нейронні мережі мали труднощі з розумінням контексту довгих текстів.

У 2014 році комп'ютерний вчений Ілля Сутскевер запропонував рекурентні нейронні мережі (RNN), які надали ШІ здатність "розуміти контекст". Але RNN має проблему низької ефективності, що ускладнює обробку великої кількості параметрів.

Щоб вирішити цю проблему, вчені з Google на чолі з Ноамом Шазером розробили Transformer. Він використовує позиційне кодування замість циклічного дизайну RNN, що дозволяє виконувати паралельні обчислення та значно підвищує ефективність навчання. Це дозволяє ШІ обробляти величезні обсяги даних, що сприяє приходові ери великих моделей.

Transformer швидко став основним алгоритмом у обробці природної мови. Він перетворив великі моделі з теоретичних досліджень у чисто інженерну задачу - якщо є достатня обчислювальна потужність і дані, будь-яка компанія може навчити велику модель.

У 2019 році OpenAI вразила академічний світ GPT-2, розробленим на основі Transformer. Google незабаром випустила більш потужний Meena, досягнувши цього лише завдяки збільшенню кількості параметрів і обчислювальної потужності. Цей "насильницький підхід" приголомшив винахідника Transformer Шазіра.

Поява трансформера змістила акцент змагання в галузі ШІ з інновацій в алгоритмах на інженерну реалізацію. Будь-яка компанія, яка має певні технічні можливості, може розробити свою власну велику модель. Як сказав комп'ютерний вчений Енді Нг, ШІ стає універсальною технологією, подібно до електрики та Інтернету.

Чи є водяний рівень або бульбашка? Де конкурентоспроможність великих моделей?

Наразі "Битва великих моделей" стала реальністю. За повідомленнями, станом на липень цього року в Китаї налічується 130 великих моделей, що перевищує 114 у США. Окрім Китаю та США, Японія, Об'єднані Арабські Емірати, Індія, Південна Корея та інші країни також випустили місцеві великі моделі.

Ця ситуація нагадує про "війни на гроші" епохи інтернет-бульбашки. Але легкий вхід не означає, що кожен може стати гігантом епохи ШІ.

Приклади відкритих моделей показують, що активна спільнота розробників є основною конкурентною перевагою. Серія Llama від Meta є орієнтиром для відкритих LLM, займаючи кілька позицій у рейтингу Hugging Face, з понад 1500 моделей, що використовують її відкриту ліцензію.

А в плані продуктивності GPT-4 від OpenAI все ще значно випереджає. У останньому тестуванні AgentBench GPT-4 зайняв перше місце з оцінкою 4.41, що значно перевищує друге місце з 2.77. Більшість відкритих моделей отримали оцінки лише приблизно 1/4 від оцінки GPT-4.

Ця різниця походить від потужної науково-дослідної команди OpenAI та накопиченого досвіду. Тому основна конкурентоспроможність великих моделей може полягати в екологічному будівництві ( відкритий шлях ) або чисто в здатності до міркування ( закритий шлях ).

Ще одна реальна проблема полягає в тому, що, крім Midjourney, здається, жодна велика модель ще не змогла дійсно отримати прибуток. Високі витрати призвели до того, що наразі лише такі виробники чіпів, як Nvidia, заробляють великі суми під час AI-революції.

За оцінками, щорічно глобальні технологічні компанії інвестуватимуть 200 млрд доларів у інфраструктуру великих моделей, тоді як річний дохід від великих моделей становитиме не більше 75 млрд доларів, що створює щонайменше 125 млрд доларів дефіциту.

Навіть такі програмні гіганти, як Microsoft і Adobe, важко досягти прибутку від інструментів ШІ. Це показує, що покладатися виключно на навчання великих моделей для створення цінності, ймовірно, ще довгий шлях попереду.

З поширенням відкритих моделей і посиленням конкуренції у сфері однорідності постачальники великих моделей можуть зіткнутися з більшим тиском. У майбутньому цінність ШІ, можливо, більше проявлятиметься у конкретних сферах застосування, а не в самій моделі. Як і успіх iPhone 4, який був не через процесор A4, а через можливість грати в різні популярні ігри.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • Поділіться
Прокоментувати
0/400
LeekCuttervip
· 07-19 00:26
Ця битва перетворилася на обман для дурнів.
Переглянути оригіналвідповісти на0
YieldChaservip
· 07-19 00:10
Всі кажуть, що вони сильні, але насправді можуть битися лише кілька.
Переглянути оригіналвідповісти на0
GweiTooHighvip
· 07-19 00:03
Хто заробляє, граючи в такі великі ігри?
Переглянути оригіналвідповісти на0
  • Закріпити