Точка зору: у майбутньому штучним інтелектом керуватимуть моделі, і важливість моделей неможливо переоцінити

Джерело: Geek Park

Автор: Син Фу

Оригінальна назва: «За моделлю «Цзян Цзя» еволюція професійної команди ШІ»

З тих пір, як у 1956 році вчені розробили першу програму штучного інтелекту «шашки», ШІ розроблявся протягом майже 70 років. Протягом цього періоду було кілька припливів і відпливів, але одна головна нитка проходить через це: це «моделювання» — частка «моделі» в ШІ стає все вищою і вищою. Ця тенденція досягла піку після появи великої мовної моделі ChatGPT.

«Ми твердо віримо, що майбутнє штучного інтелекту — це світ моделей, і ми не можемо переоцінити моделі».

22 липня на конференції AGI Playground, організованій Geek Park, Чжан Цзясін, головний науковий співробітник відділу когнітивних обчислень і природної мови в Науково-дослідному інституті IDEA (Цифрова економіка в районі Великої затоки Гуандун-Гонконг-Макао), сказав.

У 2021 році Чжан Цзясін очолив команду CCNL Fengshenbang дослідницького інституту IDEA для створення найбільшої китайської системи попереднього навчання з відкритим кодом «Fengshenbang», яка є «попередником» моделі. Вони стали свідками «зміни парадигми», викликаної великими моделями.

Чжан Цзясін вважає, що ця передача містить два ключових слова: «зникнути» та «формувати». «Зникнення» означає, що З появою великої моделі загального призначення ChatGPT зникають конкретні типи моделей, які використовувалися для вилучення інформації, запитань і відповідей і виведення тексту. «Формування» означає, що можливість випробування інженерних розробок великої моделі сформує нову екологічну нішу** від народження моделі до тонкої настройки до посадки.

IDEA Research Institute CCNL також закладає нову екологічну нішу.

На додаток до розробки моделі повної ємності (наразі), команда Fengshenbang створила велику модель загального призначення «Цзян Цзя» (Ziya) на основі LLaMa, яка була застосована до таких сценаріїв, як цифрові люди та копірайтинг. Близько місяця тому вони також підготували серію експертних моделей, таких як мультимодальні моделі, моделі коду, моделі письма, моделі діалогу тощо. Останній може допомогти користувачам писати статті, копірайтинг для нових медіа, сценарії прямих трансляцій, рекламні плакати та навіть онлайн-романи.

Чжан Цзясін вважає, що в цій величезній екосистемі підприємці можуть думати про те, де зайняти екологічну нішу, виходячи з власних сил. «Кожен, кому цікаво потрапити у сферу великих моделей, може знайти в ній своє місце», — сказав він.

Нижче наведено повний текст виступу Чжана Цзясіна на конференції AGI Playground, відредагований Geek Park:

На конференції AGI Playground, організованій Geek Park, Чжан Цзясін виступив з промовою

01. Ера великої моделі: нова парадигма та нова екологія

Цього року, коли ми говоримо про великі моделі та AGI, ми завжди сприймаємо великі моделі як само собою зрозуміле в ШІ. Забігаючи вперед, навіть якщо віднестися до 1997 року, дуже важливо те, що «Deep Blue» переміг «Каспарова». Навіть ця система штучного інтелекту не має в собі моделі глибокого навчання.

Весь процес розробки штучного інтелекту почався в 1956 році, і минуло 70 років. Незважаючи на те, що штучний інтелект переживав кілька припливів і відпливів, ми можемо виявити, що розвиток штучного інтелекту йшов уздовж лінії, яка є процесом моделювання штучного інтелекту – частка моделей у штучному інтелекті стає все сильнішою і сильнішою. Сьогодні ми твердо віримо, що в майбутньому в штучному інтелекті домінуватимуть моделі, і ми не можемо переоцінити моделі.

Зображення: Чжан Цзясін розповідає про процес «моделювання» ШІ

Ми всі говоримо, що цього разу велика модель — це зміна «технічної парадигми», яку можна підсумувати двома ключовими словами «зникнути» та «формувати».

"Зникнення" означає зникнення типу. Півроку тому все поле штучного інтелекту було заполонене різними типами структур і завдань ШІ. Наприклад, з точки зору структури, існують різні модельні структури, такі як BERT і T5. Наприклад, що стосується завдань, існують різні завдання, такі як класифікація, витяг інформації, написання резюме, запитання та відповіді. Однак з приходом епохи великих моделей загального призначення це розмаїття зникає.

Наразі єдиною структурою моделі є GPT, а єдиними завданнями є введення та виведення тексту. Тому попередні концепції ШІ, такі як аналіз речень, ключові слова та інші концепції, поступово вийшли з поля нашого зору. Крім того, використання моделей сьогодні вже не на розсуд постачальника технології, а на розсуд клієнта, який її використовує.

І «формування» стосується формування виробничого ланцюжка. Побудова моделі вимагає величезних інвестицій, і майже ніхто не може виконати це завдання від початку до кінця самостійно. Щоб відшліфувати його, потрібна величезна команда та велика обчислювальна потужність. Від початкової концепції моделі до тонкої настройки різних етапів у середині та до кінцевої посадки – це повний виробничий ланцюжок.

Із «зникнення» та «становлення» ми бачимо «зміну парадигми» великої моделі. Іноді технологічний прогрес невпинний, незалежний від індивідуальної волі, і нові технологічні парадигми замінять старі технологічні парадигми.

Отже, яка цінність великих моделей як цієї нової технологічної парадигми? На мою думку, це приносить чотири абсолютно нові цінності:

1 абсолютно нове розуміння

З точки зору розуміння природної мови поточна велика модель значно перевищує всі попередні моделі. Здається, справді розуміє значення кожного нашого слова. Хоча відповіді можуть бути не зовсім точними, виникає абсолютно новий рівень розуміння.

2 абсолютно нові інструменти

Це не тільки засіб для підвищення працездатності, але й може звільнити людей від важкої праці. Це також творчий інструмент, який може створювати речі, які не можуть створити люди. Наприклад, минулорічна модель дифузії продемонструвала можливості графа Вінсена.

3 новий інтерфейс

Раніше нам доводилося писати програми для доступу до даних і API, але тепер, здається, нам більше не потрібно писати громіздкі коди. Нам потрібно лише описувати природною мовою, і велика модель може автоматично генерувати коди.

4 НОВІ ДВИГУНИ

Велика модель — це не просто окрема точка можливостей, її можна використовувати як двигун для пошуку інформації, створення діалогів і навіть створення історії.

Велика модель також привносить нову екологію, яка полягає в тому, як інтегруватися з промисловістю та реалізувати її.

Ми вважаємо, що великі моделі — це не просто API або незмінні моделі. Ми наголошуємо на тому, що після того, як компанія, що перебуває на першому етапі виробництва, виготовить модель, клієнти, що перебувають на нижчому рівні, повинні пройти подальше навчання та пробігти останню милю. Таким чином, модель може бути вбудована у власний сценарій кожного клієнта. Коли модель працює краще, збирається більше даних, що, у свою чергу, посилює модель. Це дійсно може сприяти розвитку всієї галузі.

У цій новій екології найвищою є компанія, яка створює базову модель, і є багато команд нижче базової моделі, які зосереджуватимуться на моделях із певними можливостями чи галузями. Щоб продовжити, це означає співпрацювати з компаніями, що займаються розробкою рішень, виробниками хмарних технологій і виробниками апаратного забезпечення для створення різноманітних продуктів і, нарешті, обслуговування підприємств і урядів.

Малюнок: нова екологія великої моделі, описана Чжан Цзясіном

Від базової моделі до реальної реалізації це передбачає багато зв’язків і зв’язків, а також породило багато нових екологічних ніш. Я думаю, кожен може об’єднати власні сили і подумати, де він хоче зайняти в цій екосистемі. Власне, тут може знайти своє місце кожен, хто готовий присвятити себе сфері масштабних моделей.

02. ** За великою моделлю "Jiang Ziya"**

Ми були командою протягом двох років, і з нашого досвіду ясно, що ця зміна парадигми вплинула на нас.

До кінця минулого року ми розробляли велику кількість моделей з відкритим вихідним кодом, створювали різні структури моделей і типи завдань. Лише за рік ми створили 98 моделей із відкритим кодом, встановивши рекорд у китайській галузі.

Однак наприкінці минулого року модель Вень Шенту раптово стала популярним продуктом. Тож ми почали розгортатися й створили першу модель стабільної дифузії з відкритим кодом китайською мовою, яку ми називаємо моделлю «Taiyi». Ми сподіваємося йти в ногу зі змінами технологічної парадигми для великих моделей.

У нинішню еру великих моделей загального призначення наша команда працює понаднормово, щоб підготувати найкращі великі моделі з відкритим кодом для китайської мови. Це відоме як LLaMA2. Ми навчили жетони 20 В. У порівнянні з попередньо навченою моделлю «зія-ЛЛаМА-13Б» швидкість навчання зросла на 38%, що повністю вирішило проблему нестабільного «тренувального польоту» (ненормального навчання) під час тренувального процесу.

Малюнок: після навчання маркера 20B LLaMA2 вирішує проблему нестабільного «навчального польоту» під час процесу навчання

Після того, як ми навчимо цю модель, вона буде повністю відкритою, і не буде жодних обмежень щодо комерційних програм. У той же час ми обіцяємо продовжувати навчання цій моделі, сподіваючись забезпечити найкращу базу моделей із відкритим кодом і комерційно доступну для всієї великої спільноти моделей.

Згідно з поточною технологічною парадигмою, запровадження ChatGPT цього року схвилювало багатьох людей, кажучи, що велика модель загального призначення зруйнує всі сфери життя. Але минув час, ми заспокоїлися і виявили, що велика модель насправді є просто очищенням і оптимізацією існуючої сцени. Таким чином, ми визнаємо, що існує ще багато можливостей і можливостей для застосування великих моделей у вертикальних галузях, областях і можливостях.

Тож близько місяця тому наша команда створила серію експертних моделей, таких як мультимодальні моделі, моделі коду, моделі письма, моделі діалогу тощо. Багато з них уже випущені і знаходяться на найкращому рівні в галузі.

Нещодавно ми відкрили вихідний код для китайської моделі співпраці під назвою «Зія-письмо». Ми сподіваємося, що ця модель може стати готовим помічником для надання підтримки підприємствам і окремим особам для підвищення ефективності. Наприклад, державні службовці можуть попросити Зію допомогти написати звіт про катастрофу або написати промову лідера на церемонії відкриття, оскільки це може дуже відповідати стилю звіту про політику.

Крім того, він також може звільнити творців, операторів і маркетологів китайської спільноти, щоб вони допомагали писати різні типи статей, копірайтингу, м’яких статей і навіть створювати чудові короткі оповідання чи навіть старовинний фентезійний веб-роман. Ми бачимо, що він має дуже хороші показники з точки зору логіки структури розділу та сюжетної лінії.

Ми також розробили пакет пошуку, який використовує лише 100 мільйонів параметрів. Він працює краще, ніж деякі поточні рішення як у юридичній, так і у фінансовій сферах, навіть краще, ніж найкращі векторні моделі, які зараз є відкритими. Наш інструментарій також може стати маленьким помічником у фінансовій галузі, допомагаючи дослідникам і аналітикам.

Чому ми можемо виробляти стільки високоякісних моделей?

За цим стоїть наша багато накопичень, у тому числі триетапна система навчання (ПТ перед навчанням, контрольована точна настройка SFT, навчання зворотного зв’язку людини RLHF), включаючи велику кількість накопичених високоякісних даних, деякі власно розроблені алгоритми та їх осадження в нашу систему навчання.

Кожна з наших моделей підтримує як версії з відкритим вихідним кодом, так і комерційні, і ми уповноважуємо наших партнерів проводити навчання та тонке налаштування, дозволяючи їм проводити приватне навчання за власними сценаріями.

Від малих до великих, зміни від однієї з наших команд також відображають зміни в поточній технічній парадигмі у сфері великих моделей.

03, питання на сайті

Малюнок: команда IDEA приймає запитання на місці

**З: Як ви бачите майбутню архітектуру апаратного висновку? Чи буде майбутнє апаратне забезпечення «інтегровано з навчанням і просуванням» протягом тривалого часу, чи з’являться можливості для спеціальних чіпів для міркування? **

Чжан Цзясін: Спочатку ми мали два типи чіпів для навчання та міркування, але нинішній чіп для міркування, очевидно, не може адаптуватися до поточної великої моделі.

Отже, наразі, в основному з точки зору апаратних обмежень, існує більше «інтеграції навчання та натискання». І великою перевагою інтеграції навчання та відштовхування є те, що він може повторно використовувати обчислювальну потужність. Наше міркування не завжди може бути повним завантаженням, тому ми можемо повністю використовувати час для навчання, який також розглядається з точки зору економії часу.

У майбутньому чіпи міркувань все ще мають своє значення. У деяких сценаріях, таких як мобільні термінали, периферійні обчислення або пристрої, встановлені на транспортному засобі, все ще потрібні спеціальні налаштовані чіпи висновку. Навіть у хмарі та на серверах, якщо чіп висновків можна оптимізувати для низького енергоспоживання чи інших аспектів, тоді це все одно має сенс. Я думаю, що в майбутньому все ще повинні бути спеціальні мікросхеми для спеціальних речей.

**З: З яких кутів ми повинні збирати дані для деяких вертикальних програм? Як створити високоякісний набір даних? **

Чжан Цзясін: Насправді всі наші дані також збираються поступово. З самого початку є лише 20 або 30 наборів даних. Але через повільне навчання, наприклад, якої частини здібностей не вистачає, ми будемо цілеспрямовано збирати деякі з цих даних, і в той же час ми накопичуватимемо власний досвід, наприклад певну обробку даних тощо.

Нарешті, якщо такого немає, ми створимо деякі дані самі. Наприклад, для розмов із кількома особами тощо ми маємо різноманітні типи наборів даних.

**З: Чому існує так багато моделей спеціальних здібностей? Чому б не розширити ці можливості одночасно на одній моделі? **

Чжан Цзясін: У нас є кілька міркувань. По-перше, ми заздалегідь вибрали розмір моделі. Після вибору розміру моделі ми хочемо, щоб модель мала певні можливості. Це пропозиція в обмежених умовах. Це дуже велика економічна перевага.

Зараз я хочу помістити всі здібності в одну велику модель, але ці здібності є взаємовиключними з точки зору часу та простору. З точки зору простору, деякі здібності є взаємовиключними. Наприклад, коли ми виконували завдання на логічні міркування, такі як математичні та письмові, вони конфліктували. Крім того, існує конфлікт часу: в певний момент певна здатність є найсильнішою, але інші здібності можуть бути не дуже сильними.

Оскільки подальші сценарії потребують лише однієї можливості, ми просто вибираємо певні конкретні набори даних для навчання певним завданням, які є спеціальними моделями.

**З: Ви згадали, що проблема нестабільного «тренувального польоту» була вирішена, як це було вирішено? **

Чжан Цзясін: Тут є ключовий момент. По-перше, ми відкоригували наше навчання. Ми внесли зміни на рівні вихідного коду під час розподіленого навчання. Дійсно, стабільність навчання набагато сильніша. Коли ми тренували Ziya-LLaMA-13B, крива цього навчального набору була стабільною. Ми велика модельна команда, яка дуже зосереджена на технології навчання, що також є гарантією для нас, щоб ми й надалі створювали хороші моделі.

**З: Стосовно обговорення суспільного надбання та приватизованих великих моделей, чи потрібно цю модель приватизувати? Наприклад, якщо я хочу створити програму на C, чи можу я не виконувати приватизоване розгортання? **

Чжан Цзясін: По-перше, ми виявили, що наші партнери мають певні вимоги щодо безпеки даних і конфіденційності, і їхні дані не можна використовувати для навчання загальнодоступних моделей. По-друге, вони повинні мати дуже глибоку сцену та індивідуальні вимоги.Незалежно від того, чи це продукт до B чи продукт до C, усі вони сподіваються використовувати його у своїй власній сцені.

Наразі публічна велика модель або загальна велика база моделей не може повністю задовольнити всі їхні потреби, тому приватне навчання та приватне розгортання стали їхньою необхідністю.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити