Від теорії до практики, як виглядає повна форма великої мовної моделі LLM?
Багато хто сказав би, що він заснований на глибокому розумінні природної мови, але серія GPT OpenAI вже добре попрацювала в цьому плані. Деякі люди також обговорюють практичні можливості AI Agent, але наразі це обговорення не відривається від сфери обробки природної мови.
Генеративний штучний інтелект фактично включає два аспекти. Велика мовна модель є одним із них, який зосереджується на розумінні людської мови. Більш широке так зване застосування AIGC насправді стосується можливості крос-модального перетворення, представленої дифузійною моделлю. , також відомий як Вінсент фотографії, відео Вінсента тощо.
Тож як щодо поєднання двох? В очах багатьох людей це фактично наступне покоління GPT або те, як GPT буде виглядати повністю. Стаття Школи обчислювальної техніки Національного університету Сінгапуру, яка нещодавно з’явилася на веб-сайті препринтів arxiv, привернула увагу людей, оскільки модель NExT-GPT, розроблена в цій статті, намагається виконати повне модальне перетворення.
На малюнку вище ми бачимо, що вхідний і вихідний кінці моделі NExT-GPT можуть генерувати різні модальні форми, включаючи текст, зображення, аудіо та відео. Вихідний кінець використовує дифузійні моделі, що відповідають різним режимам, крім тексту. Перетворення мультимедійних даних між входом і виходом залежить від великих моделей.
Стиль моделі NExT-GPT насправді не тільки відповідає сучасній тенденції людей, які намагаються поєднати дві сили генеративного ШІ: великі мовні моделі та дифузійні моделі, він навіть певною мірою відповідає людській інтуїції: людський мозок покладається на on Зрозумійте світ через вільне перетворення та інтерактивне розуміння багатьох модальностей.
Особливо варто зазначити, що так звана комбінація мультимодального перетворення та великих можливостей мовної моделі є не простим способом «побудувати міст» між собою, а справді поєднує мультимодальні дані (вектори) з мовою Після того, як цей процес справді згладжений, це означає, що великі моделі зможуть не лише вивчати та розуміти людську мову, але й розширювати цю здатність до більшої кількості модальностей. Щойно ця комбінація буде успішною, це призведе до якісного стрибка в можливостях ШІ.
Огляд структури NExT-GPT:
Дві переломні точки
Кажуть, що і Google, і GPT5 OpenAI проводять аналогічні дослідження. Перед цим давайте подивимося, як це робить модель NExT-GPT.
Загалом модель NExT-GPT об’єднує велику модель із мультимодальним адаптером і декодером дифузійної моделі, лише з 1% коригуванням параметрів у проекційному шарі. Інновація статті полягає в створенні інструкції налаштування модального перемикання під назвою MosIT і набору даних спеціально для міжмодального перемикання.
Зокрема, NExT-GPT складається з трьох рівнів. Перший рівень полягає в тому, що різні зрілі кодери кодують різні модальні вхідні дані, а потім відображають через рівень проекції у форму, яку може зрозуміти велика модель мови. Другий рівень — це велика мовна модель з відкритим кодом, яка використовується для міркувань. Варто зазначити, що велика мовна модель не тільки генерує текст, але також генерує унікальний тег, який вказує шару декодування виводити певний модальний вміст. Третій рівень проектує ці командні сигнали та генерує відповідний вміст, що відповідає різним кодерам.
Щоб зменшити витрати, NExT-GPT використовує готові кодери та декодери. Щоб мінімізувати «шум», який виникає під час перетворення вмісту в різних модальностях, NExT-GPT використовує ImageBind, який є крос-модальним уніфікованим кодуванням .encoder, так що NExT-GPT не потрібно керувати багатьма різнорідними модальними кодувальниками, але він може однаково проектувати різні модальності у велику мовну модель.
Що стосується вихідного каскаду, NExT-GPT широко використовує різні зрілі моделі, включаючи стабільну дифузію для створення зображення, Zeroscope для створення відео та AudioLDM для синтезу аудіо. На малюнку нижче зображено частину процесу міркування в статті. Ви бачите, що шаблони тексту та маркери сигналів визначають, як модальності розпізнаються, запускаються та генеруються. Сірі частини — це модальні параметри, які не активуються.
Це пов’язано з проблемою семантичного розуміння між різними модальностями, тому узгодження є важливим. Однак, завдяки відносно чіткій структурі, вирівнювання NExT-GPT насправді дуже просте в експлуатації. Автор розробив тришарову структуру з’єднання. Кінець кодування вирівняно з великою моделлю як центр, а кінець декодування вирівняно з інструкціями. Це вирівнювання не виконує повномасштабного процесу вирівнювання між дифузійною моделлю та великою мовною моделлю, а натомість використовує лише текстовий умовний кодер.Після мінімізації відстані між сигнальними маркерами шаблону великої моделі та текстом дифузійної моделі вирівнювання виконується лише На основі чистого тексту це вирівнювання дуже легке, лише близько 1% параметрів потребують коригування.
Враховуючи необхідність NExT-GPT мати здатність точно генерувати та обґрунтовувати різні модальності, у статті також представлено MosIT, що є налаштуванням інструкцій перемикання модальностей. Його навчання базується на наборі даних, що складається з 5000 зразків високої якості.
Конкретний процес навчання дещо складний, тому я не буду вдаватися в подробиці.Загалом MosIT може реконструювати вхідний і вихідний текстовий вміст, щоб NExT-GPT міг добре розуміти різні режимні комбінації тексту, зображень, відео та аудіо .складні інструкції, які дуже близькі до способу людського розуміння та міркування.
**Чи наближається досконалість? **
На даний момент NExT-GPT все ще має багато недоліків. Автор також згадав багато з них у статті. Наприклад, дуже легко подумати, що чотирьох модальностей все ще занадто мало для справжнього мультимодального повного великого Модель Навчання MosIT Кількість наборів даних також обмежена.
Крім того, автор також наполегливо працює над адаптацією NExT-GPT до більшої кількості сценаріїв за допомогою великих мовних моделей різного розміру.
Ще одне складне питання – більш практичне, ніж розмір. Незважаючи на те, що NExT-GPT демонструє сильні перспективи щодо мультимодальних можливостей, поточний рівень можливостей AIGC, представлений дифузійною моделлю, все ще обмежений, що впливає на продуктивність усього NExT-GPT.
Загалом мультимодальний штучний інтелект має дуже привабливі перспективи, оскільки він тісніше інтегрований із сценаріями додатків і потребами користувачів. Оскільки нинішня популярність великих моделей доріжок дещо знижується, мультимодальний штучний інтелект дає людям величезний простір для уяви. Як наскрізна мультимодальна велика модель, NExT-GPT фактично має прототип мультимодального штучного інтелекту. Ідеї в статті щодо вирівнювання параметрів налаштування та використання MosIT для покращення можливостей міркувань моделі вражають, тому ми можемо можна навіть сказати, що хтось уже зробив перший крок до повного ШІ.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Хтось уже створив GPT-5 для OpenAI?
Перше джерело: GenAI New World
Автор|Xue LiangNeil
Від теорії до практики, як виглядає повна форма великої мовної моделі LLM?
Багато хто сказав би, що він заснований на глибокому розумінні природної мови, але серія GPT OpenAI вже добре попрацювала в цьому плані. Деякі люди також обговорюють практичні можливості AI Agent, але наразі це обговорення не відривається від сфери обробки природної мови.
Генеративний штучний інтелект фактично включає два аспекти. Велика мовна модель є одним із них, який зосереджується на розумінні людської мови. Більш широке так зване застосування AIGC насправді стосується можливості крос-модального перетворення, представленої дифузійною моделлю. , також відомий як Вінсент фотографії, відео Вінсента тощо.
Тож як щодо поєднання двох? В очах багатьох людей це фактично наступне покоління GPT або те, як GPT буде виглядати повністю. Стаття Школи обчислювальної техніки Національного університету Сінгапуру, яка нещодавно з’явилася на веб-сайті препринтів arxiv, привернула увагу людей, оскільки модель NExT-GPT, розроблена в цій статті, намагається виконати повне модальне перетворення.
Стиль моделі NExT-GPT насправді не тільки відповідає сучасній тенденції людей, які намагаються поєднати дві сили генеративного ШІ: великі мовні моделі та дифузійні моделі, він навіть певною мірою відповідає людській інтуїції: людський мозок покладається на on Зрозумійте світ через вільне перетворення та інтерактивне розуміння багатьох модальностей.
Особливо варто зазначити, що так звана комбінація мультимодального перетворення та великих можливостей мовної моделі є не простим способом «побудувати міст» між собою, а справді поєднує мультимодальні дані (вектори) з мовою Після того, як цей процес справді згладжений, це означає, що великі моделі зможуть не лише вивчати та розуміти людську мову, але й розширювати цю здатність до більшої кількості модальностей. Щойно ця комбінація буде успішною, це призведе до якісного стрибка в можливостях ШІ.
Огляд структури NExT-GPT:
Дві переломні точки
Кажуть, що і Google, і GPT5 OpenAI проводять аналогічні дослідження. Перед цим давайте подивимося, як це робить модель NExT-GPT.
Загалом модель NExT-GPT об’єднує велику модель із мультимодальним адаптером і декодером дифузійної моделі, лише з 1% коригуванням параметрів у проекційному шарі. Інновація статті полягає в створенні інструкції налаштування модального перемикання під назвою MosIT і набору даних спеціально для міжмодального перемикання.
Зокрема, NExT-GPT складається з трьох рівнів. Перший рівень полягає в тому, що різні зрілі кодери кодують різні модальні вхідні дані, а потім відображають через рівень проекції у форму, яку може зрозуміти велика модель мови. Другий рівень — це велика мовна модель з відкритим кодом, яка використовується для міркувань. Варто зазначити, що велика мовна модель не тільки генерує текст, але також генерує унікальний тег, який вказує шару декодування виводити певний модальний вміст. Третій рівень проектує ці командні сигнали та генерує відповідний вміст, що відповідає різним кодерам.
Щоб зменшити витрати, NExT-GPT використовує готові кодери та декодери. Щоб мінімізувати «шум», який виникає під час перетворення вмісту в різних модальностях, NExT-GPT використовує ImageBind, який є крос-модальним уніфікованим кодуванням .encoder, так що NExT-GPT не потрібно керувати багатьма різнорідними модальними кодувальниками, але він може однаково проектувати різні модальності у велику мовну модель.
Що стосується вихідного каскаду, NExT-GPT широко використовує різні зрілі моделі, включаючи стабільну дифузію для створення зображення, Zeroscope для створення відео та AudioLDM для синтезу аудіо. На малюнку нижче зображено частину процесу міркування в статті. Ви бачите, що шаблони тексту та маркери сигналів визначають, як модальності розпізнаються, запускаються та генеруються. Сірі частини — це модальні параметри, які не активуються.
Враховуючи необхідність NExT-GPT мати здатність точно генерувати та обґрунтовувати різні модальності, у статті також представлено MosIT, що є налаштуванням інструкцій перемикання модальностей. Його навчання базується на наборі даних, що складається з 5000 зразків високої якості.
**Чи наближається досконалість? **
На даний момент NExT-GPT все ще має багато недоліків. Автор також згадав багато з них у статті. Наприклад, дуже легко подумати, що чотирьох модальностей все ще занадто мало для справжнього мультимодального повного великого Модель Навчання MosIT Кількість наборів даних також обмежена.
Крім того, автор також наполегливо працює над адаптацією NExT-GPT до більшої кількості сценаріїв за допомогою великих мовних моделей різного розміру.
Ще одне складне питання – більш практичне, ніж розмір. Незважаючи на те, що NExT-GPT демонструє сильні перспективи щодо мультимодальних можливостей, поточний рівень можливостей AIGC, представлений дифузійною моделлю, все ще обмежений, що впливає на продуктивність усього NExT-GPT.
Загалом мультимодальний штучний інтелект має дуже привабливі перспективи, оскільки він тісніше інтегрований із сценаріями додатків і потребами користувачів. Оскільки нинішня популярність великих моделей доріжок дещо знижується, мультимодальний штучний інтелект дає людям величезний простір для уяви. Як наскрізна мультимодальна велика модель, NExT-GPT фактично має прототип мультимодального штучного інтелекту. Ідеї в статті щодо вирівнювання параметрів налаштування та використання MosIT для покращення можливостей міркувань моделі вражають, тому ми можемо можна навіть сказати, що хтось уже зробив перший крок до повного ШІ.