Такі моделі, як ChatGPT: до 2026 року якісні навчальні дані будуть вичерпані

Першоджерело: AIGC Open Community

Джерело зображення: Створено Unbounded AI

«MIT Technology Review» одного разу опублікував на своєму офіційному сайті статтю, в якій говорилося, що з незмінною популярністю великих моделей, таких як ChatGPT, попит на навчальні дані зростає. Велика модель схожа на «кіберчорну діру», яка постійно поглинається, що в підсумку призводить до того, що не вистачає даних для навчання.

Відома дослідницька установа ШІ Epochai опублікувала статтю, присвячену безпосередньо проблемі навчання даних, і вказала, що до 2026 року великі моделі споживатимуть високоякісні дані, а до 2030-2050 років усі дані низької якості будуть споживатися.

До 2030-2060 років всі навчальні дані зображень будуть вичерпані. (Наведені тут дані стосуються нативних даних, які не були позначені або забруднені жодним чином.)

Адреса:

Власне, проблема з навчальними даними вже з'явилася. В OpenAI заявили, що відсутність високоякісних навчальних даних стане однією з важливих проблем у розробці GPT-5. Це все одно, що ходити в школу на людях, коли твій рівень знань досягає докторського рівня, то показувати тобі знання молодших класів не корисно для навчання.

Тому, щоб покращити навчання, міркування та загальні можливості GPT-5, OpenAI створила «альянс даних», сподіваючись зібрати приватні, наддовгі текстові, відео, аудіо та інші дані на великій території, щоб модель могла глибоко моделювати та вивчати людське мислення та методи роботи**.

Наразі Ісландія, Free Law Project та інші організації приєдналися до альянсу, щоб надати OpenAI різні дані, які допоможуть йому прискорити розробку моделей.

Крім того, у міру того, як контент штучного інтелекту, згенерований ChatGPT, Midjourney, Gen-2 та іншими моделями, потрапляє в публічну мережу, це серйозно забруднить публічний пул даних, побудований людьми, і з'являться такі характеристики, як однорідність і єдина логіка, що прискорюватиме процес високоякісного споживання даних.

Високоякісні навчальні дані мають важливе значення для розробки великих моделей

З технічної точки зору, великі мовні моделі можна розглядати як «машини передбачення мови», які навчаються на великій кількості текстових даних, встановлюють закономірності зв'язків між словами, а потім використовують ці шаблони для передбачення наступного слова або речення тексту.

Transformer є однією з найвідоміших і широко використовуваних архітектур, і ChatGPT та інші запозичили цю технологію.

Простіше кажучи, велика мовна модель – це «гарбуз і совок», і люди можуть говорити все, що захочуть. Отже, коли ви використовуєте таку модель, як ChatGPT, для генерації тексту, виникає відчуття, що де ви бачили наративний шаблон цього текстового вмісту.

Таким чином, від якості навчальних даних безпосередньо залежить, чи є структура навчання великої моделі. Якщо дані містять багато граматичних помилок, погані формулювання, неточні розриви речень, неправдивий зміст тощо, то контент, передбачений моделлю, природно, міститиме ці проблеми.

Наприклад, якщо модель перекладу навчена, але всі дані, що використовуються, є сфабрикованими та неповноцінним контентом, контент, перекладений штучним інтелектом, природно, буде дуже поганим.

Це одна з основних причин, чому ми часто бачимо багато моделей з малими параметрами, але кращою продуктивністю та продуктивністю, ніж високі параметри, і однією з головних причин є використання високоякісних тренувальних даних.

В епоху великих моделей дані відіграють важливу роль

Через важливість даних високоякісні навчальні дані стали цінним ресурсом для OpenAI, Baidu, Anthropic, Cohere та інших вендорів, а також стали «нафтою» в епоху великих моделей.

Ще в березні цього року, коли Китай все ще гарячково проводив алхімічні дослідження великих моделей, Baidu взяв на себе ініціативу у випуску генеративного продукту штучного інтелекту, який порівнювався з ChatGPT - Wenxin Yiyansheng.

На додаток до потужних науково-дослідних можливостей, величезні китайські корпусні дані Baidu, накопичені через пошукові системи протягом більш ніж 20 років, дуже допомогли і зіграли важливу роль у численних ітераціях Wenxin Yiyan, значно випередивши інших вітчизняних виробників.

Високоякісні дані зазвичай включають опубліковані книги, літературні твори, наукові роботи, шкільні підручники, новини з авторитетних ЗМІ, Вікіпедії, енциклопедії Байду тощо, текстові, відео, аудіо та інші дані, перевірені часом та людьми.

Але науково-дослідні інститути з'ясували, що зростання цього типу високоякісних даних відбувається дуже повільно. Наприклад, публікація книг повинна пройти через громіздкі процеси, такі як дослідження ринку, перша чернетка, редагування та повторне рецензування, а публікація книги займає місяці або навіть роки, що значно відстає від зростання попиту на великі моделі навчальних даних.

Судячи з тенденції розвитку великих мовних моделей за останні чотири роки, темпи зростання річного обсягу навчальних даних перевищили 50%. Іншими словами, кожні 1 рік обсяг даних, необхідних для навчання моделі, потрібно подвоювати, щоб досягти покращення продуктивності та функцій**.

З одного боку, це захист конфіденційності користувачів від збору сторонніми організаціями, а має місце крадіжка та неправомірне використання;

З іншого боку, для того, щоб запобігти монополізації та накопиченню важливих даних невеликою кількістю установ, під час досліджень і розробок технологій немає доступних даних.

До 2026 року у нас можуть закінчитися високоякісні навчальні дані

Щоб дослідити проблему споживання навчальних даних, дослідники Epochai змоделювали щорічне виробництво даних про мову та зображення з 2022 по 2100 рік, а потім підрахували загальний обсяг цих даних.

Він також імітує швидкість споживання даних великими моделями, такими як ChatGPT. Нарешті, порівнюються темпи зростання даних і темпи споживання, і робляться такі важливі висновки:

При нинішній тенденції бурхливого розвитку великих моделей всі дані низької якості будуть вичерпані до 2030-2050 років, а високоякісні, швидше за все, будуть спожиті до 2026 року.

До 2030-2060 років всі навчальні дані зображень будуть витрачені, а до 2040 року функціональна ітерація великих моделей може демонструвати ознаки уповільнення через відсутність навчальних даних.

Дослідники використовували дві моделі для розрахунку: перша, використовуючи набори даних, які фактично використовуються в обох сферах великих мовних моделей і моделей зображень, і екстраполюючи їх з історичної статистики, щоб передбачити, коли вони досягнуть піку та середнього споживання.

Друга модель передбачає, скільки нових даних буде генеруватися в глобальному масштабі щороку в майбутньому. Модель базується на трьох змінних: кількості населення планети, проникненні Інтернету та середніх даних, що генеруються на одного користувача Інтернету на рік.

У той же час дослідники використовували дані Організації Об'єднаних Націй, щоб підігнати криву зростання населення, S-подібну функцію, щоб відповідати використанню Інтернету, і зробили просте припущення, що річні вихідні дані на людину в основному однакові, і помножені на три, щоб оцінити кількість нових даних у світі щороку.

Модель точно спрогнозувала щомісячну продуктивність Reddit (відомий форум), тому рівень точності високий**.

Нарешті, дослідники об'єднали дві моделі, щоб дійти вищезазначених висновків.

Дослідники заявили, що хоча ці дані моделюються та оцінюються, існує певний ступінь невизначеності. Однак це тривожний дзвіночок для великої спільноти моделей, і навчальні дані незабаром можуть стати важливим вузьким місцем, яке обмежує розширення та застосування моделей штучного інтелекту.

Постачальники штучного інтелекту повинні заздалегідь розробити ефективні методи регенерації та синтезу даних, щоб уникнути нестачі даних, схожої на обрив, у процесі розробки великих моделей

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити