Прошел почти год с тех пор, как большая модель попала в поле зрения людей, и под волной больших моделей ИИ крупные технологические компании бросились запускать свои собственные продукты для больших моделей. При этом предприятия различных отраслей также уделяют пристальное внимание крупным моделям.
Если говорить о том, что ситуация с крупными производителями, запускающими крупносерийные модельные изделия для формирования «войны 100 моделей», является первой половиной «битвы» крупных моделей, то вторая половина этой «битвы» будет больше сосредоточена на интеграционной способности крупногабаритных модельных изделий, а также на направлении развития платформы и индустриализации.
Вторая половина игры, платформизация и индустриализация станут ключевым треком
Если взять ChatGPT, «создателя» большой модели, то ChatGPT является приложением и может рассматриваться как приложение, в то время как GPT4 является большой моделью, строящей экологию, аналогичную большой модели, чтобы предприятия могли строить свои собственные большие модели на основе этого.
Из приведенных выше кейсов видно, что в последние почти год все компании сосредоточились на полировке продуктов, похожих на «ChatGPT», причем лендинг находится на стороне приложения, в то время как на стороне предприятия отрасли до сих пор не хватает платформы, позволяющей предприятиям гибко называть каждую крупную модель продукта, либо открывать большую модель под собственные нужды на основе определенного продукта. По словам Ли Гана (Li Gang), вице-президента и технического директора Digital China, если крупная модель хочет добиться взрывного роста приложений на стороне предприятия, ей нужна одна или даже несколько платформ с открытым исходным кодом и открытых больших моделей.
Когда дело доходит до применения больших моделей корпоративного уровня, мы должны упомянуть отраслевую большую модель, наблюдение за титановыми СМИ показало, что текущая большая модель промышленного уровня все еще находится на начальной стадии разработки, хотя есть много компаний, которые запустили отраслевую большую модель, но приложение не очень хорошее.
Если взять в качестве примера быстрорастущую финансовую индустрию, то в марте этого года Bloomberg запустил BloombergGPT — крупную языковую модель для финансовой индустрии, которая привлекла внимание рынка к крупным моделям в финансовых вертикалях, а в июне Колумбийский университет и Нью-Йоркский университет в Шанхае запустили FinGPT.
В Китае в июле Huawei выпустила модель Pangu, одна из которых является одной из нескольких общеотраслевых моделей. В сентябре Ant Group официально выпустила свою собственную «Базовую модель Муравья» и индивидуальную «Финансовую модель Муравья» на этой основе.
Ли Ган рассказал Titanium Media, что типы больших моделей на рынке в основном делятся на несколько категорий, одна из них - общая базовая модель, вообще говоря, эти большие модели строят базу данных через корпус естественного языка, и после очистки, обучения и других операций создается базовая большая модель, «Такого рода модели, чем больше корпус, чем больше количество параметров, тем сильнее способность». — сказал Ли Ган.
Другой тип – отраслевая модель, которая является высокопрофессиональной и требует большого количества отраслевых баз знаний: «В настоящее время корпус этой отраслевой базы знаний нужно контролировать на 20%, не больше и не меньше». Ли Ган подчеркнул: «Если он превышает 20%, обученная крупная модель может «не уметь говорить», вызывая коммуникационные барьеры, а менее 20% могут не обладать профессионализмом отрасли». "
Слой "PaaS" для построения больших моделей
Точно так же, как облачные вычисления делятся на IaaS, PaaS и SaaS, по мнению Хуан Фу Цзыцяо, генерального менеджера отдела стратегического маркетинга Digital China, в эпоху больших моделей предприятиям также нужна платформа PaaS, аналогичная облачной эре.
Чтобы создать платформу для предприятий, чтобы лучше использовать большие модели, Digital China недавно официально выпустила платформу Shenzhou Wenxue, говоря о значении выпуска платформы, Ли Ган сказал Titanium Media: «С платформой Shenzhou Wenxue в качестве ядра мы делаем не базовую большую модель, а интеграцию, разработку и доставку приложений платформы большой модели, чтобы ускорить корпоративные инновации в области искусственного интеллекта; мы являемся сервисным партнером больших данных, чтобы ускорить модернизацию управления корпоративными данными; мы занимаемся экологическими связями, модельными рынками, витринами данных, App Store, чтобы ускорить промышленные инновации и экологический прорыв. "
В начале этого года HUAWEI CLOUD выпустила большую модель Pangu и оценила ее по уровням L0, L1 и L2. Согласно HUAWEI CLOUD, L0 относится к базовой модели, L1 — к отраслевой модели, а L2 — к модели вывода для более разделенных сценариев.
С точки зрения базовых больших моделей, возьмем в качестве примера большую модель графовой сети, большая модель может быть адаптирована к нескольким сценариям, таким как оптимизация процессов, прогнозирование временных рядов и интеллектуальный анализ, и может применяться в нескольких отраслях, таких как финансы, добыча угля и производство.
Что касается отраслевых моделей, HUAWEI CLOUD запустила такие отраслевые модели, как Финансовая модель Паньгу, Модель шахты Паньгу, Модель электроэнергетики Паньгу, Модель контроля качества производства Паньгу и Модель фармацевтических молекул Паньгу.
В части моделей вывода, например, на основе модели мощности Pangu, HUAWEI CLOUD запустила модель инспекции мощности Pangu для сценариев инспекции мощности БПЛА через предварительное обучение + тонкую настройку последующих задач, которая решает задачи обучения на малых выборках, активного обучения и инкрементального обучения в интеллектуальной системе контроля БПЛА (дефектообнаружение), а также решает проблемы большой рабочей нагрузки аннотирования массивов данных и широкого спектра дефектов.
Выше приведено понимание HUAWEI CLOUD больших моделей и некоторых отраслевых макетов HUAWEI CLOUD. Исходя из этого, Хуанфу Цзыцяо сказал Titanium Media, что образовательная платформа Digital China будет играть роль «преобразователя», помогая предприятиям переходить от сценариев отраслевых приложений L0 к L2, «предоставляя предприятиям возможность предоставлять платформу PaaS, аналогичную эпохе облачных вычислений». — сказал Хуанфу Цзыцяо.
Так совпало, что технический директор Baidu Ван Хайфэн (Wang Haifeng) также публично заявил, что перед лицом вызова крупномасштабной индустриализации моделей отрасль нуждается в аналогичной модели производства микросхем, чтобы принять модель «интенсивного производства и платформенного применения», то есть предприятия с комплексными преимуществами в алгоритмах, вычислительной мощности и данных будут инкапсулировать сложный процесс производства моделей и предоставлять крупномасштабные модельные услуги для тысяч отраслей через низкопороговую и высокоэффективную производственную платформу.
По данным Titanium Media, в настоящее время этот путь индустриализации был проверен в практике крупной модельной индустрии Wenxin, Baidu и различных ведущих предприятий отрасли, учреждений для создания большой модели, включая энергетику, финансы, аэрокосмическую промышленность, производство, средства массовой информации, город, социальные науки, кино и телевидение и другие отрасли.
Цель - более низкая стоимость и более низкий порог
Несмотря на то, что большие модели постепенно проникли во все сферы жизни, с точки зрения разработки больших моделей на данном этапе стоимость использования больших моделей по-прежнему непомерно высока для многих предприятий для пользователей корпоративного уровня.
Взяв GPT-3 в качестве примера, Nvidia сообщила, что для обучения GPT-3 со 175 миллиардами параметров требуется 34 дня, используя 1024 чипа графического процессора A100, а стоимость одного обучения достигает 12 миллионов долларов. Для обучения сверхкрупномасштабных моделей ИИ Microsoft даже построила один из пяти лучших в мире суперкомпьютеров для OpenAI.
В то же время, согласно отчету Guosheng Securities «Сколько вычислительной мощности нужно ChatGPT», стоимость предварительного обучения больших моделей очень высока, а стоимость одного обучения превышает один миллион долларов США. Эта плата не только покрывает архитектуру модели, выбор алгоритма и выбор обучающих данных, но также включает в себя большой объем вычислительных ресурсов и времени, необходимых для обучения модели. А с обновлением версии большой модели стоимость ее обучения также возрастает в геометрической прогрессии.
Робин Ли, основатель, председатель и генеральный директор Baidu, также отметил: «Ни одна компания не может сделать такую большую языковую модель за несколько месяцев». Глубокое обучение и обработка естественного языка требуют многих лет упорства и накопления, и не могут быть достигнуты быстро. "
В условиях такой дороговизны использования большой модели и использования порога, она неподъемна для обычных предприятий, и именно из-за этого до сих пор, на рынке нет настоящей идеальной посадки отраслевой крупномодельной продукции. В связи с этим Хуанфу Цзыцяо сказал, что стоимость использования больших моделей является самым большим препятствием для многих предприятий в применении больших моделей для расширения возможностей своего бизнеса, и позиционирование платформы Shenzhou Wenxue заключается в том, чтобы позволить предприятиям использовать большие модельные продукты по более низкой стоимости выбора через открытый исходный код. «Есть две основные части: одна — это платформа, а другая — готовое сценарное приложение. Хуанфу Цзыцяо сказал Titanium Media: «С одной стороны, эти две части надеются собрать больше экологических партнеров для совместного расширения возможностей пользователей, а с другой стороны, они надеются, что предприятия смогут использовать крупномасштабные модели продуктов быстрее и удобнее». "
В отрасли существует консенсус по снижению стоимости и порога больших моделей, будь то «труднодоступный» графический процессор, или высокие счета за электроэнергию, которые являются пороговыми значениями для предприятий для применения больших моделей на данном этапе, и таких как Shenzhou Wenxue, Baidu Qianfan, Kunlun Wanwei и т. д., «разных стилей», но одна и та же цель - появление продуктов платформенного уровня, которые «помогают большим моделям приземлиться», а также увеличение числа партнеров в экосистеме больших моделей, порог и стоимость больших моделей корпоративных приложений будут еще больше снижены. Мы также будем все ближе и ближе подходить к инклюзивности отраслевой модели.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Начнется вторая половина «войны 100 моделей», и платформа станет ключевой
Первоисточник: Titanium Media
Прошел почти год с тех пор, как большая модель попала в поле зрения людей, и под волной больших моделей ИИ крупные технологические компании бросились запускать свои собственные продукты для больших моделей. При этом предприятия различных отраслей также уделяют пристальное внимание крупным моделям.
Если говорить о том, что ситуация с крупными производителями, запускающими крупносерийные модельные изделия для формирования «войны 100 моделей», является первой половиной «битвы» крупных моделей, то вторая половина этой «битвы» будет больше сосредоточена на интеграционной способности крупногабаритных модельных изделий, а также на направлении развития платформы и индустриализации.
Вторая половина игры, платформизация и индустриализация станут ключевым треком
Если взять ChatGPT, «создателя» большой модели, то ChatGPT является приложением и может рассматриваться как приложение, в то время как GPT4 является большой моделью, строящей экологию, аналогичную большой модели, чтобы предприятия могли строить свои собственные большие модели на основе этого.
Из приведенных выше кейсов видно, что в последние почти год все компании сосредоточились на полировке продуктов, похожих на «ChatGPT», причем лендинг находится на стороне приложения, в то время как на стороне предприятия отрасли до сих пор не хватает платформы, позволяющей предприятиям гибко называть каждую крупную модель продукта, либо открывать большую модель под собственные нужды на основе определенного продукта. По словам Ли Гана (Li Gang), вице-президента и технического директора Digital China, если крупная модель хочет добиться взрывного роста приложений на стороне предприятия, ей нужна одна или даже несколько платформ с открытым исходным кодом и открытых больших моделей.
Когда дело доходит до применения больших моделей корпоративного уровня, мы должны упомянуть отраслевую большую модель, наблюдение за титановыми СМИ показало, что текущая большая модель промышленного уровня все еще находится на начальной стадии разработки, хотя есть много компаний, которые запустили отраслевую большую модель, но приложение не очень хорошее.
Если взять в качестве примера быстрорастущую финансовую индустрию, то в марте этого года Bloomberg запустил BloombergGPT — крупную языковую модель для финансовой индустрии, которая привлекла внимание рынка к крупным моделям в финансовых вертикалях, а в июне Колумбийский университет и Нью-Йоркский университет в Шанхае запустили FinGPT.
В Китае в июле Huawei выпустила модель Pangu, одна из которых является одной из нескольких общеотраслевых моделей. В сентябре Ant Group официально выпустила свою собственную «Базовую модель Муравья» и индивидуальную «Финансовую модель Муравья» на этой основе.
Ли Ган рассказал Titanium Media, что типы больших моделей на рынке в основном делятся на несколько категорий, одна из них - общая базовая модель, вообще говоря, эти большие модели строят базу данных через корпус естественного языка, и после очистки, обучения и других операций создается базовая большая модель, «Такого рода модели, чем больше корпус, чем больше количество параметров, тем сильнее способность». — сказал Ли Ган.
Другой тип – отраслевая модель, которая является высокопрофессиональной и требует большого количества отраслевых баз знаний: «В настоящее время корпус этой отраслевой базы знаний нужно контролировать на 20%, не больше и не меньше». Ли Ган подчеркнул: «Если он превышает 20%, обученная крупная модель может «не уметь говорить», вызывая коммуникационные барьеры, а менее 20% могут не обладать профессионализмом отрасли». "
Слой "PaaS" для построения больших моделей
Точно так же, как облачные вычисления делятся на IaaS, PaaS и SaaS, по мнению Хуан Фу Цзыцяо, генерального менеджера отдела стратегического маркетинга Digital China, в эпоху больших моделей предприятиям также нужна платформа PaaS, аналогичная облачной эре.
Чтобы создать платформу для предприятий, чтобы лучше использовать большие модели, Digital China недавно официально выпустила платформу Shenzhou Wenxue, говоря о значении выпуска платформы, Ли Ган сказал Titanium Media: «С платформой Shenzhou Wenxue в качестве ядра мы делаем не базовую большую модель, а интеграцию, разработку и доставку приложений платформы большой модели, чтобы ускорить корпоративные инновации в области искусственного интеллекта; мы являемся сервисным партнером больших данных, чтобы ускорить модернизацию управления корпоративными данными; мы занимаемся экологическими связями, модельными рынками, витринами данных, App Store, чтобы ускорить промышленные инновации и экологический прорыв. "
В начале этого года HUAWEI CLOUD выпустила большую модель Pangu и оценила ее по уровням L0, L1 и L2. Согласно HUAWEI CLOUD, L0 относится к базовой модели, L1 — к отраслевой модели, а L2 — к модели вывода для более разделенных сценариев.
С точки зрения базовых больших моделей, возьмем в качестве примера большую модель графовой сети, большая модель может быть адаптирована к нескольким сценариям, таким как оптимизация процессов, прогнозирование временных рядов и интеллектуальный анализ, и может применяться в нескольких отраслях, таких как финансы, добыча угля и производство.
Что касается отраслевых моделей, HUAWEI CLOUD запустила такие отраслевые модели, как Финансовая модель Паньгу, Модель шахты Паньгу, Модель электроэнергетики Паньгу, Модель контроля качества производства Паньгу и Модель фармацевтических молекул Паньгу.
В части моделей вывода, например, на основе модели мощности Pangu, HUAWEI CLOUD запустила модель инспекции мощности Pangu для сценариев инспекции мощности БПЛА через предварительное обучение + тонкую настройку последующих задач, которая решает задачи обучения на малых выборках, активного обучения и инкрементального обучения в интеллектуальной системе контроля БПЛА (дефектообнаружение), а также решает проблемы большой рабочей нагрузки аннотирования массивов данных и широкого спектра дефектов.
Выше приведено понимание HUAWEI CLOUD больших моделей и некоторых отраслевых макетов HUAWEI CLOUD. Исходя из этого, Хуанфу Цзыцяо сказал Titanium Media, что образовательная платформа Digital China будет играть роль «преобразователя», помогая предприятиям переходить от сценариев отраслевых приложений L0 к L2, «предоставляя предприятиям возможность предоставлять платформу PaaS, аналогичную эпохе облачных вычислений». — сказал Хуанфу Цзыцяо.
Так совпало, что технический директор Baidu Ван Хайфэн (Wang Haifeng) также публично заявил, что перед лицом вызова крупномасштабной индустриализации моделей отрасль нуждается в аналогичной модели производства микросхем, чтобы принять модель «интенсивного производства и платформенного применения», то есть предприятия с комплексными преимуществами в алгоритмах, вычислительной мощности и данных будут инкапсулировать сложный процесс производства моделей и предоставлять крупномасштабные модельные услуги для тысяч отраслей через низкопороговую и высокоэффективную производственную платформу.
По данным Titanium Media, в настоящее время этот путь индустриализации был проверен в практике крупной модельной индустрии Wenxin, Baidu и различных ведущих предприятий отрасли, учреждений для создания большой модели, включая энергетику, финансы, аэрокосмическую промышленность, производство, средства массовой информации, город, социальные науки, кино и телевидение и другие отрасли.
Цель - более низкая стоимость и более низкий порог
Несмотря на то, что большие модели постепенно проникли во все сферы жизни, с точки зрения разработки больших моделей на данном этапе стоимость использования больших моделей по-прежнему непомерно высока для многих предприятий для пользователей корпоративного уровня.
Взяв GPT-3 в качестве примера, Nvidia сообщила, что для обучения GPT-3 со 175 миллиардами параметров требуется 34 дня, используя 1024 чипа графического процессора A100, а стоимость одного обучения достигает 12 миллионов долларов. Для обучения сверхкрупномасштабных моделей ИИ Microsoft даже построила один из пяти лучших в мире суперкомпьютеров для OpenAI.
В то же время, согласно отчету Guosheng Securities «Сколько вычислительной мощности нужно ChatGPT», стоимость предварительного обучения больших моделей очень высока, а стоимость одного обучения превышает один миллион долларов США. Эта плата не только покрывает архитектуру модели, выбор алгоритма и выбор обучающих данных, но также включает в себя большой объем вычислительных ресурсов и времени, необходимых для обучения модели. А с обновлением версии большой модели стоимость ее обучения также возрастает в геометрической прогрессии.
Робин Ли, основатель, председатель и генеральный директор Baidu, также отметил: «Ни одна компания не может сделать такую большую языковую модель за несколько месяцев». Глубокое обучение и обработка естественного языка требуют многих лет упорства и накопления, и не могут быть достигнуты быстро. "
В условиях такой дороговизны использования большой модели и использования порога, она неподъемна для обычных предприятий, и именно из-за этого до сих пор, на рынке нет настоящей идеальной посадки отраслевой крупномодельной продукции. В связи с этим Хуанфу Цзыцяо сказал, что стоимость использования больших моделей является самым большим препятствием для многих предприятий в применении больших моделей для расширения возможностей своего бизнеса, и позиционирование платформы Shenzhou Wenxue заключается в том, чтобы позволить предприятиям использовать большие модельные продукты по более низкой стоимости выбора через открытый исходный код. «Есть две основные части: одна — это платформа, а другая — готовое сценарное приложение. Хуанфу Цзыцяо сказал Titanium Media: «С одной стороны, эти две части надеются собрать больше экологических партнеров для совместного расширения возможностей пользователей, а с другой стороны, они надеются, что предприятия смогут использовать крупномасштабные модели продуктов быстрее и удобнее». "
В отрасли существует консенсус по снижению стоимости и порога больших моделей, будь то «труднодоступный» графический процессор, или высокие счета за электроэнергию, которые являются пороговыми значениями для предприятий для применения больших моделей на данном этапе, и таких как Shenzhou Wenxue, Baidu Qianfan, Kunlun Wanwei и т. д., «разных стилей», но одна и та же цель - появление продуктов платформенного уровня, которые «помогают большим моделям приземлиться», а также увеличение числа партнеров в экосистеме больших моделей, порог и стоимость больших моделей корпоративных приложений будут еще больше снижены. Мы также будем все ближе и ближе подходить к инклюзивности отраслевой модели.