22 сентября Пинван сообщил, что, согласно странице Arxiv, группа исследований и разработок из Университета Сучжоу недавно запустила модель seq2 seq с открытым исходным кодом под названием OpenBA. Сообщается, что OpenBA — это двуязычная асимметричная модель seq2 seq с 15 миллиардами параметров.Это также первый вариант большой языковой модели, присоединившийся к китайскому сообществу моделей с открытым исходным кодом. В документе показано, что исследователи использовали эффективную технологию и трехэтапную стратегию обучения для обучения модели OpenBA с нуля. Эксперименты показывают, что OpenBA работает лучше, чем LLaMA-70 B в тесте BELEBELE, лучше, чем BLOOM-176 B в тесте MMLU, и лучше, чем GLM-130 B в тесте C-_ (жесткий).
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
22 сентября Пинван сообщил, что, согласно странице Arxiv, группа исследований и разработок из Университета Сучжоу недавно запустила модель seq2 seq с открытым исходным кодом под названием OpenBA. Сообщается, что OpenBA — это двуязычная асимметричная модель seq2 seq с 15 миллиардами параметров.Это также первый вариант большой языковой модели, присоединившийся к китайскому сообществу моделей с открытым исходным кодом. В документе показано, что исследователи использовали эффективную технологию и трехэтапную стратегию обучения для обучения модели OpenBA с нуля. Эксперименты показывают, что OpenBA работает лучше, чем LLaMA-70 B в тесте BELEBELE, лучше, чем BLOOM-176 B в тесте MMLU, и лучше, чем GLM-130 B в тесте C-_ (жесткий).