Пінван повідомив 22 вересня, що згідно зі сторінкою Arxiv, дослідницька група з університету Сучжоу нещодавно запустила модель seq2 seq з відкритим кодом під назвою OpenBA. Повідомляється, що OpenBA — це двомовна асиметрична модель seq2 seq із 15 мільярдами параметрів.Це також перший великий варіант мовної моделі, який приєднався до китайської спільноти моделей з відкритим кодом. Стаття показує, що дослідники використовували ефективну технологію та триетапну стратегію навчання для навчання моделі OpenBA з нуля. Експерименти показують, що OpenBA працює краще, ніж LLaMA-70 B у тесті BELEBELE, краще, ніж BLOOM-176 B у тесті MMLU, і краще, ніж GLM-130 B у тесті C-_ (жорсткий).
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Пінван повідомив 22 вересня, що згідно зі сторінкою Arxiv, дослідницька група з університету Сучжоу нещодавно запустила модель seq2 seq з відкритим кодом під назвою OpenBA. Повідомляється, що OpenBA — це двомовна асиметрична модель seq2 seq із 15 мільярдами параметрів.Це також перший великий варіант мовної моделі, який приєднався до китайської спільноти моделей з відкритим кодом. Стаття показує, що дослідники використовували ефективну технологію та триетапну стратегію навчання для навчання моделі OpenBA з нуля. Експерименти показують, що OpenBA працює краще, ніж LLaMA-70 B у тесті BELEBELE, краще, ніж BLOOM-176 B у тесті MMLU, і краще, ніж GLM-130 B у тесті C-_ (жорсткий).