Pinwan informó el 22 de septiembre que, según la página Arxiv, un equipo de investigación y desarrollo de la Universidad de Suzhou lanzó recientemente un modelo seq2 seq de código abierto llamado OpenBA. Se informa que OpenBA es un modelo bilingüe asimétrico seq2 seq con 15 mil millones de parámetros y también es la primera variante de modelo de lenguaje grande que se une a la comunidad de modelos de código abierto chino. El artículo muestra que los investigadores utilizaron tecnología eficiente y una estrategia de capacitación de tres etapas para entrenar el modelo OpenBA desde cero. Los experimentos muestran que OpenBA funciona mejor que LLaMA-70 B en el punto de referencia BELEBELE, mejor que BLOOM-176 B en el punto de referencia MMLU y mejor que GLM-130 B en el punto de referencia C-_ (duro).
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Pinwan informó el 22 de septiembre que, según la página Arxiv, un equipo de investigación y desarrollo de la Universidad de Suzhou lanzó recientemente un modelo seq2 seq de código abierto llamado OpenBA. Se informa que OpenBA es un modelo bilingüe asimétrico seq2 seq con 15 mil millones de parámetros y también es la primera variante de modelo de lenguaje grande que se une a la comunidad de modelos de código abierto chino. El artículo muestra que los investigadores utilizaron tecnología eficiente y una estrategia de capacitación de tres etapas para entrenar el modelo OpenBA desde cero. Los experimentos muestran que OpenBA funciona mejor que LLaMA-70 B en el punto de referencia BELEBELE, mejor que BLOOM-176 B en el punto de referencia MMLU y mejor que GLM-130 B en el punto de referencia C-_ (duro).