DailyNews
vip

De acordo com o relatório do TechWeb de 19 de setembro, o sistema de avaliação oficial nacional Flag_ (Libra) anunciou os resultados da avaliação dos últimos grandes modelos da lista de setembro. Com base no conjunto de dados de avaliação subjetiva mais recente do CLCC v2.0, a lista Flag_ (Libra) de setembro concentra-se na avaliação de 7 modelos de diálogo de código aberto que se tornaram populares recentemente. A julgar pelos resultados gerais, Baichuan2-13 b-chat, Qwen-7 b-chat e Baichuan2-7 b-chat estão entre os melhores, com taxas de precisão superiores a 65%. Na lista de modelos básicos, os resultados da avaliação objetiva de Baichuan 2, Qwen, InternLM e Aquila superaram os modelos Llama e Llama2 do mesmo nível de parâmetro. Na lista de modelos SFT, Baichuan 2-13 B-chat, YuLan-Chat-2-13 B e AquilaChat-7 B estão entre os três primeiros. Em ambas as listas de avaliação objetiva, o Baichuan 2 apresentou excelente desempenho, e o teste do modelo básico superou o Llama 2 nos campos chinês e inglês. É relatado que Flag_ (Libra) é um grande sistema de avaliação de modelos e uma plataforma aberta lançada pelo Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim. Seu objetivo é estabelecer parâmetros de avaliação, métodos e conjuntos de ferramentas científicos, justos e abertos para ajudar os pesquisadores a avaliar de forma abrangente modelos básicos e Desempenho de algoritmos de treinamento. Flag_ O grande sistema de avaliação de modelos de linguagem inclui atualmente 6 tarefas principais de avaliação, quase 30 conjuntos de dados de avaliação e mais de 100.000 questões de avaliação.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)