De acordo com um relatório da Qubit em 2 de janeiro, o Noah's Ark Lab da Huawei e outros lançaram em conjunto uma nova arquitetura de modelo de linguagem grande: Pangu-π. Ao melhorar a não linearidade, a arquitetura é melhorada em relação ao Transformer tradicional, o que pode reduzir significativamente o problema de colapso de recursos e tornar a saída do modelo mais expressiva. Relata-se que, no caso de treinamento com os mesmos dados, Pangu-π (7B) supera LLaMA 2 em multitarefa e atinge 10% de velocidade de inferência. SOTA até 1B escala. Ao mesmo tempo, com base nesta arquitetura, a Huawei também refinou um grande modelo financeiro e jurídico chamado "Yunshan". O trabalho é liderado por AI Dacheng Tao.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
De acordo com um relatório da Qubit em 2 de janeiro, o Noah's Ark Lab da Huawei e outros lançaram em conjunto uma nova arquitetura de modelo de linguagem grande: Pangu-π. Ao melhorar a não linearidade, a arquitetura é melhorada em relação ao Transformer tradicional, o que pode reduzir significativamente o problema de colapso de recursos e tornar a saída do modelo mais expressiva. Relata-se que, no caso de treinamento com os mesmos dados, Pangu-π (7B) supera LLaMA 2 em multitarefa e atinge 10% de velocidade de inferência. SOTA até 1B escala. Ao mesmo tempo, com base nesta arquitetura, a Huawei também refinou um grande modelo financeiro e jurídico chamado "Yunshan". O trabalho é liderado por AI Dacheng Tao.