Согласно отчету Pinplay от 19 октября, страница Arxiv показывает, что Microsoft Research совместно с Университетом Китайской академии наук и Университетом Цинхуа совместно выпустили статью и анонсировали масштабируемую и стабильную 1-битную архитектуру Transformer BitNet. BitNet предназначен для больших языковых моделей. Исследовательская группа заявила, что для обучения 1-битного веса команда представила BitLinear как nn. Альтернатива линейному слою. Результаты экспериментов показывают, что BitNet достигает конкурентоспособной производительности в задачах языкового моделирования при значительном снижении объема памяти и энергопотребления. Кроме того, BitNet представляет собой закон масштабирования, аналогичный закону преобразователей полной точности, показывая, что у него есть потенциал для масштабирования до более крупных языковых моделей, сохраняя при этом преимущества в эффективности и производительности.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Согласно отчету Pinplay от 19 октября, страница Arxiv показывает, что Microsoft Research совместно с Университетом Китайской академии наук и Университетом Цинхуа совместно выпустили статью и анонсировали масштабируемую и стабильную 1-битную архитектуру Transformer BitNet. BitNet предназначен для больших языковых моделей. Исследовательская группа заявила, что для обучения 1-битного веса команда представила BitLinear как nn. Альтернатива линейному слою. Результаты экспериментов показывают, что BitNet достигает конкурентоспособной производительности в задачах языкового моделирования при значительном снижении объема памяти и энергопотребления. Кроме того, BitNet представляет собой закон масштабирования, аналогичный закону преобразователей полной точности, показывая, что у него есть потенциал для масштабирования до более крупных языковых моделей, сохраняя при этом преимущества в эффективности и производительности.