Ante el próximo enfrentamiento de chips de IA, muchas startups de chips están ansiosas por intentar y esperar romper el monopolio de NVIDIA de una sola vez. ¿Y el MI300 de AMD funciona mejor que el H100 cuando se despliega el modelo GPT-4 con una ventana de contexto de 32K?
¡Se acerca el enfrentamiento de chips de IA!
¿Qué les depara el futuro a las startups de desarrolladores de hardware de IA?
El CEO de Tenstorrent, David Bennett, declaró sin rodeos que en nuestra industria, la mayoría de las nuevas empresas terminan cerrando.
¿Cómo sobrevives? Aconseja a las startups que sigan siendo flexibles y eviten limitarse a casos de uso limitados.
Bennett no se refiere a un nicho de mercado, sino a un amplio grupo de decenas de empresas, desde SiMa.ai hasta Cerebras. Juntos, recaudaron miles de millones de dólares en capital de riesgo para enfrentarse al líder del mercado, Nvidia.
Bennett lo sabe. Trabajó en ventas en AMD durante más de una década.
Y su empleador actual, el CEO de Tenstorrent, es Jim Keller, una leyenda del hardware. Desarrolló los procesadores A4 y A4 de Apple que son compatibles con el iPhone 4 y el iPad 2, y fue responsable del trabajo de hardware en los autos autónomos de Tesla de 2016 a 2018.
Tenstorrent, que ha recaudado más de 300 millones de dólares de inversores como Fidelity Ventures y Hyundai Motor, ha seguido el consejo de Bennett de proporcionar todo, desde chips hasta computación en la nube.
Bennett dijo que las nuevas empresas de chips de hoy en día se debaten entre "hacer hardware dedicado a la IA" y "confiar en el modelo prevaleciente".
Desventajas de NVIDIA: Es difícil hacer chips desde cero
La historia de la startup de GPU de chips de IA de NVIDIA en realidad les da una ventaja a las nuevas empresas de chips de hoy.
La unidad de procesamiento de gráficos se diseñó originalmente para impulsar gráficos por computadora, pero fue solo debido a su capacidad para realizar múltiples cálculos en paralelo que dejó su huella en las aplicaciones de IA.
Sin embargo, la sorpresa también trajo una desventaja para Nvidia: ahora es difícil para Nvidia construir chips desde cero sin afectar su negocio de GPU existente, lo que brinda a las nuevas empresas emergentes la oportunidad de construir nuevo hardware construido específicamente para IA.
Por ejemplo, los ingenieros de Tenstorrent diseñaron el chip Grayskull para futuras redes neuronales dispersas, donde se puede eliminar la información redundante.
Aun así, Bennett argumenta que las startups centradas en la construcción de chips para grandes modelos de lenguaje están demasiado atadas a la arquitectura Transformer.
En esta arquitectura, los modelos basados en Transformers predicen esencialmente la siguiente palabra que es más probable que aparezca, por lo que han sido criticados por generar respuestas basadas en la probabilidad en lugar del razonamiento.
Esto significa que es posible que estas arquitecturas de modelos no sobrevivan al auge actual de la IA.
Después de todo, los LLM de hoy en día son relativamente efímeros debido al rápido ritmo de desarrollo. Los modelos que estaban de moda ayer pueden desaparecer en una o dos semanas.
Otra área que es muy arriesgada para las empresas de hardware es la fabricación de chips específicamente para inferencia.
Un representante de esto es el desarrollador de chips D-Matrix, que planea lanzar un chip dedicado a la inferencia en la primera mitad del próximo año.
A primera vista, esta estrategia parece buena. Los usuarios de aplicaciones de IA generativa ahora aprovechan cada vez más los modelos propietarios o de código abierto existentes, en lugar de crear sus propios modelos desde cero.
Debido a esto, muchas personas creen que se debería gastar más dinero en la inferencia de modelos en lugar de en el entrenamiento de modelos.
Si bien esto puede ser un movimiento inteligente desde una perspectiva comercial, Bennett argumenta que centrarse demasiado en la inferencia puede desalentar a los desarrolladores de hardware de servir a otros casos de uso que pueden ser más populares.
Por ejemplo, para los cálculos de baja precisión necesarios para ejecutar el modelo, un chip de inferencia puro es suficiente.
Sin embargo, si los desarrolladores quieren afinar modelos grandes, lo más probable es que necesiten chips que puedan manejar cálculos de mayor precisión.
Chips de última generación, que unen GPU y CPU
Para sobrevivir al próximo enfrentamiento de chips de IA, los desarrolladores de chips deben cambiar la arquitectura de sus chips.
Hoy en día, la mayoría de los chips separan la GPU de la CPU. El primero es capaz de realizar múltiples cálculos simultáneamente, mientras que el segundo es responsable de ejecutar instrucciones más genéricas y gestionar una gama más amplia de operaciones del sistema.
Sin embargo, un número creciente de chips de última generación, como el superchip Grace Hopper de Nvidia y el próximo MI300A de AMD, están uniendo GPU y CPU.
Este diseño permite que la CPU prepare los datos más rápido y cargue los datos en la GPU, lo que acelera el entrenamiento del modelo.
Además, uno de los mayores obstáculos a los que se enfrentan las startups de hardware si quieren romper el dominio del mercado de Nvidia es la ventaja del software.
El software Cuda de Nvidia, que se utiliza para escribir aplicaciones de aprendizaje automático, solo puede ejecutarse en sus propios chips. Y esto encierra efectivamente a los desarrolladores en las GPU de Nvidia.
AMD MI300 ejecuta GPT-4 más 6
¿La hegemonía de Nvidia es tan difícil de sacudir?
Los reporteros de semianálisis Dylan Patel y Myron Xie publicaron recientemente que el MI300 de AMD será significativamente mejor que el H100 de NVIDIA en términos de rendimiento de costos.
Con el lanzamiento del nuevo MI300, AMD está a punto de convertirse en el único competidor de Nvidia y Google en el campo de la inferencia LLM, dijeron.
Por el contrario, empresas como Groq, SambaNova, Intel, Amazon, Microsoft y otras aún no pueden competir con él.
Además, AMD ha estado invirtiendo fuertemente en su propio software RoCM, el ecosistema PyTorch y Triton de OpenAI en respuesta al foso basado en CUDA de NVIDIA.
A medida que empresas como Databricks, AI21, Lamini y Moreph comenzaron a utilizar las GPU de AMD para la inferencia/entrenamiento, el propio ecosistema de AMD se ha vuelto cada vez más completo.
Según los expertos de la industria, el MI300, que tiene más memoria de video, funciona mejor cuando se implementa el modelo GPT-4 con una ventana de contexto de 32K.
En concreto, la ventaja de rendimiento de MI300 sobre H100 está entre el 20 % y el 25 %, en función de la longitud del contexto y de la longitud de la solicitud/número de tokens generados por consulta.
Junto con un precio más bajo, MI300 será significativamente mejor que el H100 de NVIDIA o incluso el H200 en términos de rendimiento de costos.
###
Grandes fabricantes han hecho pedidos
Actualmente, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon y otras empresas han realizado pedidos a AMD por unas 205.000 unidades del MI300.
De estos, 120.000 están dedicados a Microsoft, 25.000 a Meta, 12.000 a Oracle, 8.000 a Google, 5.000 a Amazon y 35.000 a otros.
Y debido al enorme volumen, se espera que el precio de compra del MI300 por parte de Microsoft sea mucho más bajo que el de otros clientes.
Para calcular los ingresos que el MI300 aportará a AMD en el próximo año, es necesario analizarlo desde dos perspectivas: cuánto suministro puede asegurar AMD y cuánto pedirán los principales clientes.
Por el lado de la oferta, la capacidad de producción del MI300 aumentará gradualmente durante el año, pero como la Nvidia B100 comenzará a enviarse en el segundo trimestre y aumentará significativamente en el tercer trimestre con la introducción de la versión refrigerada por aire más rentable, esto afectará en gran medida a los envíos de AMD en el cuarto trimestre.
Al mismo tiempo, también es necesario tener en cuenta la producción de HBM, la producción de CoWoS, la producción de envases y cada acelerador producido con CoWoS por los fabricantes de memorias, incluidos Nvidia, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/Marvell, Microsoft/GUC, etc.
Aun así, la industria todavía espera que el MI300X envíe 110,000 unidades en el cuarto trimestre.
Por el lado de los clientes, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect y Amazon son las principales fuentes de pedidos, pero también hay algunos pedidos de otras partes de la cadena de suministro, incluidos algunos MI300A para aplicaciones basadas en HPC.
En términos de beneficios, Nvidia no muestra signos de recortar los precios, sino que sólo ha aumentado la capacidad/ancho de banda de HBM mientras el precio sigue siendo el mismo. Y en comparación con el margen de beneficio de Nvidia de más del 80%, el margen de beneficio de AMD en el MI300 apenas supera el 50%.
La directora ejecutiva de AMD, Lisa Su, dijo que, según el rápido progreso de la compañía en IA y el compromiso de compra de los clientes de computación en la nube, se espera que los ingresos por GPU de los centros de datos alcancen los 400 millones de dólares en el cuarto trimestre y superen los 2.000 millones de dólares en 2024.
Este aumento también convertirá al MI300 en el producto más rápido en la historia de AMD en alcanzar los 1.000 millones de dólares en ventas.
En este sentido, la industria es más optimista sobre las ventas del MI300X, que se espera que alcancen los 3.500 millones de dólares.
A juzgar por la cuota de mercado actual de AMD de menos del 0,1% en el espacio de formación e inferencia de LLM, la cuota de mercado de AMD en el campo de los centros de datos seguirá creciendo de forma constante.
Recursos:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¿La tradición de AMD MI300 Nvidia H100? El rendimiento de GPT-4 supera el 25% y el enfrentamiento de chips de IA está a punto de comenzar
Fuente del artículo: New Zhiyuan
¡Se acerca el enfrentamiento de chips de IA!
¿Qué les depara el futuro a las startups de desarrolladores de hardware de IA?
El CEO de Tenstorrent, David Bennett, declaró sin rodeos que en nuestra industria, la mayoría de las nuevas empresas terminan cerrando.
¿Cómo sobrevives? Aconseja a las startups que sigan siendo flexibles y eviten limitarse a casos de uso limitados.
Bennett no se refiere a un nicho de mercado, sino a un amplio grupo de decenas de empresas, desde SiMa.ai hasta Cerebras. Juntos, recaudaron miles de millones de dólares en capital de riesgo para enfrentarse al líder del mercado, Nvidia.
Bennett lo sabe. Trabajó en ventas en AMD durante más de una década.
Y su empleador actual, el CEO de Tenstorrent, es Jim Keller, una leyenda del hardware. Desarrolló los procesadores A4 y A4 de Apple que son compatibles con el iPhone 4 y el iPad 2, y fue responsable del trabajo de hardware en los autos autónomos de Tesla de 2016 a 2018.
Bennett dijo que las nuevas empresas de chips de hoy en día se debaten entre "hacer hardware dedicado a la IA" y "confiar en el modelo prevaleciente".
Desventajas de NVIDIA: Es difícil hacer chips desde cero
La historia de la startup de GPU de chips de IA de NVIDIA en realidad les da una ventaja a las nuevas empresas de chips de hoy.
La unidad de procesamiento de gráficos se diseñó originalmente para impulsar gráficos por computadora, pero fue solo debido a su capacidad para realizar múltiples cálculos en paralelo que dejó su huella en las aplicaciones de IA.
Sin embargo, la sorpresa también trajo una desventaja para Nvidia: ahora es difícil para Nvidia construir chips desde cero sin afectar su negocio de GPU existente, lo que brinda a las nuevas empresas emergentes la oportunidad de construir nuevo hardware construido específicamente para IA.
Por ejemplo, los ingenieros de Tenstorrent diseñaron el chip Grayskull para futuras redes neuronales dispersas, donde se puede eliminar la información redundante.
En esta arquitectura, los modelos basados en Transformers predicen esencialmente la siguiente palabra que es más probable que aparezca, por lo que han sido criticados por generar respuestas basadas en la probabilidad en lugar del razonamiento.
Esto significa que es posible que estas arquitecturas de modelos no sobrevivan al auge actual de la IA.
Después de todo, los LLM de hoy en día son relativamente efímeros debido al rápido ritmo de desarrollo. Los modelos que estaban de moda ayer pueden desaparecer en una o dos semanas.
Otra área que es muy arriesgada para las empresas de hardware es la fabricación de chips específicamente para inferencia.
Un representante de esto es el desarrollador de chips D-Matrix, que planea lanzar un chip dedicado a la inferencia en la primera mitad del próximo año.
Debido a esto, muchas personas creen que se debería gastar más dinero en la inferencia de modelos en lugar de en el entrenamiento de modelos.
Si bien esto puede ser un movimiento inteligente desde una perspectiva comercial, Bennett argumenta que centrarse demasiado en la inferencia puede desalentar a los desarrolladores de hardware de servir a otros casos de uso que pueden ser más populares.
Por ejemplo, para los cálculos de baja precisión necesarios para ejecutar el modelo, un chip de inferencia puro es suficiente.
Sin embargo, si los desarrolladores quieren afinar modelos grandes, lo más probable es que necesiten chips que puedan manejar cálculos de mayor precisión.
Chips de última generación, que unen GPU y CPU
Para sobrevivir al próximo enfrentamiento de chips de IA, los desarrolladores de chips deben cambiar la arquitectura de sus chips.
Hoy en día, la mayoría de los chips separan la GPU de la CPU. El primero es capaz de realizar múltiples cálculos simultáneamente, mientras que el segundo es responsable de ejecutar instrucciones más genéricas y gestionar una gama más amplia de operaciones del sistema.
Sin embargo, un número creciente de chips de última generación, como el superchip Grace Hopper de Nvidia y el próximo MI300A de AMD, están uniendo GPU y CPU.
Este diseño permite que la CPU prepare los datos más rápido y cargue los datos en la GPU, lo que acelera el entrenamiento del modelo.
Además, uno de los mayores obstáculos a los que se enfrentan las startups de hardware si quieren romper el dominio del mercado de Nvidia es la ventaja del software.
El software Cuda de Nvidia, que se utiliza para escribir aplicaciones de aprendizaje automático, solo puede ejecutarse en sus propios chips. Y esto encierra efectivamente a los desarrolladores en las GPU de Nvidia.
AMD MI300 ejecuta GPT-4 más 6
¿La hegemonía de Nvidia es tan difícil de sacudir?
Los reporteros de semianálisis Dylan Patel y Myron Xie publicaron recientemente que el MI300 de AMD será significativamente mejor que el H100 de NVIDIA en términos de rendimiento de costos.
Por el contrario, empresas como Groq, SambaNova, Intel, Amazon, Microsoft y otras aún no pueden competir con él.
Además, AMD ha estado invirtiendo fuertemente en su propio software RoCM, el ecosistema PyTorch y Triton de OpenAI en respuesta al foso basado en CUDA de NVIDIA.
A medida que empresas como Databricks, AI21, Lamini y Moreph comenzaron a utilizar las GPU de AMD para la inferencia/entrenamiento, el propio ecosistema de AMD se ha vuelto cada vez más completo.
Según los expertos de la industria, el MI300, que tiene más memoria de video, funciona mejor cuando se implementa el modelo GPT-4 con una ventana de contexto de 32K.
Junto con un precio más bajo, MI300 será significativamente mejor que el H100 de NVIDIA o incluso el H200 en términos de rendimiento de costos.
Grandes fabricantes han hecho pedidos
Actualmente, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon y otras empresas han realizado pedidos a AMD por unas 205.000 unidades del MI300.
De estos, 120.000 están dedicados a Microsoft, 25.000 a Meta, 12.000 a Oracle, 8.000 a Google, 5.000 a Amazon y 35.000 a otros.
Y debido al enorme volumen, se espera que el precio de compra del MI300 por parte de Microsoft sea mucho más bajo que el de otros clientes.
Por el lado de la oferta, la capacidad de producción del MI300 aumentará gradualmente durante el año, pero como la Nvidia B100 comenzará a enviarse en el segundo trimestre y aumentará significativamente en el tercer trimestre con la introducción de la versión refrigerada por aire más rentable, esto afectará en gran medida a los envíos de AMD en el cuarto trimestre.
Al mismo tiempo, también es necesario tener en cuenta la producción de HBM, la producción de CoWoS, la producción de envases y cada acelerador producido con CoWoS por los fabricantes de memorias, incluidos Nvidia, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/Marvell, Microsoft/GUC, etc.
Aun así, la industria todavía espera que el MI300X envíe 110,000 unidades en el cuarto trimestre.
En términos de beneficios, Nvidia no muestra signos de recortar los precios, sino que sólo ha aumentado la capacidad/ancho de banda de HBM mientras el precio sigue siendo el mismo. Y en comparación con el margen de beneficio de Nvidia de más del 80%, el margen de beneficio de AMD en el MI300 apenas supera el 50%.
Este aumento también convertirá al MI300 en el producto más rápido en la historia de AMD en alcanzar los 1.000 millones de dólares en ventas.
En este sentido, la industria es más optimista sobre las ventas del MI300X, que se espera que alcancen los 3.500 millones de dólares.
A juzgar por la cuota de mercado actual de AMD de menos del 0,1% en el espacio de formación e inferencia de LLM, la cuota de mercado de AMD en el campo de los centros de datos seguirá creciendo de forma constante.