Dalam menghadapi pertarungan chip AI yang akan datang, banyak startup chip sangat ingin mencoba dan berharap untuk mematahkan monopoli NVIDIA dalam satu gerakan. Dan AMD MI300 benar-benar bekerja lebih baik daripada H100 ketika menggunakan model GPT-4 dengan jendela konteks 32K?
Pertarungan chip AI akan datang!
Apa yang akan terjadi di masa depan untuk startup pengembang perangkat keras AI?
CEO Tenstorrent David Bennett secara blak-blakan menyatakan bahwa di industri kami, sebagian besar startup akhirnya gulung tikar.
Bagaimana Anda bertahan? Dia menyarankan startup untuk tetap fleksibel dan menghindari membatasi diri pada kasus penggunaan yang sempit.
Bennett tidak mengacu pada ceruk pasar, tetapi pada kelompok besar yang terdiri dari lusinan perusahaan, dari SiMa.ai hingga Cerebras. Bersama-sama, mereka mengumpulkan miliaran dolar dalam modal ventura untuk menghadapi pemimpin pasar, Nvidia.
Bennett tahu ini. Dia bekerja di bagian penjualan di AMD selama lebih dari satu dekade.
Dan majikannya saat ini, CEO Tenstorrent, adalah Jim Keller, legenda perangkat keras. Dia mengembangkan prosesor A4 dan A4 Apple yang mendukung iPhone 4 dan iPad 2, dan bertanggung jawab atas pekerjaan perangkat keras pada mobil self-driving Tesla dari 2016 hingga 2018.
Tenstorrent, yang telah mengumpulkan lebih dari $ 300 juta dari investor seperti Fidelity Ventures dan Hyundai Motor, telah mengikuti saran Bennett untuk menyediakan segalanya mulai dari chip hingga komputasi awan.
Bennett mengatakan bahwa startup chip saat ini secara kasar terpecah antara "membuat perangkat keras khusus untuk AI" dan "mengandalkan model yang berlaku".
** Kekurangan NVIDIA: Sulit membuat chip dari awal **
Kisah startup GPU chip AI NVIDIA benar-benar memberi startup chip saat ini keunggulan.
Unit pemrosesan grafis pada awalnya dirancang untuk memberi daya pada grafik komputer, tetapi hanya karena kemampuannya untuk melakukan beberapa perhitungan secara paralel, ia membuat tanda dalam aplikasi AI.
Namun, kejutan itu juga membawa kerugian bagi Nvidia – sekarang sulit bagi Nvidia untuk membangun chip dari awal tanpa mempengaruhi bisnis GPU yang ada, yang memberi peluang kepada startup baru untuk membangun perangkat keras baru yang dibangun khusus untuk AI.
Misalnya, insinyur Tenstorrent merancang chip Grayskull untuk jaringan saraf jarang di masa depan, di mana informasi yang berlebihan dapat dihapus.
Namun, Bennett berpendapat bahwa startup yang berfokus pada pembuatan chip untuk model bahasa besar terlalu terkait erat dengan arsitektur Transformer.
Dalam arsitektur ini, model berbasis Transformer pada dasarnya memprediksi kata berikutnya yang paling mungkin muncul, sehingga mereka telah dikritik karena menghasilkan tanggapan berdasarkan probabilitas daripada penalaran.
Ini berarti bahwa arsitektur model ini mungkin tidak bertahan dari ledakan AI saat ini.
Bagaimanapun, LLM saat ini relatif berumur pendek karena laju perkembangan yang cepat. Model yang panas kemarin mungkin hilang dalam satu atau dua minggu.
Bidang lain yang sangat berisiko bagi perusahaan perangkat keras adalah pembuatan chip khusus untuk inferensi.
Perwakilan dari ini adalah pengembang chip D-Matrix, yang berencana untuk merilis chip khusus untuk inferensi pada paruh pertama tahun depan.
Sekilas, strategi ini sepertinya bagus. Pengguna aplikasi AI generatif sekarang semakin memanfaatkan model proprietary atau open-source yang ada, daripada membangun model mereka sendiri dari awal.
Karena itu, banyak orang percaya bahwa lebih banyak uang harus dihabiskan untuk inferensi model daripada pada pelatihan model.
Meskipun ini mungkin merupakan langkah cerdas dari perspektif bisnis, Bennett berpendapat bahwa berfokus terlalu sempit pada inferensi dapat mencegah pengembang perangkat keras melayani kasus penggunaan lain yang mungkin lebih populer.
Misalnya, untuk perhitungan presisi rendah yang diperlukan untuk menjalankan model, chip inferensi murni sudah cukup.
Namun, jika pengembang ingin menyempurnakan model besar, kemungkinan besar mereka akan membutuhkan chip yang dapat menangani perhitungan presisi yang lebih tinggi.
** Chip mutakhir, menyatukan GPU dan CPU **
Untuk bertahan dari pertarungan chip AI yang akan datang, pengembang chip perlu mengubah arsitektur chip mereka.
Saat ini, sebagian besar chip memisahkan GPU dari CPU. Yang pertama mampu melakukan beberapa perhitungan secara bersamaan, sedangkan yang kedua bertanggung jawab untuk menjalankan instruksi yang lebih umum dan mengelola berbagai operasi sistem yang lebih luas.
Namun, semakin banyak chip mutakhir, seperti superchip Nvidia Grace Hopper dan AMD MI300A yang akan datang, menyatukan GPU dan CPU.
Tata letak ini memungkinkan CPU untuk menyiapkan data lebih cepat dan memuat data ke GPU, yang mempercepat pelatihan model.
Selain itu, salah satu rintangan terbesar yang dihadapi startup perangkat keras jika mereka ingin mematahkan dominasi pasar Nvidia adalah keunggulan perangkat lunak.
Perangkat lunak Cuda Nvidia, yang digunakan untuk menulis aplikasi pembelajaran mesin, hanya dapat berjalan pada chipnya sendiri. Dan ini secara efektif mengunci pengembang ke GPU Nvidia.
AMD MI300 menjalankan GPT-4 lebih 6
Hegemoni Nvidia begitu sulit digoyahkan?
Wartawan semianalisis Dylan Patel dan Myron Xie baru-baru ini memposting bahwa AMD MI300 akan jauh lebih baik daripada H100 NVIDIA dalam hal kinerja biaya!
Dengan peluncuran MI300 baru, AMD berada di ambang menjadi satu-satunya pesaing Nvidia dan Google di bidang inferensi LLM, kata mereka.
Sebaliknya, perusahaan seperti Groq, SambaNova, Intel, Amazon, Microsoft, dan lainnya masih belum dapat bersaing dengannya.
Selain itu, AMD telah banyak berinvestasi dalam perangkat lunak RoCM-nya sendiri, ekosistem PyTorch, dan Triton OpenAI sebagai tanggapan terhadap parit berbasis CUDA NVIDIA.
Ketika perusahaan seperti Databricks, AI21, Lamini, dan Moreph mulai menggunakan GPU AMD untuk inferensi / pelatihan, ekosistem AMD sendiri menjadi semakin lengkap.
Menurut orang dalam industri, MI300, yang memiliki lebih banyak memori video, bekerja lebih baik saat menggunakan model GPT-4 dengan jendela konteks 32K.
Secara khusus, keunggulan kinerja MI300 dibandingkan H100 adalah antara 20% dan 25%, tergantung pada panjang konteks dan panjang prompt/jumlah output token per kueri.
Ditambah dengan harga yang lebih rendah, MI300 akan jauh lebih baik daripada Nvidia H100 atau bahkan H200 dalam hal kinerja biaya.
###
Produsen besar telah memesan
Saat ini, Microsoft, Meta, Oracle, Google, Supermicro / Quantadirect, Amazon dan perusahaan lain telah memesan dengan AMD sekitar 205.000 unit MI300.
Dari jumlah tersebut, 120.000 didedikasikan untuk Microsoft, 25.000 untuk Meta, 12.000 untuk Oracle, 8.000 untuk Google, 5.000 untuk Amazon, dan 35.000 untuk lainnya.
Dan karena volumenya yang sangat besar, harga pembelian Microsoft untuk MI300 diperkirakan akan jauh lebih rendah daripada pelanggan lain.
Untuk menghitung pendapatan yang akan dibawa MI300 ke AMD pada tahun depan, perlu dianalisis dari dua perspektif: berapa banyak pasokan AMD yang dapat diamankan, dan berapa banyak pelanggan utama yang akan memesan.
Di sisi pasokan, kapasitas produksi MI300 akan meningkat secara bertahap sepanjang tahun, tetapi karena Nvidia B100 akan mulai dikirimkan pada kuartal kedua dan meningkat secara signifikan pada kuartal ketiga dengan diperkenalkannya versi berpendingin udara yang lebih hemat biaya, ini akan sangat mempengaruhi pengiriman AMD pada kuartal keempat.
Pada saat yang sama, juga perlu mempertimbangkan produksi HBM, produksi CoWoS, produksi pengemasan dan setiap akselerator yang diproduksi menggunakan CoWoS oleh produsen memori, termasuk Nvidia, AMD, Google / Broadcom, Meta / Broadcom, Intel / Al Chip, Amazon / Al Chip, Amazon / Marvell, Microsoft / GUC, dll.
Meski begitu, industri masih mengharapkan MI300X untuk mengirimkan 110.000 unit pada kuartal keempat.
Di sisi pelanggan, Microsoft, Meta, Oracle, Google, Supermicro / Quantadirect dan Amazon adalah sumber utama pesanan, tetapi ada juga beberapa pesanan dari bagian lain dari rantai pasokan, termasuk beberapa MI300A untuk aplikasi berbasis HPC.
Dalam hal keuntungan, Nvidia tidak menunjukkan tanda-tanda pemotongan harga, tetapi hanya meningkatkan kapasitas / bandwidth HBM sementara harganya tetap sama. Dan dibandingkan dengan margin keuntungan Nvidia lebih dari 80%, margin keuntungan AMD pada MI300 hampir tidak lebih dari 50%.
CEO AMD Lisa Su mengatakan bahwa berdasarkan kemajuan pesat perusahaan dalam AI dan komitmen pembelian pelanggan komputasi awan, pendapatan GPU pusat data diperkirakan akan mencapai $400 juta pada kuartal keempat dan melebihi $2 miliar pada tahun 2024.
Peningkatan ini juga akan menjadikan MI300 produk tercepat dalam sejarah AMD yang mencapai $ 1 miliar dalam penjualan.
Dalam hal ini, industri lebih optimis tentang penjualan MI300X, yang diperkirakan akan mencapai $3,5 miliar.
Dilihat dari pangsa pasar AMD saat ini kurang dari 0,1% di ruang pelatihan dan inferensi LLM, pangsa pasar AMD di bidang pusat data akan terus tumbuh dengan mantap.
Sumber daya:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
AMD MI300 pengetahuan Nvidia H100? Kinerja GPT-4 melebihi 25%, dan pertarungan chip AI akan segera dimulai
Sumber artikel: Zhiyuan Baru
Pertarungan chip AI akan datang!
Apa yang akan terjadi di masa depan untuk startup pengembang perangkat keras AI?
CEO Tenstorrent David Bennett secara blak-blakan menyatakan bahwa di industri kami, sebagian besar startup akhirnya gulung tikar.
Bagaimana Anda bertahan? Dia menyarankan startup untuk tetap fleksibel dan menghindari membatasi diri pada kasus penggunaan yang sempit.
Bennett tidak mengacu pada ceruk pasar, tetapi pada kelompok besar yang terdiri dari lusinan perusahaan, dari SiMa.ai hingga Cerebras. Bersama-sama, mereka mengumpulkan miliaran dolar dalam modal ventura untuk menghadapi pemimpin pasar, Nvidia.
Bennett tahu ini. Dia bekerja di bagian penjualan di AMD selama lebih dari satu dekade.
Dan majikannya saat ini, CEO Tenstorrent, adalah Jim Keller, legenda perangkat keras. Dia mengembangkan prosesor A4 dan A4 Apple yang mendukung iPhone 4 dan iPad 2, dan bertanggung jawab atas pekerjaan perangkat keras pada mobil self-driving Tesla dari 2016 hingga 2018.
Bennett mengatakan bahwa startup chip saat ini secara kasar terpecah antara "membuat perangkat keras khusus untuk AI" dan "mengandalkan model yang berlaku".
** Kekurangan NVIDIA: Sulit membuat chip dari awal **
Kisah startup GPU chip AI NVIDIA benar-benar memberi startup chip saat ini keunggulan.
Unit pemrosesan grafis pada awalnya dirancang untuk memberi daya pada grafik komputer, tetapi hanya karena kemampuannya untuk melakukan beberapa perhitungan secara paralel, ia membuat tanda dalam aplikasi AI.
Namun, kejutan itu juga membawa kerugian bagi Nvidia – sekarang sulit bagi Nvidia untuk membangun chip dari awal tanpa mempengaruhi bisnis GPU yang ada, yang memberi peluang kepada startup baru untuk membangun perangkat keras baru yang dibangun khusus untuk AI.
Misalnya, insinyur Tenstorrent merancang chip Grayskull untuk jaringan saraf jarang di masa depan, di mana informasi yang berlebihan dapat dihapus.
Dalam arsitektur ini, model berbasis Transformer pada dasarnya memprediksi kata berikutnya yang paling mungkin muncul, sehingga mereka telah dikritik karena menghasilkan tanggapan berdasarkan probabilitas daripada penalaran.
Ini berarti bahwa arsitektur model ini mungkin tidak bertahan dari ledakan AI saat ini.
Bagaimanapun, LLM saat ini relatif berumur pendek karena laju perkembangan yang cepat. Model yang panas kemarin mungkin hilang dalam satu atau dua minggu.
Bidang lain yang sangat berisiko bagi perusahaan perangkat keras adalah pembuatan chip khusus untuk inferensi.
Perwakilan dari ini adalah pengembang chip D-Matrix, yang berencana untuk merilis chip khusus untuk inferensi pada paruh pertama tahun depan.
Karena itu, banyak orang percaya bahwa lebih banyak uang harus dihabiskan untuk inferensi model daripada pada pelatihan model.
Meskipun ini mungkin merupakan langkah cerdas dari perspektif bisnis, Bennett berpendapat bahwa berfokus terlalu sempit pada inferensi dapat mencegah pengembang perangkat keras melayani kasus penggunaan lain yang mungkin lebih populer.
Misalnya, untuk perhitungan presisi rendah yang diperlukan untuk menjalankan model, chip inferensi murni sudah cukup.
Namun, jika pengembang ingin menyempurnakan model besar, kemungkinan besar mereka akan membutuhkan chip yang dapat menangani perhitungan presisi yang lebih tinggi.
** Chip mutakhir, menyatukan GPU dan CPU **
Untuk bertahan dari pertarungan chip AI yang akan datang, pengembang chip perlu mengubah arsitektur chip mereka.
Saat ini, sebagian besar chip memisahkan GPU dari CPU. Yang pertama mampu melakukan beberapa perhitungan secara bersamaan, sedangkan yang kedua bertanggung jawab untuk menjalankan instruksi yang lebih umum dan mengelola berbagai operasi sistem yang lebih luas.
Namun, semakin banyak chip mutakhir, seperti superchip Nvidia Grace Hopper dan AMD MI300A yang akan datang, menyatukan GPU dan CPU.
Tata letak ini memungkinkan CPU untuk menyiapkan data lebih cepat dan memuat data ke GPU, yang mempercepat pelatihan model.
Selain itu, salah satu rintangan terbesar yang dihadapi startup perangkat keras jika mereka ingin mematahkan dominasi pasar Nvidia adalah keunggulan perangkat lunak.
Perangkat lunak Cuda Nvidia, yang digunakan untuk menulis aplikasi pembelajaran mesin, hanya dapat berjalan pada chipnya sendiri. Dan ini secara efektif mengunci pengembang ke GPU Nvidia.
AMD MI300 menjalankan GPT-4 lebih 6
Hegemoni Nvidia begitu sulit digoyahkan?
Wartawan semianalisis Dylan Patel dan Myron Xie baru-baru ini memposting bahwa AMD MI300 akan jauh lebih baik daripada H100 NVIDIA dalam hal kinerja biaya!
Sebaliknya, perusahaan seperti Groq, SambaNova, Intel, Amazon, Microsoft, dan lainnya masih belum dapat bersaing dengannya.
Selain itu, AMD telah banyak berinvestasi dalam perangkat lunak RoCM-nya sendiri, ekosistem PyTorch, dan Triton OpenAI sebagai tanggapan terhadap parit berbasis CUDA NVIDIA.
Ketika perusahaan seperti Databricks, AI21, Lamini, dan Moreph mulai menggunakan GPU AMD untuk inferensi / pelatihan, ekosistem AMD sendiri menjadi semakin lengkap.
Menurut orang dalam industri, MI300, yang memiliki lebih banyak memori video, bekerja lebih baik saat menggunakan model GPT-4 dengan jendela konteks 32K.
Ditambah dengan harga yang lebih rendah, MI300 akan jauh lebih baik daripada Nvidia H100 atau bahkan H200 dalam hal kinerja biaya.
Produsen besar telah memesan
Saat ini, Microsoft, Meta, Oracle, Google, Supermicro / Quantadirect, Amazon dan perusahaan lain telah memesan dengan AMD sekitar 205.000 unit MI300.
Dari jumlah tersebut, 120.000 didedikasikan untuk Microsoft, 25.000 untuk Meta, 12.000 untuk Oracle, 8.000 untuk Google, 5.000 untuk Amazon, dan 35.000 untuk lainnya.
Dan karena volumenya yang sangat besar, harga pembelian Microsoft untuk MI300 diperkirakan akan jauh lebih rendah daripada pelanggan lain.
Di sisi pasokan, kapasitas produksi MI300 akan meningkat secara bertahap sepanjang tahun, tetapi karena Nvidia B100 akan mulai dikirimkan pada kuartal kedua dan meningkat secara signifikan pada kuartal ketiga dengan diperkenalkannya versi berpendingin udara yang lebih hemat biaya, ini akan sangat mempengaruhi pengiriman AMD pada kuartal keempat.
Pada saat yang sama, juga perlu mempertimbangkan produksi HBM, produksi CoWoS, produksi pengemasan dan setiap akselerator yang diproduksi menggunakan CoWoS oleh produsen memori, termasuk Nvidia, AMD, Google / Broadcom, Meta / Broadcom, Intel / Al Chip, Amazon / Al Chip, Amazon / Marvell, Microsoft / GUC, dll.
Meski begitu, industri masih mengharapkan MI300X untuk mengirimkan 110.000 unit pada kuartal keempat.
Dalam hal keuntungan, Nvidia tidak menunjukkan tanda-tanda pemotongan harga, tetapi hanya meningkatkan kapasitas / bandwidth HBM sementara harganya tetap sama. Dan dibandingkan dengan margin keuntungan Nvidia lebih dari 80%, margin keuntungan AMD pada MI300 hampir tidak lebih dari 50%.
Peningkatan ini juga akan menjadikan MI300 produk tercepat dalam sejarah AMD yang mencapai $ 1 miliar dalam penjualan.
Dalam hal ini, industri lebih optimis tentang penjualan MI300X, yang diperkirakan akan mencapai $3,5 miliar.
Dilihat dari pangsa pasar AMD saat ini kurang dari 0,1% di ruang pelatihan dan inferensi LLM, pangsa pasar AMD di bidang pusat data akan terus tumbuh dengan mantap.