スクエア
最新
注目
ニュース
プロフィール
ポスト
Gateアプリをダウンロードするにはスキャンしてください
その他のダウンロードオプション
今日はこれ以上表示しない
DailyNews
2023-09-10 01:19:05
フォロー
IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープン ソース ライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープン ソース コミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。 TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリング スキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。パフォーマンス テストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM を有効にした場合、A100 よりも 8 倍優れていました。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
トピック
#
Gate Initial Global Listing YZY
12k 人気度
#
Crypto Market Rebound
187k 人気度
#
FOMC July Minutes
12k 人気度
#
Gate Alpha ESPORTS Points Airdrop
15k 人気度
#
Crypto-Related xStocks Rally
2k 人気度
ピン
サイトマップ
IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープン ソース ライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープン ソース コミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。 TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリング スキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。パフォーマンス テストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM を有効にした場合、A100 よりも 8 倍優れていました。