出典: 悪いレビュー 画像ソース: Unbounded AI によって生成大規模モデル競争では常に出遅れていると言われてきたファーウェイが、今回ついに力を合わせてきた。いいえ、昨日のHuawei Developer Conference 2023で、Huaweiは披露しました。3時間近い記者会見は依然としてファーウェイの過去のごった煮スタイルを引き継いでおり、石超氏は目がくらんだ。しかし、実際に要約すると、Pangu Large Model 3.0 というテーマが浮き彫りになります。 実際、ほんの数日前、他の大型モデルがまださまざまな評価を比較していたとき、Panguは世界のトップジャーナルであるNatureによって認定された金色の看板を頼りに、ユニークな方法でみんなの視界に入ってきました。 パンゲア大型モデルの追加により、天気予報の速度が1万倍以上向上し、数秒で結果が得られるといわれています。それは去ります、それはあなたに明確な予測を与えることができます。最大の特徴は、その予測精度が世界最強と言われる欧州気象センターのIFSシステムをも上回り、従来の数値予測を初めて勝ち取ったAI予測製品であるということです。 ご存知のとおり、これまでの AI 天気予報のほとんどは 2D ニューラル ネットワークに基づいて開発されましたが、天気は複雑すぎますし、2D ではあまりにも多すぎます。さらに、以前の AI モデルは予測プロセス中に反復誤差を蓄積し続けるため、結果の精度に影響を及ぼしやすくなります。そのため、AIによる予測手法は普及していない。Pangu 気象大規模モデルは素晴らしいです。気象データの処理には 3DEST と呼ばれる 3 次元ニューラル ネットワークが使用されています。2D で処理できない場合は 3D を使用できます。***3DEST のネットワーク トレーニングと推論戦略*** 反復誤差の問題を目的として、このモデルは反復誤差を削減し、予測精度を向上させるために「階層型時間領域集計戦略」も使用しています。この言葉は騙されやすいように聞こえますが、実際には非常に簡単に理解できます。たとえば、以前の AI 天気予報モデル FourCastNet では、台風が来る前に 6 時間前に予報を出し、その 6 時間の間に、いつ台風が来るかを繰り返し計算します。一時的には5時間、一時的には4時間半と計算される場合があり、これらを足し合わせると誤差が大きくなります。しかし、盤古気象大規模モデルは、異なる予測間隔、つまり 1 時間ごとに 1 回の反復、および 3 時間、6 時間、24 時間ごとに 1 回の反復で 4 つのモデルをトレーニングする方法を考え出しました。次に、特定の天気予報要件に従って、反復に対応するモデルを選択します。 たとえば、今後 7 日間の天気を予測する場合、24 時間モデルを 7 回反復します。20 時間を予測するには、6 時間モデルの反復 3 回 + 1 時間モデルの反復 2 回を意味します。**反復回数が少ないほど、誤差は小さくなります。 **この運用の波により、天気予報は新たなレベルに到達しました。しかし、一部の友人はつぶやき始めたかもしれません。人々の大きなモデルはすべて生成された画像とテキストです。どうやってファーウェイは天気予報になったのですか?一つ言っておきたいのは、この Pangu モデルは、私たちがこれまでに接してきた ChatGPT や Midjourney とは確かに異なり、業界でビジネスを行っているということです。 簡単に理解すると、私たちは個人的に Pangu モデルを使用していないことを意味します。これは誰もが期待する ChatGPT の「宿敵」ではありませんが、通常はアクセスできない To B 市場をターゲットとしています。 **困難かどうかはさておき、少なくともファーウェイが長年にわたって蓄積してきた企業顧客のリソースは実に簡単に現金化できる。さらに、今回のファーウェイの記者会見は、天気予報モデルの冷酷な役割をもたらしただけではない。40年以上新しい抗生物質が発見されておらず、パンゲア薬の分子モデルが登場するとすぐに超抗菌薬ドラッグXが発見され、創薬サイクルが数年から数か月に短縮され、研究開発が進められました。コストが 70% 削減されました。 盤古鉱山の大型モデルは、石炭採掘の1,000以上のプロセスを深く掘り下げることもでき、クリーンコールを選択するだけで、クリーンコールの回収率を0.1%から0.2%高めることができます。ご存知のとおり、年間 1,000 万トンのコークス炭を生産する石炭精製プラントの場合、クリーンコール生産率が 0.1% 増加するごとに、年間利益が 1,000 万増加する可能性があります。**これはすべて白いお金です。 。 。 **実際、パンゲア モデルは、上記の天気予報、医薬品開発、石炭の準備に加えて、多くの産業で使用されています。 記者会見で、HUAWEI CLOUD AIの首席研究員であるTian Qi氏は、HUAWEI CLOUD AIプロジェクトが1,000以上のプロジェクトに適用され、その30%が顧客の中核生産システムで使用され、顧客の収益性を平均で押し上げたと述べた。 18%.%.ファーウェイは、ファーウェイ Pangu モデル 3.0 の 5+N+X 3 層アーキテクチャのおかげで、さまざまな業界のこれらの大型モデルを量産することができます。 この構造により、Pangu はさまざまな業界に迅速に参入することができます。なぜそんなことを言うのですか?AI が業界に上陸しつつあるため、データが大きな課題となっています。張平安氏は記者会見で、「業界データの入手が難しく、技術を業界と組み合わせるのが難しいため、業界での大型モデルの導入が遅れている」と述べた。**Pangu は非常に独創的で、5+N+X の 3 層構造により、この大きな問題を 3 つの小さな問題に直接分割して解決します。 **まず、Pangu の L0 層の 5 つの大きなモデルは、百科事典の知識、文学作品、プログラム コード、テキスト ラベルが付いた数十億のインターネット画像など、数百テラバイトのテキスト データを学習しました。 まず、第 1 レベルの L0 大モデル (自然言語大モデル、視覚大モデル、マルチモーダル大モデル、予測大モデル、科学計算大モデルの 5 つの基本大モデル) で基本的な認識を確立することがわかります。これは私たちの大学の前の質の高い教育段階に似ています。そして、第2層L1のモデルは、L0のある基本的な大規模モデルから関連するN業種のデータを学習することによって形成される。これは大学の学部段階に似ており、さまざまな専攻を選択して勉強する必要があります。 例えば、病院でのCT画像検査や工場での画質検査では大型のビジュアルモデルが使用されます。ただ、やはり一方は病院、もう一方は工場と利用シーンが全く異なるので、基本的な大型モデルだけでは絶対にうまくいきませんが、業界のデータが加わると意外なことが起こるかもしれません。 最後のL2は大学院生と同様で、特定の業界に基づいて特定のシーンに絞り込まれます。たとえば、倉庫および物流業界では、商品の輸送、倉庫保管、および出荷にさまざまな導入モデルが必要になる場合があります。同時に、ファーウェイはフィードバックリンクも追加しました。これは社内でのインターンシップに似ています。彼らによると、これまで GPT-3 スケールのインダストリ モデルの開発には通常 5 か月かかっていましたが、このツール セットを使用すると開発サイクルを 1/5 に短縮できるとのことです。同時に、多くの業界における小規模なデータセットの制限も解決できます。たとえば、大型航空機の製造などの非常に詳細な業界でも、大きなモデルが存在する可能性があります。 この一連の大型モデルに加えて、ファーウェイは今回、コンピューティング能力のローカライゼーションという非常に興味深いことも提案しました。誰もが知っているように、AI のコンピューティング能力という点では、私たちは非常に恥ずかしい思いをしています。第一に、AI 業界の中核機器である Nvidia の H100/A100 を購入できないこと、第二に、たとえ Nvidia が H800 の代替品を「密かに」リリースしたとしても、まだ予約が残っていることです。たとえば、通信速度が大幅に低下しました。トレーニングに数か月かかる大規模なモデルのコンテキストでは、より強力なコンピューティング能力を持つ外国のモデルに簡単に追い越されてしまいます。そして今回、この問題を解決するために、ファーウェイは依然として何人かの本物の人々を排除しました。 たとえば、理論上のパフォーマンスの点では、ファーウェイの Ascend 910 プロセッサはすでに Nvidia の A100 よりも優れています。しかし、実際にはまだギャップがいくつかあります。また、A100 は Nvidia の最終兵器でもありません。 しかし、シェンテンは多くの友人に認められています。ファーウェイは記者会見で「中国の大型モデルの半分の計算能力はファーウェイが提供している」とまで直接述べた。 もちろん、現時点でのファーウェイのコンピューティング能力における明るい点は、ソフトウェアエコシステム全体によってもたらされる可能性が高い。たとえば、記者会見によると、AI Ascend Cloud Computing Power Base とコンピューティング フレームワーク CANN が挙げられます。 。 。他の側面では、大規模モデルのトレーニングにおけるファーウェイの効率は、業界の主流の GPU の 1.1 倍です。 また、ユーザー向けのアプリケーション パッケージのフルセットも開発しました。 たとえば、Meitu はわずか 30 日で 70 モデルを Huawei エコシステムに移行しました。同時に、ファーウェイは**双方の努力により、AIのパフォーマンスは元のソリューションと比較して30%向上したと述べました。 **それでもかなり印象的です。さらに、ファーウェイは現在 400 万人近くの開発者を抱えているとも述べており、この数は NVIDIA CUDA エコシステムと一致しています。 この一連の取り組みは、その欠点の一部を補ったものといえる。 ****一般的に言えば、ファーウェイの記者会見を見た後**、悪い批評家はファーウェイの AI の配置が非常に奥深いと感じており、すでに「AI が本当に私たちに何をもたらすか」という問題について考え始めています。過去半年の間、AI業界は万雷の拍手を浴びてきましたが、実際に業界レベルにまで落ちてしまうと、少々恥ずかしい思いをしています。そしてファーウェイの今回の行動は、任正非氏の発言を裏付けるものとなった。**「将来的には、マイクロソフトに限らず、AIの大型モデルが急増するだろう。人工知能ソフトウェアプラットフォーム企業が人間社会に直接貢献するのは2%にも満たないかもしれない、そして98%は産業社会と社会の促進である」農業社会。」* *AIの分野では、本当の大きな時代はまだ来ていません。
ファーウェイの大型モデルがついに登場、私の評価は「かなり衝撃的」
出典: 悪いレビュー
大規模モデル競争では常に出遅れていると言われてきたファーウェイが、今回ついに力を合わせてきた。
いいえ、昨日のHuawei Developer Conference 2023で、Huaweiは披露しました。
3時間近い記者会見は依然としてファーウェイの過去のごった煮スタイルを引き継いでおり、石超氏は目がくらんだ。
しかし、実際に要約すると、Pangu Large Model 3.0 というテーマが浮き彫りになります。
最大の特徴は、その予測精度が世界最強と言われる欧州気象センターのIFSシステムをも上回り、従来の数値予測を初めて勝ち取ったAI予測製品であるということです。
さらに、以前の AI モデルは予測プロセス中に反復誤差を蓄積し続けるため、結果の精度に影響を及ぼしやすくなります。
そのため、AIによる予測手法は普及していない。
Pangu 気象大規模モデルは素晴らしいです。気象データの処理には 3DEST と呼ばれる 3 次元ニューラル ネットワークが使用されています。2D で処理できない場合は 3D を使用できます。
3DEST のネットワーク トレーニングと推論戦略
この言葉は騙されやすいように聞こえますが、実際には非常に簡単に理解できます。
たとえば、以前の AI 天気予報モデル FourCastNet では、台風が来る前に 6 時間前に予報を出し、その 6 時間の間に、いつ台風が来るかを繰り返し計算します。
一時的には5時間、一時的には4時間半と計算される場合があり、これらを足し合わせると誤差が大きくなります。
しかし、盤古気象大規模モデルは、異なる予測間隔、つまり 1 時間ごとに 1 回の反復、および 3 時間、6 時間、24 時間ごとに 1 回の反復で 4 つのモデルをトレーニングする方法を考え出しました。
次に、特定の天気予報要件に従って、反復に対応するモデルを選択します。
**反復回数が少ないほど、誤差は小さくなります。 **
この運用の波により、天気予報は新たなレベルに到達しました。
しかし、一部の友人はつぶやき始めたかもしれません。人々の大きなモデルはすべて生成された画像とテキストです。どうやってファーウェイは天気予報になったのですか?
一つ言っておきたいのは、この Pangu モデルは、私たちがこれまでに接してきた ChatGPT や Midjourney とは確かに異なり、業界でビジネスを行っているということです。
これは誰もが期待する ChatGPT の「宿敵」ではありませんが、通常はアクセスできない To B 市場をターゲットとしています。 **
困難かどうかはさておき、少なくともファーウェイが長年にわたって蓄積してきた企業顧客のリソースは実に簡単に現金化できる。
さらに、今回のファーウェイの記者会見は、天気予報モデルの冷酷な役割をもたらしただけではない。
40年以上新しい抗生物質が発見されておらず、パンゲア薬の分子モデルが登場するとすぐに超抗菌薬ドラッグXが発見され、創薬サイクルが数年から数か月に短縮され、研究開発が進められました。コストが 70% 削減されました。
ご存知のとおり、年間 1,000 万トンのコークス炭を生産する石炭精製プラントの場合、クリーンコール生産率が 0.1% 増加するごとに、年間利益が 1,000 万増加する可能性があります。
**これはすべて白いお金です。 。 。 **
実際、パンゲア モデルは、上記の天気予報、医薬品開発、石炭の準備に加えて、多くの産業で使用されています。
ファーウェイは、ファーウェイ Pangu モデル 3.0 の 5+N+X 3 層アーキテクチャのおかげで、さまざまな業界のこれらの大型モデルを量産することができます。
なぜそんなことを言うのですか?
AI が業界に上陸しつつあるため、データが大きな課題となっています。
張平安氏は記者会見で、「業界データの入手が難しく、技術を業界と組み合わせるのが難しいため、業界での大型モデルの導入が遅れている」と述べた。
**Pangu は非常に独創的で、5+N+X の 3 層構造により、この大きな問題を 3 つの小さな問題に直接分割して解決します。 **
まず、Pangu の L0 層の 5 つの大きなモデルは、百科事典の知識、文学作品、プログラム コード、テキスト ラベルが付いた数十億のインターネット画像など、数百テラバイトのテキスト データを学習しました。
そして、第2層L1のモデルは、L0のある基本的な大規模モデルから関連するN業種のデータを学習することによって形成される。これは大学の学部段階に似ており、さまざまな専攻を選択して勉強する必要があります。
ただ、やはり一方は病院、もう一方は工場と利用シーンが全く異なるので、基本的な大型モデルだけでは絶対にうまくいきませんが、業界のデータが加わると意外なことが起こるかもしれません。
同時に、ファーウェイはフィードバックリンクも追加しました。これは社内でのインターンシップに似ています。
彼らによると、これまで GPT-3 スケールのインダストリ モデルの開発には通常 5 か月かかっていましたが、このツール セットを使用すると開発サイクルを 1/5 に短縮できるとのことです。
同時に、多くの業界における小規模なデータセットの制限も解決できます。たとえば、大型航空機の製造などの非常に詳細な業界でも、大きなモデルが存在する可能性があります。
誰もが知っているように、AI のコンピューティング能力という点では、私たちは非常に恥ずかしい思いをしています。
第一に、AI 業界の中核機器である Nvidia の H100/A100 を購入できないこと、第二に、たとえ Nvidia が H800 の代替品を「密かに」リリースしたとしても、まだ予約が残っていることです。たとえば、通信速度が大幅に低下しました。
トレーニングに数か月かかる大規模なモデルのコンテキストでは、より強力なコンピューティング能力を持つ外国のモデルに簡単に追い越されてしまいます。
そして今回、この問題を解決するために、ファーウェイは依然として何人かの本物の人々を排除しました。
しかし、実際にはまだギャップがいくつかあります。また、A100 は Nvidia の最終兵器でもありません。
たとえば、記者会見によると、AI Ascend Cloud Computing Power Base とコンピューティング フレームワーク CANN が挙げられます。 。 。他の側面では、大規模モデルのトレーニングにおけるファーウェイの効率は、業界の主流の GPU の 1.1 倍です。
それでもかなり印象的です。
さらに、ファーウェイは現在 400 万人近くの開発者を抱えているとも述べており、この数は NVIDIA CUDA エコシステムと一致しています。
一般的に言えば、ファーウェイの記者会見を見た後、悪い批評家はファーウェイの AI の配置が非常に奥深いと感じており、すでに「AI が本当に私たちに何をもたらすか」という問題について考え始めています。
過去半年の間、AI業界は万雷の拍手を浴びてきましたが、実際に業界レベルにまで落ちてしまうと、少々恥ずかしい思いをしています。
そしてファーウェイの今回の行動は、任正非氏の発言を裏付けるものとなった。
*「将来的には、マイクロソフトに限らず、AIの大型モデルが急増するだろう。人工知能ソフトウェアプラットフォーム企業が人間社会に直接貢献するのは2%にも満たないかもしれない、そして98%は産業社会と社会の促進である」農業社会。」 *
AIの分野では、本当の大きな時代はまだ来ていません。