OpenAI 用の GPT-5 をすでに構築した人はいますか?

Question

出典: GenAI New World著者｜シュエ・リャンニール![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3a78851946-dd1a6f-6d2ef1) 画像ソース: Unbounded AI によって生成‌理論から実践まで、大規模言語モデル LLM の完全な形はどのようなものでしょうか?自然言語の深い理解に基づいていると多くの人が言うでしょうが、OpenAI の GPT シリーズはこの点ですでに良い仕事をしています。 AIエージェントの実用的な可能性について議論している人もいますが、現時点ではこの議論は自然言語処理の範囲から抜け出していません。生成 AI には実際には 2 つの側面があります。その 1 つは、人間の言語の理解に焦点を当てた大規模言語モデルです。より広範ないわゆる AIGC アプリケーションは、実際には拡散モデルによって表されるクロスモーダル変換機能を指します。ヴィンセントとしても知られています。写真、ヴィンセントビデオなど。では、この 2 つを組み合わせるとどうでしょうか?多くの人の目には、これは実際には次世代の GPT、または GPT 全体がどのように見えるかです。最近プレプリント Web サイト arxiv に掲載されたシンガポール国立大学コンピューティング学部の論文は、この論文で設計された NExT-GPT モデルが包括的なモーダル変換を試みているため、人々の注目を集めました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5d54ddb212-dd1a6f-6d2ef1) 上の図から、NExT-GPT モデルの入力端と出力端で、テキスト、画像、オーディオ、ビデオなどのさまざまなモーダル形式を生成できることがわかります。出力側では、テキストを除くさまざまなモードに対応する拡散モデルを使用します。入力と出力間のメディア変換は大規模なモデルに依存します。NExT-GPT モデルのスタイルは、実際、大規模言語モデルと拡散モデルという生成 AI の 2 つの力を組み合わせようとする現在の傾向に準拠しているだけでなく、人間の直観にもある程度準拠しています。つまり、人間の脳は依存しています。 on 複数のモダリティの自由な変換とインタラクティブな理解を通じて世界を理解します。マルチモーダル変換と大規模言語モデル機能のいわゆる組み合わせは、相互間に「橋を架ける」単純な方法ではなく、マルチモーダル データ (ベクトル) と言語を真に組み合わせる方法であることは、特に指摘する価値があります。このプロセスが真にスムーズになれば、大規模なモデルが人間の言語を学習して理解できるようになるだけでなく、この能力をより多くのモダリティに拡張できることになります。この組み合わせが成功すれば、AI の能力に質的な飛躍がもたらされるでしょう。**NExT-GPT 構造の概要:****2 つの限界点**GoogleもOpenAIのGPT5も同様の研究を行っていると言われています。その前に、まず NExT-GPT モデルがどのように機能するかを見てみましょう。一般に、NExT-GPT モデルは、投影層でのパラメーター調整がわずか 1% で、大規模モデルをマルチモーダル アダプターおよび拡散モデル デコーダーに接続します。この論文の革新的な点は、MosIT と呼ばれるモーダル スイッチング調整命令と、クロスモーダル スイッチング専用のデータ セットを作成したことです。具体的には、NExT-GPT は 3 つの層で構成されており、最初の層は、さまざまな成熟したエンコーダーがさまざまなモーダル入力をエンコードし、射影層を通じて大規模な言語モデルで理解できる形式にマッピングします。 2 番目の層は、推論に使用されるオープンソースの大規模言語モデルです。大規模言語モデルはテキストを生成するだけでなく、デコード層に特定のモーダル コンテンツを出力するよう指示する固有のタグも生成することに注意してください。 3 番目のレイヤーは、これらのコマンド信号を投影し、さまざまなエンコーダーに対応する対応するコンテンツを生成します。コストを削減するために、NExT-GPT は既製のエンコーダとデコーダを使用します。さまざまなモダリティでコンテンツを変換するときに発生する「ノイズ」を最小限に抑えるために、NExT-GPT はクロスモーダル統一エンコーディングである ImageBind を使用します。そのため、NExT-GPT は多くの異種モーダル エンコーダーを管理する必要がなく、さまざまなモダリティを大規模な言語モデルに均一に投影できます。出力段に関しては、NExT-GPT は画像生成用の安定拡散、ビデオ生成用の Zeroscope、音声合成用の AudioLDM など、さまざまな成熟したモデルを幅広く使用しています。下の図は、論文の推論プロセスの一部です。テキスト パターンと信号マーカーが、モダリティの認識、トリガー、生成方法を決定していることがわかります。灰色の部分は、トリガーされないモーダル オプションです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9afd63e00f-dd1a6f-6d2ef1) これには、異なるモダリティ間の意味理解の問題が含まれるため、調整が不可欠です。ただし、NExT-GPT の構造は比較的明確であるため、実際にはアライメントの操作は非常に簡単です。筆者は大型モデルを中心にエンコード側、命令側にデコード側を合わせた3層の結合構造を設計した。この位置合わせでは、拡散モデルと大規模言語モデル間のフルスケールの位置合わせプロセスの実行を省略し、代わりにテキスト条件付きエンコーダのみを使用します。大規模モデルのパターン信号マーカーと拡散モデルのテキスト間の距離を最小限に抑えた後、位置合わせは純粋なテキストに基づくと、この位置合わせは非常に簡単で、調整が必要なパラメータはわずか約 1% です。NExT-GPT にはモダリティ間で正確に生成および推論する機能が必要であることを考慮し、モダリティ切り替え命令チューニングである MosIT についても紹介しており、そのトレーニングは 5,000 の高品質サンプルで構成されるデータセットに基づいています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0a8da7306d-dd1a6f-6d2ef1) 具体的なトレーニングプロセスは少し複雑なので詳細は省略しますが、一般的に言えば、MosIT は入出力テキストコンテンツを再構築できるため、NExT-GPT はテキスト、画像、ビデオ、オーディオのさまざまなモードの組み合わせをよく理解できます。 . 人間の理解と推論のモードに非常に近い複雑な命令。**完璧は来るのでしょうか？ **現時点では、NExT-GPT にはまだ多くの弱点があります。著者も論文の中でその多くについて言及しています。たとえば、4 つのモダリティは、真のマルチモーダル完全大規模システムにはまだ少し少なすぎることは非常に簡単に考えられます。 MosIT のトレーニング データセットの数にも制限があります。さらに、著者は、さまざまなサイズの大規模な言語モデルを通じて、NExT-GPT をより多くのシナリオに適応させるために懸命に取り組んでいます。もう 1 つの厄介な問題は、サイズよりも実際的なものです。 NExT-GPT はマルチモーダル機能の強力な見通しを示していますが、普及モデルで表される AIGC 機能の現在のレベルは依然として限られており、NExT-GPT 全体のパフォーマンスに影響を与えます。一般に、マルチモーダル AI は、アプリケーション シナリオやユーザー ニーズとより緊密に統合されているため、非常に魅力的な見通しを持っています。現在、大型モデルのトラックの人気がわずかに低下しているため、マルチモーダル AI は人々に大きな想像力の余地を与えます。エンドツーエンドのマルチモーダル大規模モデルとして、NExT-GPT は実際にはマルチモーダル AI のプロトタイプを備えています。パラメーター調整の調整と MosIT を使用したモデル推論機能の強化に関する論文のアイデアは印象的です。すでに誰かが完全な AI への第一歩を踏み出したとも言えます。