**著者|Yao Qian「中国証券監督管理委員会技術監督局主任」****出典|** 『チャイナ・ファイナンス』2023年13号 画像ソース: Unbounded AI によって生成2023 年に入ると、ChatGPT、GPT4、Midjourney などのコンテンツ生成指向の人工知能アプリケーションが一連のイノベーションの波を引き起こしました。大規模なモデルが日単位で反復的に進化していると考える人もいます。新しい生産要素として、大規模モデルのトレーニング データの良性かつ持続可能な開発は、大規模モデルおよび人工知能産業の発展にとって極めて重要です。ビッグデータと人工知能アプリケーションの重要な分野として、金融業界は大規模モデルのトレーニングに関連するテクノロジーの最新の開発に細心の注意を払う必要があります。この論文では、まず大規模モデルの進化とアップグレードの経路を分析し、次に大規模モデルと中小規模のモデルの間で可能な相互作用方法を議論し、大規模モデルのデータ生態学とモデル生態学的構築について説明します。エコロジーは関連するアイデアを提供します。## 大規模モデルのアップグレードと進化の経路分析長期的な観点から見ると、大型モデルの進化には多くの分岐点があります。最近では、大規模モデルの反復速度が加速しているだけでなく、参加者もますます多くなり、基本的にすべての大手テクノロジー企業をカバーしており、生態系の多様性と複雑さが最初に現れています。現時点では、大規模モデルをアップグレードする反復プロセスにおいて、基礎となるアルゴリズム フレームワークに本質的な変更はありません。コンピューティング能力の投入と豊富なトレーニング データが依然としてその急速な進化の鍵ですが、最新の GPT4 ではいくつかの新しい機能が提供されています。特徴。** 1 つは、アルゴリズムが特定の下流タスクにより適しているということです。 **GPT3 と GPT3.5 は、1,750 億個のパラメータを持つ大規模なモデルです。 GPT4 は現時点では具体的なパラメータを発表していませんが、そのパラメータは数兆レベルに達すると推測する人もいます。同時に、強化学習と特定のタスクの解決においても大幅な改善が見込まれます。より一般的な用語は「アライメント」です。 。 GPT3 シリーズ モデルが、人工知能が 1 つのモデルで複数のタスクを実行できることを誰にでも証明した場合、GPT4 は多くのタスク (上位 10% 程度) で人間のレベルに達しているか、それを超えています。** 2 つ目は、より標準化されたトレーニング データ ガバナンス機能を備え、マルチモダリティをサポートすることです。 **GPT4 は「人間の脳に匹敵する」マルチモーダル機能を備えており、これは多くの最新論文で説明されているマルチモーダル メカニズムとあまり変わりませんが、テキスト モデルの少数サンプル処理能力と、思考の連鎖(Chain of Thought)、CoT)を組み合わせたもの。 GPT4 トレーニング データのガバナンスと供給は、データのラベル付け、データの管理と評価、データの自動化、およびデータの合成から切り離せません。3 つ目は、より多くのトレーニング データ セットとより大きな入力パラメータに対応するために、より強力なコンピューティング パワー クラスターを構築することです。 ** たとえば、Microsoft は、クラウド リソースの半分以上を大規模モデルのトレーニングと人工知能生成コンテンツ (AIGC) アプリケーションに充てています。 Nvidia は、TSMC、ASML、Synopsys と協力して、新しいコンピューティング プラットフォームとより強力な GPU を作成しました。## さまざまなモデルが相互接続されるエコシステムを構築するGPT のような大型モデルは強力であり、将来的にはインターネット、金融、医療分野など多くの業界で重要なインフラの 1 つとなるでしょう。たとえば、金融分野では、関連する専門データを使用してトレーニングした後、大規模モデルは金融ビジネスの知識を理解する機能を備え、特定のシナリオに向けたソリューションを提案して、金融機関がマーケティング オートメーション、顧客関係マイニング、インテリジェントなソリューションを実行できるようにサポートします。リスク特定、インテリジェントな顧客サービス、賢明な投資調査など。ただし、特定のアプリケーションを実装する過程で、GPT のような大規模モデルは一連の課題に直面することになります。 1 つは、トレーニング データの量と質をどのように確保するかです。一般に、大規模モデルの学習コーパスは複数の分野の汎用コーパスですが、専門的なコーパスの収集には通常、時間と労力がかかり、プライバシーの問題もあるため、大規模なモデルは特定の分野で専門的に見える可能性があります。個々の応用分野、性的不十分さ。 2つ目は、大型モデルの運用保守コストをいかに削減するかです。大規模なモデルには膨大なコンピューティング能力のサポートと厳格なデータ ガバナンスが必要であり、一般の機関やアプリケーション部門が大規模なモデルの運用と反復的なアップグレードをサポートすることは困難なことがよくあります。この目的を達成するには、大規模モデルに関連する人工知能産業がさまざまな応用分野で成功裏に実装されることを保証するために、さまざまなモデルの健全な相互作用と共進化の生態学を確立する必要があります。技術的な観点から見ると、大規模モデルの進化は人間のフィードバックによる強化学習 (人間のフィードバックからの強化学習、RLHF) に依存しています。そこで使用されるデータのラベル付けは、世界の低コストの労働力で行われる単純なデータのラベル付け作業とは異なります。非常に専門的な人々がエントリを作成し、対応する質問や指示に対して人間の論理と表現に準拠した質の高い回答を提供します。しかし、人間と機械の相互作用の間にはギャップがあるため、理想的なモードはモデル間の相互作用を通じて強化学習、つまりモデルのフィードバックに依存した強化学習 (モデル フィードバックからの強化学習、RLMF) を実行することです。さまざまなモデルの相互作用に基づいて、大規模モデル全体のデータとモデルの生態をフレームワークに統合できます。これまで、分散型モデル開発モデルでは、単一の人工知能アプリケーション シナリオ内の複数のタスクを複数のモデルでサポートする必要があり、各モデルの構築ではアルゴリズム開発、データ処理、モデルのトレーニング、チューニングのプロセスを経る必要がありました。事前トレーニングされた大規模なモデルは、人工知能の多用途性と汎用性を強化し、大規模なモデルに基づいてゼロサンプルまたは小さなサンプルで微調整することで、さまざまなタスクでより良い結果を達成できます。大規模モデルの「事前トレーニング + 微調整」モデルは、人工知能の研究開発に新しい標準化されたパラダイムをもたらし、人工知能モデルがより統一的かつ簡潔な方法で大規模な生産を実現できるようにしました。技術革新とアプリケーションの実装に焦点を当て、大規模モデルのデータと産業エコロジーは、インフラストラクチャ (一般的なコーパスとコンピューティング パワー プラットフォームを含む)、基本的な大規模モデル、および大規模モデル サービス (合成データ、モデル供給、アプリケーション プラグを含む) に分類できます。 -ins)。ダウンストリーム アプリケーションでは、ユーザーは独自の小規模モデルをデプロイして、大規模モデルのさまざまなサービスを通じてパフォーマンスを向上させると同時に、対応するフィードバック サービスを大規模モデルに逆に提供して、大規模モデルを反復的に進化させることができます (図 1 を参照)。 基本的なラージ モデルは、ラージ モデル産業エコロジーのコア エンジンです。その利点は、その基本性と多用途性にあります。自然言語処理、コンピュータ ビジョン、クロスモーダル タスクなどの典型的なタスクを指向しています。タスクの特性をさらに組み合わせています。 、モデルのアルゴリズムを最適化し、関連するデータと知識を学習するため、大規模なモデルでもより良い結果が得られ、ゼロサンプルで直接適用することもできます。小型モデルは、サイズが小さく(通常は数百億のパラメータのレベル)、トレーニングとメンテナンスが簡単であるという特徴を備えているため、さまざまな垂直分野や社内開発、さまざまな業界での使用に適しています。一般に、小さいモデルはトレーニングにかかるコストが低くなりますが、パフォーマンスは大規模なモデルに比べてはるかに劣ります。大規模モデルと小規模モデルのインタラクティブなアプリケーションを通じて、小規模モデルは大規模モデルの機能の一部を取得したり、一部の機能を実現したりできるため、運用および保守コストを増加させることなく小規模モデルのパフォーマンスを大幅に向上させることができ、特定の要件を満たすことができます。申請要件。大規模モデルと小規模モデルの対話方法は、データ対話、モデル対話、アプリケーション対話の 3 つのカテゴリに分類できます (図 2 を参照)。 * **データ対話**データの相互作用とは、大規模なモデルと小規模なモデルが互いのトレーニングや推論プロセスに直接参加するのではなく、相互に生成されたデータを通じて間接的に相互作用することを意味します。大規模なモデルのトレーニングには通常、大規模な汎用コーパスが必要ですが、たとえば GPT3 のトレーニング コーパスは 753 GB に達し、Wikipedia などの複数のデータ ソースから取得されます。汎用コーパスとは、複数の分野をカバーするコーパスを指し、特定の分野の知識が不十分な場合があります。大規模モデルのトレーニングが完了した後、命令を通じていくつかのドメイン固有の合成コーパスを生成でき、その後、局所的な展開を通じて、小規模モデルをその分野の専用コーパスまたは業界のプライベート コーパスと一緒にトレーニングできます。小規模モデルトレーニングコーパスの分野は比較的集中しているため、この分野の知識を体系的に習得できるため、モデルの出力はより専門的で、より詳細で、より正確になります。このプロセスにおける大規模モデルの役割は、大規模で高品質な合成コーパスを生成し、小規模モデルのトレーニングをより適切にし、特殊コーパスのサイズが小さいことによるモデルの過学習を防ぐことです。またはプライベートコーパス。逆に、小規模モデルによって生成された専門コーパスは、大規模モデルのトレーニング コーパスの補足として使用して、さまざまな分野で大規模モデルの専門能力を強化することもできるため、大規模モデルは反復的に進化し続けることができます。大規模モデルと小規模モデル間のデータ相互作用を実現するには、データソース管理組織に依存することに加えて、大規模モデルと小規模モデルの学習データを制御できるようにデータ保管および取引組織の設立を検討する必要もあります。権利と利益は、秩序ある方法で処理され、すべての当事者への対応する配分が合理的です。* **モデルの相互作用**間接的なデータの相互作用に加えて、大規模なモデルと小規模なモデルはモデル レベルで相互作用することもでき、互いのトレーニング プロセスに参加することで、双方が相互に利益を得ることができ、大規模なモデルの反復効率を向上させることができます。一方で、大きなモデルは小さなモデルのトレーニングをガイドすることができ、一般的に使用される方法は知識の蒸留です。蒸留学習モードでは、トレーニング済みの大きなモデルを教師モデルとして使用し、トレーニング対象の小さなモデルを生徒モデルとして使用できます。同じバッチのトレーニング データに対して、適切な損失関数を設計することで、ソフト大規模なモデルとトレーニング データ自体によって生成されたラベル。ハード ラベルは、小規模なモデルのトレーニングを共同でガイドします。同様に、小規模モデルは大規模モデルに対して逆蒸留を実行し、小規模モデルを使用してサンプル値の判断を行うこともできます。これにより、大規模モデルが収束を加速できるようになります。下流のデータセットでトレーニングされた小規模モデルをさらに微調整した後、サンプル価値判断モデルが得られます。* **アプリのインタラクション**大規模なモデルと小規模なモデルがアプリケーション レベルで対話する一般的な方法はプラグイン モードです。これは、モデルによって構築されたアプリケーションを、他のモデルが呼び出すためのプラグイン サービスにカプセル化します。プラグイン モードには 2 つの利点があります: 1 つは便利で効率的であり、モデルを再トレーニングする必要がありません。もう 1 つは適切な分離であり、モデルの詳細の漏洩を回避できるため、モデル トレーナーの権利と利益をより適切に保護できます。そしてユーザー。一方で、大規模モデルは基本的に事前学習法を採用しており、リアルタイム性は高くありません。小規模モデル アプリケーション プラグインを呼び出すことにより、大規模モデル アプリケーションは出力結果のリアルタイム パフォーマンスを向上させるだけでなく、特定の分野での知識不足を拡大することもできます。一方、小規模モデルで構築されたアプリケーションは、GPT のような大規模モデルが提供するプラグインを呼び出すことで、大規模モデルの強力な生成機能と推論機能を直接取得することもできます。このアプリケーション連携手法により、小規模モデルを一般知識の学習プロセスから解放し、より低コストで特定分野のコンテンツ制作に集中することができ、さまざまなモデルの相互接続によって生じる「化学」反応をユーザーは感じることができます。Open AI (Open AI) が最近リリースした新製品 ChatGPT プラグインは、アプリケーション プラグインを介して ChatGPT とサードパーティ アプリケーションを接続できます。これらのサードパーティ アプリケーションは、単一ドメインの小規模モデルから構築できます。このようにして、小規模モデルは、リアルタイム情報や知識ベース情報の取得、ユーザーを現実世界の「インテリジェントなスケジューリング」に置き換えるなど、ChatGPT のような大規模モデルのさまざまな拡張機能を完成させることができます。大規模なモデルのトレーニング データとモデル ツール チェーンの標準化とセキュリティ管理大規模なモデルのパフォーマンスはトレーニング データの品質に依存しますが、同時に、着陸シナリオごとにモデルに必要な基礎的な技術仕様も異なります。したがって、持続可能な開発と大規模モデルの健全な相互作用を備えた良好な産業エコロジーを構築するには、大規模モデルのトレーニング データと基盤技術の標準化を促進し、モデルの反復と実装を加速する必要があります。一方で、大規模モデル自体のトレーニング データ セットと定義されたデータ サービス インターフェイス (API) は業界の事実上の標準となり、大規模モデルにアクセスするさまざまなアプリケーションはこの標準に従う必要があります。現在、モデルの「事前トレーニング + 微調整」は業界の統一された標準プロセスおよびパラダイムとなっています。これに基づいて、特定のアプリケーション シナリオや専門的なデータと組み合わせることで、さまざまな分野や業界の小規模モデルをさらにカスタマイズおよび最適化できます。大規模モデルのトレーニング データとデータ サービス インターフェイス標準は、ある程度、次世代の国際標準の中核の 1 つになるでしょう。一方で、大規模なモデルのトレーニング データを処理するための基盤テクノロジーに必要なツール チェーンも製品化および標準化する必要があります。標準化された技術サービスの強力なサポートにより、大規模モデルは、ハードウェア適応、モデルの蒸留と圧縮、モデルの分散トレーニングと加速、ベクトル データベース、グラフ データベース、モデルの相互接続などの技術ソリューションを出力でき、自然言語処理、コンピューター ビジョン、クロスモダリティやナレッジグラフなどのさまざまな機能により、より多くの企業や開発者が大規模なモデルを自社のビジネスに適用し、敷居の低い業界垂直モデルを構築できるようになり、さまざまな分野での人工知能の広範な実装が促進されます。大規模モデルの開発と応用は産業および経済の発展に多大な利益をもたらしますが、適切に管理されない場合、国家および産業の安全保障にもリスクをもたらすことは注目に値します。 1つは情報漏洩のリスクです。大規模モデルのトレーニングと実装は、業界や個人の機密情報を含む大量のデータによってサポートされる必要があります。合理的なデータの機密保護およびデータ管理メカニズムが存在しない場合、データ漏洩が発生し、業界や個人に損失が生じる可能性があります。 2 つ目はモデルのセキュリティ リスクです。たとえば、プラグインには有害なコンテンツが埋め込まれ、犯罪者による詐欺や「中毒」のツールとなり、社会および産業の安全を危険にさらす可能性があります。## 関連する提案**大規模なモデルのトレーニング データを開始点として使用すると、標準の策定とデータ ガバナンスには 2 つの側面があります。 ** モデルアプリケーション仕様の策定とインターフェース規格の統一により、業界の標準化開発を促進します。監督を強化し、データ内容のコンプライアンス、明確な権利と利益、スムーズな流通を確保するために、モデルの合成データをホストすることが検討される場合があります。同時に、法律と規制を改善し、政策とシステムを最適化し、さまざまな方法と方法で共同規制部隊を形成し、モデルの悪意のある改ざんや有害なデータの侵入を厳しく防ぎます。**大規模なモデルトレーニングデータ要素市場を構築します。 ** トレーニング データの収集と処理、合成データ サービス、大規模モデルと小規模モデル間の相互接続、およびアプリケーション API の間の産業チェーンを明確にします。データ要素市場の構築を加速し、トレーニングデータに市場指向の価格設定を提供し、権利と利益の分配とインセンティブを促進します。**大規模なモデルと小規模なモデルの共生発展と相互促進の良好な生態系を構築します。 **一般に、国内外の主流の大規模モデルのアルゴリズムレベルには世代間差はありませんが、計算能力とデータには差があります。国内の大手テクノロジー企業が一般分野で独立した制御可能な国内の大規模モデルを開発するよう積極的に支援するとともに、すべての垂直分野がオープンソースツールを使用して、標準化された制御可能な独立したツールチェーンを構築することを奨励する。また、基本的な大型モデルと専門的な小型モデルの間のインタラクティブな共生と反復進化の良好な生態系を構築するために、「小さくて美しい」垂直産業モデルも開発します。(担当編集者 張林)
Yao Qian: 大規模モデルの生態学的構築に関するいくつかの考え
著者|Yao Qian「中国証券監督管理委員会技術監督局主任」
出典| 『チャイナ・ファイナンス』2023年13号
2023 年に入ると、ChatGPT、GPT4、Midjourney などのコンテンツ生成指向の人工知能アプリケーションが一連のイノベーションの波を引き起こしました。大規模なモデルが日単位で反復的に進化していると考える人もいます。新しい生産要素として、大規模モデルのトレーニング データの良性かつ持続可能な開発は、大規模モデルおよび人工知能産業の発展にとって極めて重要です。ビッグデータと人工知能アプリケーションの重要な分野として、金融業界は大規模モデルのトレーニングに関連するテクノロジーの最新の開発に細心の注意を払う必要があります。この論文では、まず大規模モデルの進化とアップグレードの経路を分析し、次に大規模モデルと中小規模のモデルの間で可能な相互作用方法を議論し、大規模モデルのデータ生態学とモデル生態学的構築について説明します。エコロジーは関連するアイデアを提供します。
大規模モデルのアップグレードと進化の経路分析
長期的な観点から見ると、大型モデルの進化には多くの分岐点があります。最近では、大規模モデルの反復速度が加速しているだけでなく、参加者もますます多くなり、基本的にすべての大手テクノロジー企業をカバーしており、生態系の多様性と複雑さが最初に現れています。
現時点では、大規模モデルをアップグレードする反復プロセスにおいて、基礎となるアルゴリズム フレームワークに本質的な変更はありません。コンピューティング能力の投入と豊富なトレーニング データが依然としてその急速な進化の鍵ですが、最新の GPT4 ではいくつかの新しい機能が提供されています。特徴。
** 1 つは、アルゴリズムが特定の下流タスクにより適しているということです。 **GPT3 と GPT3.5 は、1,750 億個のパラメータを持つ大規模なモデルです。 GPT4 は現時点では具体的なパラメータを発表していませんが、そのパラメータは数兆レベルに達すると推測する人もいます。同時に、強化学習と特定のタスクの解決においても大幅な改善が見込まれます。より一般的な用語は「アライメント」です。 。 GPT3 シリーズ モデルが、人工知能が 1 つのモデルで複数のタスクを実行できることを誰にでも証明した場合、GPT4 は多くのタスク (上位 10% 程度) で人間のレベルに達しているか、それを超えています。
** 2 つ目は、より標準化されたトレーニング データ ガバナンス機能を備え、マルチモダリティをサポートすることです。 **GPT4 は「人間の脳に匹敵する」マルチモーダル機能を備えており、これは多くの最新論文で説明されているマルチモーダル メカニズムとあまり変わりませんが、テキスト モデルの少数サンプル処理能力と、思考の連鎖(Chain of Thought)、CoT)を組み合わせたもの。 GPT4 トレーニング データのガバナンスと供給は、データのラベル付け、データの管理と評価、データの自動化、およびデータの合成から切り離せません。
3 つ目は、より多くのトレーニング データ セットとより大きな入力パラメータに対応するために、より強力なコンピューティング パワー クラスターを構築することです。 ** たとえば、Microsoft は、クラウド リソースの半分以上を大規模モデルのトレーニングと人工知能生成コンテンツ (AIGC) アプリケーションに充てています。 Nvidia は、TSMC、ASML、Synopsys と協力して、新しいコンピューティング プラットフォームとより強力な GPU を作成しました。
さまざまなモデルが相互接続されるエコシステムを構築する
GPT のような大型モデルは強力であり、将来的にはインターネット、金融、医療分野など多くの業界で重要なインフラの 1 つとなるでしょう。たとえば、金融分野では、関連する専門データを使用してトレーニングした後、大規模モデルは金融ビジネスの知識を理解する機能を備え、特定のシナリオに向けたソリューションを提案して、金融機関がマーケティング オートメーション、顧客関係マイニング、インテリジェントなソリューションを実行できるようにサポートします。リスク特定、インテリジェントな顧客サービス、賢明な投資調査など。
ただし、特定のアプリケーションを実装する過程で、GPT のような大規模モデルは一連の課題に直面することになります。 1 つは、トレーニング データの量と質をどのように確保するかです。一般に、大規模モデルの学習コーパスは複数の分野の汎用コーパスですが、専門的なコーパスの収集には通常、時間と労力がかかり、プライバシーの問題もあるため、大規模なモデルは特定の分野で専門的に見える可能性があります。個々の応用分野、性的不十分さ。 2つ目は、大型モデルの運用保守コストをいかに削減するかです。大規模なモデルには膨大なコンピューティング能力のサポートと厳格なデータ ガバナンスが必要であり、一般の機関やアプリケーション部門が大規模なモデルの運用と反復的なアップグレードをサポートすることは困難なことがよくあります。この目的を達成するには、大規模モデルに関連する人工知能産業がさまざまな応用分野で成功裏に実装されることを保証するために、さまざまなモデルの健全な相互作用と共進化の生態学を確立する必要があります。
技術的な観点から見ると、大規模モデルの進化は人間のフィードバックによる強化学習 (人間のフィードバックからの強化学習、RLHF) に依存しています。そこで使用されるデータのラベル付けは、世界の低コストの労働力で行われる単純なデータのラベル付け作業とは異なります。非常に専門的な人々がエントリを作成し、対応する質問や指示に対して人間の論理と表現に準拠した質の高い回答を提供します。しかし、人間と機械の相互作用の間にはギャップがあるため、理想的なモードはモデル間の相互作用を通じて強化学習、つまりモデルのフィードバックに依存した強化学習 (モデル フィードバックからの強化学習、RLMF) を実行することです。さまざまなモデルの相互作用に基づいて、大規模モデル全体のデータとモデルの生態をフレームワークに統合できます。
これまで、分散型モデル開発モデルでは、単一の人工知能アプリケーション シナリオ内の複数のタスクを複数のモデルでサポートする必要があり、各モデルの構築ではアルゴリズム開発、データ処理、モデルのトレーニング、チューニングのプロセスを経る必要がありました。事前トレーニングされた大規模なモデルは、人工知能の多用途性と汎用性を強化し、大規模なモデルに基づいてゼロサンプルまたは小さなサンプルで微調整することで、さまざまなタスクでより良い結果を達成できます。大規模モデルの「事前トレーニング + 微調整」モデルは、人工知能の研究開発に新しい標準化されたパラダイムをもたらし、人工知能モデルがより統一的かつ簡潔な方法で大規模な生産を実現できるようにしました。技術革新とアプリケーションの実装に焦点を当て、大規模モデルのデータと産業エコロジーは、インフラストラクチャ (一般的なコーパスとコンピューティング パワー プラットフォームを含む)、基本的な大規模モデル、および大規模モデル サービス (合成データ、モデル供給、アプリケーション プラグを含む) に分類できます。 -ins)。ダウンストリーム アプリケーションでは、ユーザーは独自の小規模モデルをデプロイして、大規模モデルのさまざまなサービスを通じてパフォーマンスを向上させると同時に、対応するフィードバック サービスを大規模モデルに逆に提供して、大規模モデルを反復的に進化させることができます (図 1 を参照)。
小型モデルは、サイズが小さく(通常は数百億のパラメータのレベル)、トレーニングとメンテナンスが簡単であるという特徴を備えているため、さまざまな垂直分野や社内開発、さまざまな業界での使用に適しています。一般に、小さいモデルはトレーニングにかかるコストが低くなりますが、パフォーマンスは大規模なモデルに比べてはるかに劣ります。大規模モデルと小規模モデルのインタラクティブなアプリケーションを通じて、小規模モデルは大規模モデルの機能の一部を取得したり、一部の機能を実現したりできるため、運用および保守コストを増加させることなく小規模モデルのパフォーマンスを大幅に向上させることができ、特定の要件を満たすことができます。申請要件。大規模モデルと小規模モデルの対話方法は、データ対話、モデル対話、アプリケーション対話の 3 つのカテゴリに分類できます (図 2 を参照)。
データの相互作用とは、大規模なモデルと小規模なモデルが互いのトレーニングや推論プロセスに直接参加するのではなく、相互に生成されたデータを通じて間接的に相互作用することを意味します。大規模なモデルのトレーニングには通常、大規模な汎用コーパスが必要ですが、たとえば GPT3 のトレーニング コーパスは 753 GB に達し、Wikipedia などの複数のデータ ソースから取得されます。汎用コーパスとは、複数の分野をカバーするコーパスを指し、特定の分野の知識が不十分な場合があります。大規模モデルのトレーニングが完了した後、命令を通じていくつかのドメイン固有の合成コーパスを生成でき、その後、局所的な展開を通じて、小規模モデルをその分野の専用コーパスまたは業界のプライベート コーパスと一緒にトレーニングできます。小規模モデルトレーニングコーパスの分野は比較的集中しているため、この分野の知識を体系的に習得できるため、モデルの出力はより専門的で、より詳細で、より正確になります。このプロセスにおける大規模モデルの役割は、大規模で高品質な合成コーパスを生成し、小規模モデルのトレーニングをより適切にし、特殊コーパスのサイズが小さいことによるモデルの過学習を防ぐことです。またはプライベートコーパス。逆に、小規模モデルによって生成された専門コーパスは、大規模モデルのトレーニング コーパスの補足として使用して、さまざまな分野で大規模モデルの専門能力を強化することもできるため、大規模モデルは反復的に進化し続けることができます。
大規模モデルと小規模モデル間のデータ相互作用を実現するには、データソース管理組織に依存することに加えて、大規模モデルと小規模モデルの学習データを制御できるようにデータ保管および取引組織の設立を検討する必要もあります。権利と利益は、秩序ある方法で処理され、すべての当事者への対応する配分が合理的です。
間接的なデータの相互作用に加えて、大規模なモデルと小規模なモデルはモデル レベルで相互作用することもでき、互いのトレーニング プロセスに参加することで、双方が相互に利益を得ることができ、大規模なモデルの反復効率を向上させることができます。一方で、大きなモデルは小さなモデルのトレーニングをガイドすることができ、一般的に使用される方法は知識の蒸留です。蒸留学習モードでは、トレーニング済みの大きなモデルを教師モデルとして使用し、トレーニング対象の小さなモデルを生徒モデルとして使用できます。同じバッチのトレーニング データに対して、適切な損失関数を設計することで、ソフト大規模なモデルとトレーニング データ自体によって生成されたラベル。ハード ラベルは、小規模なモデルのトレーニングを共同でガイドします。同様に、小規模モデルは大規模モデルに対して逆蒸留を実行し、小規模モデルを使用してサンプル値の判断を行うこともできます。これにより、大規模モデルが収束を加速できるようになります。下流のデータセットでトレーニングされた小規模モデルをさらに微調整した後、サンプル価値判断モデルが得られます。
大規模なモデルと小規模なモデルがアプリケーション レベルで対話する一般的な方法はプラグイン モードです。これは、モデルによって構築されたアプリケーションを、他のモデルが呼び出すためのプラグイン サービスにカプセル化します。プラグイン モードには 2 つの利点があります: 1 つは便利で効率的であり、モデルを再トレーニングする必要がありません。もう 1 つは適切な分離であり、モデルの詳細の漏洩を回避できるため、モデル トレーナーの権利と利益をより適切に保護できます。そしてユーザー。
一方で、大規模モデルは基本的に事前学習法を採用しており、リアルタイム性は高くありません。小規模モデル アプリケーション プラグインを呼び出すことにより、大規模モデル アプリケーションは出力結果のリアルタイム パフォーマンスを向上させるだけでなく、特定の分野での知識不足を拡大することもできます。一方、小規模モデルで構築されたアプリケーションは、GPT のような大規模モデルが提供するプラグインを呼び出すことで、大規模モデルの強力な生成機能と推論機能を直接取得することもできます。このアプリケーション連携手法により、小規模モデルを一般知識の学習プロセスから解放し、より低コストで特定分野のコンテンツ制作に集中することができ、さまざまなモデルの相互接続によって生じる「化学」反応をユーザーは感じることができます。
Open AI (Open AI) が最近リリースした新製品 ChatGPT プラグインは、アプリケーション プラグインを介して ChatGPT とサードパーティ アプリケーションを接続できます。これらのサードパーティ アプリケーションは、単一ドメインの小規模モデルから構築できます。このようにして、小規模モデルは、リアルタイム情報や知識ベース情報の取得、ユーザーを現実世界の「インテリジェントなスケジューリング」に置き換えるなど、ChatGPT のような大規模モデルのさまざまな拡張機能を完成させることができます。
大規模なモデルのトレーニング データとモデル ツール チェーンの標準化とセキュリティ管理
大規模なモデルのパフォーマンスはトレーニング データの品質に依存しますが、同時に、着陸シナリオごとにモデルに必要な基礎的な技術仕様も異なります。したがって、持続可能な開発と大規模モデルの健全な相互作用を備えた良好な産業エコロジーを構築するには、大規模モデルのトレーニング データと基盤技術の標準化を促進し、モデルの反復と実装を加速する必要があります。
一方で、大規模モデル自体のトレーニング データ セットと定義されたデータ サービス インターフェイス (API) は業界の事実上の標準となり、大規模モデルにアクセスするさまざまなアプリケーションはこの標準に従う必要があります。現在、モデルの「事前トレーニング + 微調整」は業界の統一された標準プロセスおよびパラダイムとなっています。これに基づいて、特定のアプリケーション シナリオや専門的なデータと組み合わせることで、さまざまな分野や業界の小規模モデルをさらにカスタマイズおよび最適化できます。大規模モデルのトレーニング データとデータ サービス インターフェイス標準は、ある程度、次世代の国際標準の中核の 1 つになるでしょう。
一方で、大規模なモデルのトレーニング データを処理するための基盤テクノロジーに必要なツール チェーンも製品化および標準化する必要があります。標準化された技術サービスの強力なサポートにより、大規模モデルは、ハードウェア適応、モデルの蒸留と圧縮、モデルの分散トレーニングと加速、ベクトル データベース、グラフ データベース、モデルの相互接続などの技術ソリューションを出力でき、自然言語処理、コンピューター ビジョン、クロスモダリティやナレッジグラフなどのさまざまな機能により、より多くの企業や開発者が大規模なモデルを自社のビジネスに適用し、敷居の低い業界垂直モデルを構築できるようになり、さまざまな分野での人工知能の広範な実装が促進されます。
大規模モデルの開発と応用は産業および経済の発展に多大な利益をもたらしますが、適切に管理されない場合、国家および産業の安全保障にもリスクをもたらすことは注目に値します。 1つは情報漏洩のリスクです。大規模モデルのトレーニングと実装は、業界や個人の機密情報を含む大量のデータによってサポートされる必要があります。合理的なデータの機密保護およびデータ管理メカニズムが存在しない場合、データ漏洩が発生し、業界や個人に損失が生じる可能性があります。 2 つ目はモデルのセキュリティ リスクです。たとえば、プラグインには有害なコンテンツが埋め込まれ、犯罪者による詐欺や「中毒」のツールとなり、社会および産業の安全を危険にさらす可能性があります。
関連する提案
**大規模なモデルのトレーニング データを開始点として使用すると、標準の策定とデータ ガバナンスには 2 つの側面があります。 ** モデルアプリケーション仕様の策定とインターフェース規格の統一により、業界の標準化開発を促進します。監督を強化し、データ内容のコンプライアンス、明確な権利と利益、スムーズな流通を確保するために、モデルの合成データをホストすることが検討される場合があります。同時に、法律と規制を改善し、政策とシステムを最適化し、さまざまな方法と方法で共同規制部隊を形成し、モデルの悪意のある改ざんや有害なデータの侵入を厳しく防ぎます。
**大規模なモデルトレーニングデータ要素市場を構築します。 ** トレーニング データの収集と処理、合成データ サービス、大規模モデルと小規模モデル間の相互接続、およびアプリケーション API の間の産業チェーンを明確にします。データ要素市場の構築を加速し、トレーニングデータに市場指向の価格設定を提供し、権利と利益の分配とインセンティブを促進します。
**大規模なモデルと小規模なモデルの共生発展と相互促進の良好な生態系を構築します。 **一般に、国内外の主流の大規模モデルのアルゴリズムレベルには世代間差はありませんが、計算能力とデータには差があります。国内の大手テクノロジー企業が一般分野で独立した制御可能な国内の大規模モデルを開発するよう積極的に支援するとともに、すべての垂直分野がオープンソースツールを使用して、標準化された制御可能な独立したツールチェーンを構築することを奨励する。また、基本的な大型モデルと専門的な小型モデルの間のインタラクティブな共生と反復進化の良好な生態系を構築するために、「小さくて美しい」垂直産業モデルも開発します。
(担当編集者 張林)