ChatGPTなどのモデル:2026年までに、高品質のトレーニングデータが枯渇する

出典:AIGCオープンコミュニティ

画像ソース: Unbounded AIによって生成

「MIT Technology Review」はかつて公式サイトで、ChatGPTなどの大規模モデルの人気が続いているため、トレーニングデータの需要が高まっているという記事を公開しました。 大規模なモデルは、常に吸収される「サイバーブラックホール」のようなもので、最終的にはトレーニングに十分なデータがなくなります。

有名なAI研究機関であるEpochaiは、データトレーニングの問題に関する論文を直接発表し、2026年までに大規模なモデルが高品質のデータを消費し、2030〜2050年までにすべての低品質データが消費されると指摘しました。

2030 年から 2060 年までに、すべての画像トレーニング データが枯渇します。 (ここでのデータは、ラベル付けや汚染がまったく行われていないネイティブデータを指します。

住所:

実は、学習データの問題はすでに表面化しています。 OpenAIは、高品質のトレーニングデータの不足がGPT-5の開発における重要な課題の1つになると述べています。 人間の学校に通うのと一緒で、自分の知識レベルが博士課程に達したら、中学の知識を見せても学習には役に立ちません。

そこでOpenAIは、GPT-5の学習、推論、汎用人工知能の全般的な能力を強化するために、プライベートな超長文のテキスト、動画、音声などのデータを広い範囲で収集し、モデルが人間の思考や作業方法を深くシミュレートして学習できるようにしたいと願う「データアライアンス」を設立しました**。

現在、アイスランド、Free Law Projectなどの組織がアライアンスに参加し、OpenAIにさまざまなデータを提供し、モデル開発の加速に役立てています。

また、ChatGPT、Midjourney、Gen-2などのモデルが生成したAIコンテンツがパブリックネットワークに入ると、人間が構築したパブリックデータプールが深刻に汚染され、均質性やシングルロジックなどの特性があり、高品質のデータ消費プロセスが加速します。

大規模なモデル開発には高品質のトレーニングデータが不可欠です

技術的な観点から見ると、大規模言語モデルは、大量のテキストデータから学習し、単語間の連想パターンを確立し、これらのパターンを使用してテキストの次の単語または文を予測する「言語予測マシン」と考えることができます。

Transformer は最も有名で広く使用されているアーキテクチャの 1 つであり、ChatGPT などはこのテクノロジから借用しています。

簡単に言うと、大規模言語モデルは「ひょうたんとすくい」であり、人間は言いたいことを何でも言うことができます。 そのため、ChatGPT のようなモデルを使用してテキストを生成すると、これらのテキスト コンテンツの物語パターンをどこで見たような感じになります。

したがって、学習データの品質は、大規模モデル学習の構造が正確かどうかを直接決定します。 データに文法上の誤り、不適切な言い回し、不正確な文の区切り、虚偽の内容などが含まれている場合、モデルによって予測されるコンテンツには当然、これらの問題が含まれます。

例えば、翻訳モデルを学習しても、使用されるデータがすべて捏造された粗悪なコンテンツである場合、AIによって翻訳されるコンテンツは当然非常に貧弱なものになります。

これは、パラメータが小さいが、パラメータが高いよりもパフォーマンスと出力が優れているモデルが多く見られる主な理由の1つであり、主な理由の1つは、高品質のトレーニングデータを使用していることです。

大規模モデルの時代には、データが王様

データの重要性から、高品質のトレーニングデータは、OpenAI、Baidu、Anthropic、Cohereなどのベンダーにとって貴重なリソースとなり、大規模モデル時代の「石油」となっています。

早くも今年3月、中国がまだ大規模モデルの錬金術研究に熱心に取り組んでいた頃、BaiduはChatGPTをベンチマークとする生成AI製品「Wenxin Yiyansheng」を率先してリリースしていた。

強力な研究開発能力に加えて、Baiduの20年以上にわたって検索エンジンを通じて蓄積された膨大な中国語コーパスデータは、他の国内メーカーをはるかに上回って、Wenxin Yiyanの複数の反復で重要な役割を果たしてきました。

高品質のデータには、通常、出版された書籍、文学作品、学術論文、学校の教科書、権威あるメディア、ウィキペディア、百度百科事典などのニュースレポート、時間と人間によって検証されたテキスト、ビデオ、オーディオ、その他のデータが含まれます。

しかし、研究機関は、この種の高品質のデータの成長が非常に遅いことを発見しました。 例えば、書籍の出版には、市場調査、初稿作成、編集、再レビューなどの煩雑なプロセスを経る必要があり、書籍の出版には数か月から数年かかるため、大規模なモデル学習データの需要の伸びには遠く及ばない状況です。

過去4年間の大規模言語モデルの開発動向から判断すると、年間の学習データ量の成長率は50%を超えています。 言い換えれば、パフォーマンスと機能の向上を達成するには、1年ごとにモデルのトレーニングに必要なデータ量を2倍にする必要があります**。

一方では、ユーザーのプライバシーが第三者組織によって収集されるのを防ぐためであり、盗難や誤用があります。

一方で、重要なデータが少数の機関に独占され、蓄えられることを防ぐため、技術の研究開発中に利用可能なデータはありません。

2026年までに、高品質のトレーニングデータが不足する可能性があります

Epochaiの研究者は、トレーニングデータ消費の問題を調査するために、2022年から2100年までの言語および画像データの年間生産量をシミュレートし、このデータの総量を計算しました。

また、ChatGPTなどの大規模モデルのデータ消費率もシミュレートします。 最後に、データの増加率と消費率を比較し、次の重要な結論を導き出します。

現在の大規模モデルの急速な開発傾向では、2030年から2050年までにすべての低品質データが枯渇し、高品質のデータが2026年までに消費される可能性が最も高いでしょう。

2030 年から 2060 年までに、すべての画像トレーニング データが消費され、2040 年までに、トレーニング データの不足により、大規模モデルの機能反復が減速する兆候が見られる可能性があります。

研究者たちは2つのモデルを使って計算し、1つ目は、大規模言語モデルと画像モデルの両方の領域で実際に使用されているデータセットを使用し、過去の統計からそれらを推定して、いつピークを迎えるかを予測し、消費を平均化しました。

2 番目のモデルは、将来、世界中で毎年生成される新しいデータの量を予測します。 このモデルは、世界の人口数、インターネット普及率、インターネットユーザー一人当たりの年間平均データの3つの変数に基づいています。

同時に、国連のデータを用いて人口増加曲線を当てはめ、S字型の関数をインターネット利用に当てはめ、一人当たりの年間生産量は基本的に同じであるという単純な仮定を立て、その3つを掛けて、世界の毎年の新しいデータ量を推定しました。

このモデルは、Reddit(有名なフォーラム)の月間出力を正確に予測しているため、精度は高い**です。

最後に、研究者は2つのモデルを組み合わせて、上記の結論に達しました。

研究者らは、このデータはシミュレーションされ、推定されているが、ある程度の不確実性があると述べた。 しかし、これは大規模なモデルコミュニティへの警鐘であり、トレーニングデータはまもなくAIモデルの拡張と適用を制限する重要なボトルネックになる可能性があります。

AIベンダーは、大規模モデルの開発過程で崖のようなデータ不足に陥るのを避けるために、データの再生と合成のための効果的な方法を事前に提示する必要があります

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)