GPT-4はさらにアホになり、キャッシュ履歴が「ジョークを800回言われたのに、新しいジョークを聞かなかった」と答えていたことが明らかになりました

元のソース: qubits

画像ソース: Unbounded AIによって生成

一部のネチズンは、GPT-4が「愚か」になったという別の証拠を見つけました。

彼は疑問を呈した。

OpenAIは過去の回答をキャッシュし、GPT-4が以前に生成された回答を直接伝えることを可能にします。

その最もわかりやすい例は、ジョークを言うことです。

証拠によると、GPT-4はモデルの温度値を上げても、同じ「科学者と原子」の反応を繰り返しました。

それは「なぜ科学者は原子を信用しないのか」というものです。 なぜなら、すべては彼らによって作り上げられているからです」。

ここで、温度値が高いほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返さないようにするのは当然のことです。

それだけでなく、パラメータを動かさず、言い回しを変えて新しい、違うジョークを言うことを強調しても、それは役に立ちません。

ファインダーによると:

これは、GPT-4が質問と完全に一致するのではなく、キャッシュだけでなく、クラスター化されたクエリも使用していることを示しています。

この利点は自明であり、応答速度を速くすることができます。

しかし、せっかく高額で会員権を買ってしまったので、こんなキャッシュ検索サービスを楽しんでいるだけで、誰も喜んでくれません。

それを読んで感じる人もいます。

もしそうなら、他の大規模モデルの回答を評価するためにGPT-4を使い続けるのは不公平ではないでしょうか?

もちろん、これが外部キャッシュの結果だとは思わない人もいますし、おそらくモデル自体の回答の繰り返し性が非常に高い**。

以前の研究では、ChatGPT は 90% の確率で同じ 25 のジョークを繰り返すことが示されています。

なんて言いますか?

証拠 Real Hammer GPT-4 with Cache Reply

彼は温度値を無視しただけでなく、このネチズンは次のことも見つけました。

モデルの上位_p値を変更するのは無意味ですが、GPT-4はまさにそれを行います。

(top_p: モデルから返される結果の信憑性を制御するために使用され、より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答を表示します)

それを解読する唯一の方法は、ランダム性パラメータnをプルアップして、「キャッシュされていない」答えを得て、新しいジョークを得ることができるようにすることです。

ただし、新しいコンテンツの生成が遅れるため、応答が遅くなるという「代償」が伴います。

他の人がローカルモデルで同様の現象を発見したように見えることは言及する価値があります。

スクリーンショットの「prefix-match hit」は、キャッシュが実際に使用されていることを証明しているように見えることが示唆されています。

そこで問題となるのは、大きなモデルがチャット情報をどの程度正確にキャッシュするかということです。

良い質問ですが、冒頭に示した2番目の例から、ある種の「クラスタリング」操作があることは明らかですが、それを深いマルチラウンドの会話に適用する方法がわかりません。

この質問とは関係なく、これを見て「あなたのデータは私たちと一緒に保存されますが、チャットが終了すると会話の内容は削除されます」というChatGPTの声明を思い出し、突然気づいた人もいました。

これは、一部の人々がデータセキュリティについて心配し始めるのは仕方ありません。

これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか?

もちろん、この懸念について考えすぎている人もいるかもしれません。

もしかしたら、クエリの埋め込みキャッシュと回答のキャッシュが保存されているだけかもしれません。

ですから、発見者自身が言ったように、

キャッシュ自体についてはあまり心配していません。
OpenAIは、温度などの設定に関係なく、答えるべき質問を要約し、明らかに異なる意味を持つプロンプトを直接集約するのは非常に単純で失礼であり、悪影響を及ぼし、多くの(GPT-4ベースの)アプリケーションを「スクラップ」する可能性があるのではないかと心配しています。

もちろん、上記の調査結果がOpenAIが実際にキャッシュされた返信を使用していることを証明していることに誰もが同意するわけではありません。

彼らの推論は、著者が採用したケースがたまたま冗談であるということです。

結局のところ、今年の6月に2人のドイツ人学者がテストしたところ、ChatGPTがランダムなジョークを言った1,008件の結果の90%が、同じ25個のジョークのバリエーションであることがわかりました。

特に「科学者と原子」が最も多く、119回です。

したがって、前の回答がキャッシュされているように見える理由を理解できます。

したがって、一部のネチズンは、他の種類の質問を使用してテストしてから確認することも提案しました。

しかし、著者らは、それが問題である必要はなく、レイテンシーを測定するだけでキャッシュされているかどうかを簡単に判断できると主張しています。

最後に、この質問を「別の視点」から見てみましょう。

GPT-4がいつも冗談を言って何が問題なの?

一貫性のある信頼できる答えを出力するためには、大規模なモデルが必要であることを常に強調してきたのではないでしょうか。 いや、なんて従順なんだろう(手動の犬の頭)。

では、GPT-4にはキャッシュがあるのか、ないのか、似たようなことがあったのでしょうか?

参考リンク:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)