元のソース: qubits 画像ソース: Unbounded AIによって生成一部のネチズンは、GPT-4が「愚か」になったという別の証拠を見つけました。彼は疑問を呈した。OpenAIは**過去の回答をキャッシュ**し、GPT-4が以前に生成された回答を直接伝えることを可能にします。 その最もわかりやすい例は、ジョークを言うことです。証拠によると、GPT-4はモデルの温度値を上げても、同じ「科学者と原子」の反応を繰り返しました。それは「なぜ科学者は原子を信用しないのか」というものです。 なぜなら、すべては彼らによって作り上げられているからです」。 ここで、温度値が高いほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返さないようにするのは当然のことです。それだけでなく、パラメータを動かさず、**言い回しを変えて**、**新しい、違う**ジョークを言うことを強調しても、それは役に立ちません。 ファインダーによると:これは、GPT-4が質問と完全に一致するのではなく、キャッシュだけでなく、**クラスター化されたクエリ**も使用していることを示しています。この利点は自明であり、応答速度を速くすることができます。しかし、せっかく高額で会員権を買ってしまったので、こんなキャッシュ検索サービスを楽しんでいるだけで、誰も喜んでくれません。 それを読んで感じる人もいます。もしそうなら、他の大規模モデルの回答を評価するためにGPT-4を使い続けるのは不公平ではないでしょうか? もちろん、これが外部キャッシュの結果だとは思わない人もいますし、おそらくモデル自体の回答の繰り返し性が非常に高い**。以前の研究では、ChatGPT は 90% の確率で同じ 25 のジョークを繰り返すことが示されています。 なんて言いますか? ## **証拠 Real Hammer GPT-4 with Cache Reply** 彼は温度値を無視しただけでなく、このネチズンは次のことも見つけました。モデルの上位_p値を変更するのは無意味ですが、GPT-4はまさにそれを行います。(top\_p: モデルから返される結果の信憑性を制御するために使用され、より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答を表示します) それを解読する唯一の方法は、ランダム性パラメータnをプルアップして、「キャッシュされていない」答えを得て、新しいジョークを得ることができるようにすることです。 ただし、新しいコンテンツの生成が遅れるため、応答が遅くなるという「代償」が伴います。他の人がローカルモデルで同様の現象を発見したように見えることは言及する価値があります。 スクリーンショットの「prefix-match hit」は、キャッシュが実際に使用されていることを証明しているように見えることが示唆されています。そこで問題となるのは、大きなモデルがチャット情報をどの程度正確にキャッシュするかということです。> 良い質問ですが、冒頭に示した2番目の例から、ある種の「クラスタリング」操作があることは明らかですが、それを深いマルチラウンドの会話に適用する方法がわかりません。 この質問とは関係なく、これを見て「あなたのデータは私たちと一緒に保存されますが、チャットが終了すると会話の内容は削除されます」というChatGPTの声明を思い出し、突然気づいた人もいました。 これは、一部の人々がデータセキュリティについて心配し始めるのは仕方ありません。> これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか? もちろん、この懸念について考えすぎている人もいるかもしれません。> もしかしたら、クエリの埋め込みキャッシュと回答のキャッシュが保存されているだけかもしれません。 ですから、発見者自身が言ったように、> キャッシュ自体についてはあまり心配していません。 > OpenAIは、温度などの設定に関係なく、答えるべき質問を要約し、明らかに異なる意味を持つプロンプトを直接集約するのは非常に単純で失礼であり、悪影響を及ぼし、多くの(GPT-4ベースの)アプリケーションを「スクラップ」する可能性があるのではないかと心配しています。 もちろん、上記の調査結果がOpenAIが実際にキャッシュされた返信を使用していることを証明していることに誰もが同意するわけではありません。彼らの推論は、著者が採用したケースがたまたま冗談であるということです。結局のところ、今年の6月に2人のドイツ人学者がテストしたところ、ChatGPTがランダムなジョークを言った1,008件の結果の90%が、同じ25個のジョークのバリエーションであることがわかりました。 特に「科学者と原子」が最も多く、119回です。したがって、前の回答がキャッシュされているように見える理由を理解できます。したがって、一部のネチズンは、他の種類の質問を使用してテストしてから確認することも提案しました。しかし、著者らは、それが問題である必要はなく、レイテンシーを測定するだけでキャッシュされているかどうかを簡単に判断できると主張しています。 最後に、この質問を「別の視点」から見てみましょう。GPT-4がいつも冗談を言って何が問題なの?一貫性のある信頼できる答えを出力するためには、大規模なモデルが必要であることを常に強調してきたのではないでしょうか。 いや、なんて従順なんだろう(手動の犬の頭)。 では、GPT-4にはキャッシュがあるのか、ないのか、似たようなことがあったのでしょうか?参考リンク:
GPT-4はさらにアホになり、キャッシュ履歴が「ジョークを800回言われたのに、新しいジョークを聞かなかった」と答えていたことが明らかになりました
元のソース: qubits
一部のネチズンは、GPT-4が「愚か」になったという別の証拠を見つけました。
彼は疑問を呈した。
OpenAIは過去の回答をキャッシュし、GPT-4が以前に生成された回答を直接伝えることを可能にします。
証拠によると、GPT-4はモデルの温度値を上げても、同じ「科学者と原子」の反応を繰り返しました。
それは「なぜ科学者は原子を信用しないのか」というものです。 なぜなら、すべては彼らによって作り上げられているからです」。
それだけでなく、パラメータを動かさず、言い回しを変えて、新しい、違うジョークを言うことを強調しても、それは役に立ちません。
これは、GPT-4が質問と完全に一致するのではなく、キャッシュだけでなく、クラスター化されたクエリも使用していることを示しています。
この利点は自明であり、応答速度を速くすることができます。
しかし、せっかく高額で会員権を買ってしまったので、こんなキャッシュ検索サービスを楽しんでいるだけで、誰も喜んでくれません。
もしそうなら、他の大規模モデルの回答を評価するためにGPT-4を使い続けるのは不公平ではないでしょうか?
以前の研究では、ChatGPT は 90% の確率で同じ 25 のジョークを繰り返すことが示されています。
証拠 Real Hammer GPT-4 with Cache Reply
彼は温度値を無視しただけでなく、このネチズンは次のことも見つけました。
モデルの上位_p値を変更するのは無意味ですが、GPT-4はまさにそれを行います。
(top_p: モデルから返される結果の信憑性を制御するために使用され、より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答を表示します)
他の人がローカルモデルで同様の現象を発見したように見えることは言及する価値があります。
そこで問題となるのは、大きなモデルがチャット情報をどの程度正確にキャッシュするかということです。
彼らの推論は、著者が採用したケースがたまたま冗談であるということです。
結局のところ、今年の6月に2人のドイツ人学者がテストしたところ、ChatGPTがランダムなジョークを言った1,008件の結果の90%が、同じ25個のジョークのバリエーションであることがわかりました。
したがって、前の回答がキャッシュされているように見える理由を理解できます。
したがって、一部のネチズンは、他の種類の質問を使用してテストしてから確認することも提案しました。
しかし、著者らは、それが問題である必要はなく、レイテンシーを測定するだけでキャッシュされているかどうかを簡単に判断できると主張しています。
GPT-4がいつも冗談を言って何が問題なの?
一貫性のある信頼できる答えを出力するためには、大規模なモデルが必要であることを常に強調してきたのではないでしょうか。 いや、なんて従順なんだろう(手動の犬の頭)。
参考リンク: