Midjourney CEO の David Holz の最新のスピーチ: AI は私たち自身の延長です

出典: テンセントテクノロジー

7 月 7 日、Midjourney の CEO、David Holz 氏は 2023 年世界人工知能会議で講演し、AI が創造性と想像力の新たなキャリアおよびエンジンになると主張しました。 AI を通じて、私たちは人類全体の生の想像力を増幅させる可能性を秘めています。社名のMidjouneyについてホルツ氏は、道教の書『荘周』の中道の概念から来ていると述べ、中国の古典文学が最も美しく最も深い思想の多くをもたらしたと信じていると述べた。

現在、Midjouney はバージョン 5.3 を開発中で、バージョン 6 では、さまざまな角度に関連する新しい画像を自動的に生成する一連のズーム機能とパン機能が提供される予定です。また、生成された画像のランダム性を制御できるため、作成者は奇抜な画像を見つけることができます。美しさと不可思議なイメージのバランス。将来的には、Midjourney は、3 次元、リアルタイム、動的に調整可能な生成画像の開発を目指しています。

テクノロジーの将来については、それがどこへ向かうのかはわかりません。ただし、フュージョン モデル (フュージョン用の画像/テキスト モデル) の方が開発の方向性が高い可能性があります。彼は、AI の技術進歩の潜在力はまだ完全に実現されておらず、その力は現在の 10 倍であり、100 倍の進歩は避けられないと信じています。

彼は、これまでのテクノロジーの進歩のほとんどは、人間をより良くしようとする試み、人間の能力を拡大しようとする試みから来ていると信じています。したがって、AGI は必要ないかもしれませんが、人間の延長として、AI は人間に力を与えるより良い選択肢です。

以下はスピーチの書き起こしです:

皆さんこんにちは。Midjourney の CEO 兼創設者である David Holz です。上海市政府から人工知能世界会議に招待されていることを光栄に思い、今日のイベントに参加することを楽しみにしています。

世界で最も重要なテクノロジーの 1 つはエンジンです。エンジンは、生成、伝達、増幅するために使用される機械です。私たちはエンジンを使って、自動車、飛行機、船舶などあらゆる乗り物をさまざまな工場で製造しています。そして今、AI を新しい種類のエンジンとして考える時が来ています。

MidJourney では、このエンジンを使用して、単なる乗り物ではなく、私たちの思考と想像力を運ぶ新しいタイプの乗り物を作成しようとしています。

サッカーボールがあれば世界をひっくり返すことができますが、それを蹴るためには足が必要なのと同じです。単に動きを生み出すだけではなく、想像力を働かせる新しいタイプの乗り物を作りたいと考えています。創造する前に、私たちはまず自分が何になれるのか、どこに行けるのか、何が可能なのかを想像しなければなりません。私たちが作るツールは、何よりも想像力の根源的な力を増幅させることに重点を置いていると思います。私たちには、個人だけでなく、人類全体の想像力を拡大する機会があります。私はLeap Motion(ジェスチャー認識デバイス)を持って何度も中国を訪れていますが、Leap Motionの最初のオフィスは上海にあります。上海には特別な雰囲気があり、私はとても気に入っています。サンフランシスコ、ロサンゼルス、ニューヨーク、そしていくつかの古いヨーロッパの都市を組み合わせたような感じです。古くからの歴史と文化の力強さを持ちながらも、泥臭い未来感も併せ持つ。本当にクールで、私のお気に入りの 2 つです。

実際、私は基本的に SF の熱心な読者であり、これまで見た中で最もクレイジーな設定は中国の古典から来ています。古代中国の文学には人類史上最も美しく深い思想があると思います。 MidJourney という名前は、実際には、私のお気に入りの古代道教の文書の 1 つである荘周の翻訳に由来しています。たとえば、「荘周の胡蝶の夢」、「子飛魚」、「パオ・ディン・ジエ・ニウ」、「不値木の森」、「空の船」、私はこれらが好きです。 MidJourney という名前について私が気に入っているのは、人々は時々過去を忘れ、将来について迷いや不安を感じる傾向があると思うことです。しかし、私たちは実際には道半ばで、私たちは豊かで美しい過去から来ており、この先にはワイルドで信じられないほどの未来があると感じています。

最近、Mid Journey のバージョン 5.2 をリリースし、現在バージョン 5.3 の開発に取り組んでいます。その後、バージョン 6 と呼ばれるメジャー アップデートをリリースしたいと考えています。私たちが導入した最新の機能はすべて画像のスケーリングに関するもので、ズームアウトすると、中心的なテーマを中心に変化するさまざまなストーリーや環境を作成できます。今週、私たちはカメラを動かすことができる同様の機能をリリースします。カメラを横に動かすと、キューを変更し続けてストーリーを伝えることができます。そして、この派手な制御システムをリリースします。これらの新機能を組み合わせて、画像生成の細かい制御を改善します。

これをスタイル コントロールと組み合わせることもできます。 「スタイル制御」というと少しわかりにくいですが、どの程度美しいものを生成したいのか、そしてその美しさを生み出すためにどれだけのリスクを負うのかをAIに伝えるということです。たとえそれが型破りで、乱雑で、奇妙なものであっても、時には本当に驚くべき結果が得られることがあります。

時には冒険する必要があります。これにより、リスクと美しさのランダム性の間のバランス、または画像の一般的な美しさにどれだけ注意を払うかを制御できます。ターボモードと呼ばれるものも導入しました。ターボ モードでは、GPU を最大限に使用し、画像の生成を非常に高速にします。これにより、生成が 4 ~ 5 倍高速になります。このモードでは、64 個または 100 個を超える GPU を使用して画像を生成しているように見えます。このコンピューティング能力を実現するには、コンピューターの価値が約 500,000 ドルになる必要があります。それはちょっとクレイジーに聞こえますが、私たちはさらにクレイジーなものに取り組んでいます。それらのほとんどはまだ準備中ですが、時間の経過とともに、Midjourney は 2D 画像だけでなく 3D 画像や動画も作成できるように進化し、ピクセル自体を操作することもできるようになると考えています。将来的には、描いたものをリアルタイムでリフローしたり変形したりできるようになるかもしれません。

このような大規模な AI プロセッサが必要なだけで、さまざまな世界を夢見ることができ、その夢が私たちの心と相互作用することができます。そして、私たちはそれ(AI)を通して夢を見ているようなもので、それは本当に素晴らしいことになるでしょう。 Diffusion モデル、Transformer モデル、Clip モデルが次々に発見されたことで、実際に AI が画像空間に参入できるようになりました。約 2 年前、まだ画像 AI サービスが登場する前に、研究者全員がサンフランシスコでコミュニケーションをとっており、これらのモデル、特に拡散モデルは間違いなくまったく異なるものをもたらすだろうと話していたのを覚えています。また、生成対立ネットワーク技術というものがあります。これは、以前は誰もが画像生成を行うために使用していた基礎技術です。

誰もがすぐに珍しくうなずいて、拡散モデルは本当に違うと言った事を覚えているだけです。それは非常に深刻な瞬間であり、私はこのテクノロジーに関与して、より人間らしいユーザー インターフェイスを導入しなければならないと強く感じました。

しかし、将来に関しては、テクノロジーがどのように発展するかを確実に知ることは困難です。時々、言語モデルを拡散モデルに変える方法、つまり拡散モデルを使ってテキストを作成する方法について話します。あるいは、画像モデルは言語モデルに似たものになるでしょう。これはどのようにして達成されるのでしょうか?このアプローチの専門用語は自己回帰トランスフォーマー、つまり AI はハイブリッド モデルに向けて発展します。しかし、それを伝えるのは本当に難しいです。私たちはまだこの変化の始まりにすぎないと思いますが、これから多くの進歩が見られることを 100% 確信しています。 10 倍、100 倍の改善は避けられないでしょう。

この進歩はパフォーマンスだけでなく、これらのテクノロジーをより効果的に使用できるようにするユーザー インターフェイスや製品にも当てはまります。個人でも共同でも、問題をより良く解決する本当に素晴らしいものを作ることができます。ダグラス・エンゲルバートは、テキストエディタを最初に作成した人です。当初、コンピュータはカードにパンチ穴を開けることによってプログラムされていました。しかし、ダグラスは、コンピューターをプログラムしたら何が起こるか考え始めましたが、当時はそれはクレイジーに思えました。彼の考えは、コンピューター上でコンピューターをプログラミングすることで、このサイクルを加速し、私たちの仕事をより良くし、コンピューターをより強力にし、すべてを増幅できるというものでした。このアイデアはついに実現しました。 AI、ヒューマン マシン インターフェイス、インテリジェント アプリケーション文化など、さまざまな文化がありますが、これまでのテクノロジーの進歩のほとんどは、人間をより良くしようとしたり、人間の能力を増幅させようとしたりすることから来ていると思います。

独立した AI が問題を解決するような AI の時代が来るとはまだ考えていません。しかし、その方向に進むことを考えすぎると、テクノロジーに存在する多くの機会を逃してしまう可能性があります。 AIに何ができるかだけではなく、異なるものの間に流動性や絡み合いを生み出すにはどうすればよいかを考えています。なぜなら、ツールは人間のように感じられるべきではなく、あなた自身、あなたの体、あなたの心の延長のように感じられるべきだからです。人間と AI が絡み合い、アーティストとコラボレーションしているというよりは、何かを想像してそれが画面上に表示されているように感じられるようなテクノロジーをどのように構築するかを考えています。多くの人が私の旅を、あたかもそれらの目的地が思考の一部であるかのように説明します。これがほとんどの AI のあるべき姿であり、私たち自身の延長であるべきだと思います。

ですから、チェン氏と聴衆の皆さんに改めて感謝の意を表したいと思います。 WAIC はとても素晴らしいので、将来的には直接参加してこのイベントに参加できることを願っています。私は中国とのさらなる協力を楽しみにしています。中国での素晴らしい個人的な経験をすべて覚えています。皆さんも中国との交流の楽しさを楽しんでいただければと思います。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)