Bài phát biểu mới nhất của CEO Midjourney David Holz: AI là một phần mở rộng của chính chúng ta

Nguồn: Công nghệ Tencent

Vào ngày 7 tháng 7, David Holz, Giám đốc điều hành của Midjourney, đã phát biểu tại Hội nghị Trí tuệ Nhân tạo Thế giới năm 2023, lập luận rằng AI sẽ trở thành phương tiện và động cơ mới của sự sáng tạo và trí tưởng tượng. Thông qua AI, chúng ta có khả năng khuếch đại trí tưởng tượng thô sơ của toàn nhân loại. Về cái tên Midjouney của công ty, Holz nói rằng nó xuất phát từ khái niệm về con đường trung đạo trong cuốn sách Đạo giáo "Trang Chu", ông tin rằng văn học cổ điển Trung Quốc đã mang đến nhiều tư tưởng đẹp đẽ và sâu sắc nhất.

Hiện tại, Midjouney đang phát triển phiên bản 5.3 và sẽ cung cấp một loạt khả năng thu phóng và xoay để tự động tạo hình ảnh mới liên quan đến các góc khác nhau trong phiên bản 6 và có thể kiểm soát tính ngẫu nhiên của hình ảnh được tạo, cho phép tác giả có thể kỳ lạ Tìm một cân bằng giữa vẻ đẹp và những hình ảnh hoang mang. Trong tương lai, Midjourney đặt mục tiêu phát triển các hình ảnh được tạo ra ba chiều, thời gian thực, có thể điều chỉnh linh hoạt.

Về tương lai của công nghệ, anh ấy không chắc nó sẽ đi về đâu. Nhưng mô hình hợp nhất (mô hình hình ảnh/văn bản cho hợp nhất) có thể là một hướng phát triển có nhiều khả năng hơn. Ông tin rằng tiềm năng tiến bộ công nghệ của AI vẫn chưa được phát huy hết, và nó mạnh hơn hiện tại gấp mười lần, và tiến bộ gấp trăm lần là điều không thể tránh khỏi.

Ông tin rằng hầu hết các tiến bộ trong công nghệ cho đến nay đều đến từ việc cố gắng làm cho con người trở nên tốt hơn, cố gắng khuếch đại khả năng của con người. Do đó, AGI có thể không cần thiết.Là một phần mở rộng của con người chúng ta, AI là lựa chọn tốt hơn để trao quyền cho con người.

Sau đây là nguyên văn bài phát biểu:

Xin chào mọi người, tôi là David Holz, Giám đốc điều hành và Người sáng lập của Midjourney. Tôi rất vinh dự được Chính quyền thành phố Thượng Hải mời tham gia Hội nghị Thế giới về Trí tuệ Nhân tạo và rất mong được tham gia sự kiện ngày hôm nay.

Một trong những công nghệ quan trọng nhất trên thế giới là động cơ. Động cơ là một máy được sử dụng để tạo, chuyển hoặc khuếch đại. Chúng tôi sử dụng động cơ để chế tạo tất cả các loại phương tiện như ô tô, máy bay và thuyền trong các nhà máy khác nhau. Và bây giờ, đã đến lúc nghĩ về AI như một loại động cơ mới.

Tại MidJourney, chúng tôi đang cố gắng sử dụng động cơ này để tạo ra một loại phương tiện mới, không phải là một phương tiện, mà là một phương tiện mang theo suy nghĩ và trí tưởng tượng của chúng ta.

Giống như bạn có thể xoay chuyển thế giới bằng một quả bóng đá, nhưng vẫn cần có đôi chân để đá nó. Chúng tôi hy vọng sẽ tạo ra một loại phương tiện mới mà bạn có thể sử dụng để tưởng tượng chứ không chỉ tạo ra chuyển động. Trước khi chúng ta có thể sáng tạo, trước tiên chúng ta phải tưởng tượng chúng ta có thể là gì, chúng ta có thể đi đâu, những gì có thể. Tôi nghĩ rằng các công cụ chúng tôi tạo ra, hơn bất kỳ thứ gì khác, tập trung vào việc khuếch đại sức mạnh nguyên thủy của trí tưởng tượng. Chúng ta có cơ hội để khuếch đại không chỉ bất kỳ cá nhân nào, mà là trí tưởng tượng của toàn thể loài người. Tôi đã đến thăm Trung Quốc nhiều lần với Leap Motion (một thiết bị nhận dạng cử chỉ), và văn phòng đầu tiên của Leap Motion là ở Thượng Hải. Thượng Hải có một cảm giác đặc biệt mà tôi rất thích, nó dường như là sự kết hợp của San Francisco, Los Angeles, New York và một số thành phố cổ của châu Âu. Nó có sức mạnh của một lịch sử và văn hóa cổ xưa, nhưng cũng có một cảm giác về tương lai chưa được tinh chỉnh. Nó thực sự rất tuyệt, và đó là hai thứ tôi thích nhất.

Trên thực tế, về cơ bản, tôi là một người ham đọc sách khoa học viễn tưởng và những bối cảnh điên rồ nhất mà tôi từng thấy đều đến từ các tác phẩm kinh điển của Trung Quốc. Tôi nghĩ rằng văn học cổ đại Trung Quốc có những tư tưởng đẹp đẽ và sâu sắc nhất trong lịch sử nhân loại. Cái tên MidJourney thực sự xuất phát từ bản dịch của một trong những văn bản Đạo giáo cổ yêu thích của tôi, từ Zhuang Zhou. Ví dụ như "Giấc mơ của một con bướm của Trang Chu", "Tử Phi Vũ", "Paod Ding Jie Niu", "Gỗ của gỗ không xứng đáng", "Thuyền trống", tôi thích những thứ này. Điều tôi thích ở cái tên MidJourney là tôi nghĩ mọi người đôi khi có xu hướng quên đi quá khứ và có thể cảm thấy lạc lõng và không chắc chắn về tương lai. Nhưng tôi cảm thấy nhiều hơn rằng chúng ta đang thực sự đi được nửa chặng đường, chúng ta đến từ một quá khứ giàu đẹp và tươi đẹp, và chúng ta có một tương lai hoang dã và đáng kinh ngạc phía trước.

Gần đây chúng tôi đã phát hành phiên bản 5.2 của Mid Journey và hiện đang làm việc trên phiên bản 5.3. Sau đó, tôi hy vọng sẽ phát hành một bản cập nhật lớn, mà tôi hy vọng sẽ được gọi là phiên bản 6. Tính năng mới nhất mà chúng tôi đã giới thiệu là tất cả về tỷ lệ hình ảnh và khi bạn thu nhỏ, bạn có thể tạo các câu chuyện và môi trường khác nhau thay đổi xung quanh một chủ đề trung tâm. Tuần này, chúng tôi sẽ phát hành một tính năng tương tự cho phép bạn di chuyển máy ảnh xung quanh và sau đó khi bạn di chuyển máy ảnh sang một bên, bạn có thể tiếp tục thay đổi tín hiệu, sau đó kể câu chuyện và chúng tôi sẽ phát hành hệ thống điều khiển lạ mắt này kết hợp các tính năng mới này để kiểm soát Fine tốt hơn đối với việc tạo hình ảnh.

Bạn cũng có thể kết hợp điều này với các điều khiển kiểu. "Kiểm soát phong cách" hơi khó hiểu, nhưng ý tưởng là bạn muốn cho AI biết bạn muốn tạo ra nó đẹp như thế nào và bạn chấp nhận rủi ro bao nhiêu để tạo ra vẻ đẹp đó. Ngay cả khi nó độc đáo, lộn xộn và kỳ lạ, đôi khi kết quả thực sự đáng chú ý.

Đôi khi bạn cần phải mạo hiểm, và điều này cho phép một người kiểm soát sự cân bằng giữa rủi ro và tính ngẫu nhiên của vẻ đẹp, hoặc mức độ chú ý đến vẻ đẹp chung chung của một hình ảnh. Chúng tôi cũng đã giới thiệu một thứ mà chúng tôi gọi là chế độ turbo. Chế độ Turbo là nơi chúng tôi sử dụng GPU nhiều nhất có thể, giúp tạo hình ảnh rất nhanh. Điều này làm cho thế hệ nhanh hơn 4 đến 5 lần. Chế độ này làm cho có vẻ như bạn đang sử dụng 64 hoặc hơn 100 GPU để tạo hình ảnh. Để đạt được sức mạnh tính toán này, máy tính của bạn phải trị giá khoảng 500.000 đô la Mỹ. Điều đó nghe có vẻ điên rồ, và chúng tôi đang nghiên cứu những thứ thậm chí còn điên rồ hơn. Mặc dù hầu hết chúng vẫn đang được sản xuất, nhưng chúng tôi nghĩ rằng theo thời gian, Midjourney sẽ phát triển để tạo ra không chỉ hình ảnh 2D mà cả hình ảnh 3D, hình ảnh chuyển động và thậm chí bạn có thể tương tác với chính các pixel. Trong tương lai, có thể bạn sẽ có thể chỉnh lại dòng và định hình lại những gì bạn vẽ trong thời gian thực.

Người ta chỉ cần một bộ xử lý AI khổng lồ như vậy, và sau đó nó có thể mơ thấy tất cả các thế giới khác nhau, và những giấc mơ có thể tương tác với tâm trí của chúng ta. Và chúng tôi đang mơ về nó (AI), và điều đó sẽ thực sự tuyệt vời. Việc khám phá tuần tự mô hình Khuếch tán, mô hình Biến áp và mô hình Clip thực sự đã cho phép AI thâm nhập vào không gian hình ảnh. Khoảng 2 năm trước, trước khi bất kỳ dịch vụ AI hình ảnh nào ra đời, tất cả các nhà nghiên cứu của chúng tôi đã liên lạc với nhau ở San Francisco, tôi nhớ đã nói rằng những mô hình này, đặc biệt là mô hình Khuếch tán, chắc chắn sẽ mang lại điều gì đó hoàn toàn khác biệt. Ngoài ra còn có công nghệ mạng đối đầu tạo ra, đây là công nghệ cơ bản mà mọi người đã sử dụng để tạo ra hình ảnh trước đây.

Tôi chỉ nhớ rằng mọi người ngay lập tức gật đầu một cách khác thường, nói rằng mô hình Khuếch tán thực sự khác biệt. Đó là một thời điểm rất nghiêm túc và tôi có cảm giác mạnh mẽ rằng mình phải tham gia và mang đến một giao diện người dùng thân thiện hơn cho công nghệ này.

Nhưng về tương lai, thật khó để biết chắc công nghệ này sẽ phát triển như thế nào. Đôi khi chúng ta nói về cách chuyển mô hình ngôn ngữ sang mô hình Khuếch tán bây giờ, tức là sử dụng mô hình Khuếch tán để tạo văn bản. Hoặc mô hình hình ảnh sẽ trở nên giống mô hình ngôn ngữ hơn. Làm thế nào điều này đạt được? Thuật ngữ kỹ thuật cho cách tiếp cận này là Autoregressive Transformer, hay AI sẽ phát triển theo hướng lai ghép. Nhưng nó thực sự khó nói. Tôi nghĩ rằng chúng ta mới chỉ bắt đầu thay đổi này, nhưng tôi chắc chắn 100% rằng còn rất nhiều tiến bộ cần đạt được. Cải thiện gấp mười, gấp trăm lần là điều không thể tránh khỏi.

Sự tiến bộ này không chỉ về hiệu suất mà còn về giao diện người dùng và các sản phẩm cho phép chúng tôi sử dụng các công nghệ này tốt hơn. Cả cá nhân và tập thể đều có thể tạo ra những thứ thực sự thú vị giúp giải quyết vấn đề tốt hơn. Douglas Engelbart là người đầu tiên tạo ra trình soạn thảo văn bản. Ban đầu, máy tính được lập trình bằng thẻ đục lỗ hoặc lỗ trên thẻ. Nhưng Douglas bắt đầu nghĩ về điều gì sẽ xảy ra nếu chúng ta lập trình máy tính, điều này nghe có vẻ điên rồ vào thời điểm đó. Ý tưởng của ông là bằng cách lập trình máy tính trên máy tính, chúng ta có thể tăng tốc chu kỳ này, làm cho những gì chúng ta làm tốt hơn, làm cho máy tính mạnh hơn, khuếch đại mọi thứ. Ý tưởng này cuối cùng đã thành hiện thực. Mặc dù chúng ta có những nền văn hóa khác nhau như trí tuệ nhân tạo, giao diện người-máy, văn hóa ứng dụng thông minh, nhưng tôi nghĩ phần lớn tiến bộ của công nghệ cho đến nay đều đến từ việc cố gắng làm cho con người trở nên tốt hơn, cố gắng khuếch đại khả năng của con người.

Chúng ta chưa thực sự thấy thời đại của AI đang đến, nơi chúng ta sẽ có AI độc lập giải quyết các vấn đề. Nhưng nếu chúng ta nghĩ quá nhiều về việc đi theo hướng đó, chúng ta có thể bỏ lỡ rất nhiều cơ hội tồn tại trong công nghệ. Tôi không chỉ nghĩ về những gì AI có thể làm mà còn về cách tạo ra sự trôi chảy và liên kết giữa những thứ khác nhau. Bởi vì một công cụ không nên giống như một con người, nó nên giống như một phần mở rộng của chính bạn, cơ thể và tâm trí của bạn. Tôi đang nghĩ về cách xây dựng những công nghệ này trong đó con người và AI kết hợp với nhau để không có cảm giác như bạn đang hợp tác với một nghệ sĩ, mà giống như bạn đang tưởng tượng điều gì đó và nó hiện trên màn hình. Nhiều người mô tả hành trình của tôi như thể những điểm đến đó là một phần trong suy nghĩ của họ. Tôi nghĩ đây là điều mà hầu hết AI nên làm, nó nên là một phần mở rộng của chính chúng ta.

Vì vậy, tôi muốn nói lời cảm ơn một lần nữa tới ông Chen và toàn thể khán giả. WAIC khá tuyệt và tôi hy vọng trong tương lai tôi có thể trực tiếp tham dự và là một phần của sự kiện này. Tôi mong muốn được hợp tác nhiều hơn với Trung Quốc, tôi nhớ tất cả những trải nghiệm cá nhân tuyệt vời mà tôi đã có ở đó và tôi hy vọng mọi người cũng có thể tận hưởng niềm vui khi tương tác ở đó.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)