Bản vẽ AI của Ali được thử nghiệm nội bộ đã gây sốc cho một số nhà máy lớn

2023-07-09 01:51:30

Tác giả: Du Wei, Zenan

**Cho hỏi Hội nghị Trí tuệ Nhân tạo Thế giới WAIC năm nay, ai là nhân vật chính? AI megamodel xứng đáng với điều đó. **

Hội nghị kéo dài trong ba ngày, nhiều công ty và tổ chức liên tiếp trình làng hơn 30 mô hình lớn.

Mô hình ngôn ngữ là không thể thiếu trong bữa tiệc mô hình lớn này, tất nhiên, cũng có những mô hình hội họa quy mô lớn thường khiến mọi người bị sốc thị giác. Không, trong lĩnh vực vẽ AI, một người chơi trong nước khác đã tham gia vào lĩnh vực này.

Ba tháng sau khi phát hành mô hình ngôn ngữ lớn Tongyi Qianwen, mô hình lớn tạo tranh AI của Ali cũng xuất hiện và nó dựa trên Trình soạn thảo mô hình chung kết hợp tự phát triển.

Tại hội nghị WAIC vào ngày 7 tháng 7, gia đình mô hình quy mô lớn Alibaba Cloud Tongyi đã tiết lộ thành viên mới nhất "Tongyi Wanxiang".

WAIC *Trong diễn đàn chủ đề của "MaaS: Mô hình mới để phát triển AI lấy mô hình làm trung tâm" của Alibaba Cloud, Tongyi Wanxiang đã xuất hiện. *

Hiệu ứng hình ảnh tạo văn bản của nó là như thế này và tốc độ tạo rất nhanh.

Tongyi Wanxiang cũng có thể tạo một hình ảnh mới theo phong cách cụ thể khác cho một hình ảnh gốc.

Ngoài ra còn có một trò chơi búp bê làm tổ, tạo ra một số hình ảnh tương tự cho một bức tranh gốc.

Ali nói rằng Tongyi Wanxiang có khả năng tạo biểu đồ và đồ thị, có thể hỗ trợ con người tạo hình ảnh và giảm đáng kể ngưỡng thiết kế hình ảnh. Trong tương lai, nó cũng có thể được áp dụng cho các kịch bản ứng dụng như thiết kế nghệ thuật, trò chơi và sáng tạo văn hóa.

Hiện tại, mô hình đã mở cửa mời thử nghiệm theo hướng.

Trước khi ChatGPT trở nên phổ biến, chủ đề phổ biến nhất trong lĩnh vực AI là AI vẽ. Mô hình khuếch tán đã đưa AI tạo ra một bước tiến lớn.Trong một thời gian, đã có một số lượng lớn các mô hình AI nhập văn bản và tạo ra hình ảnh với nhiều phong cách khác nhau. Sau đó, nhiều cách hơn để tạo ra hình ảnh từ hình ảnh và chuyển đổi hình ảnh sang các phong cách cụ thể đã xuất hiện, khiến mọi người phải lóa mắt và kinh ngạc trước sự kỳ diệu của AI sáng tạo.

Trên sân khấu lớn của WAIC, Ali đã tung ra tạo tác AI có thể tạo đồ thị cũng như đồ thị này, có thể thấy rằng nó rất tự tin vào hiệu ứng tạo của nó.

Sau khi đạt được trình độ kinh nghiệm, trái tim của máy tất nhiên phải thử trước.

Đo lường thực tế của Tongyi Wanxiang: Lối chơi đa dạng, một phát là kiệt tác

Mô hình mới này của gia đình Tongyi có mang lại những thay đổi cho lĩnh vực vẽ AI không? Chúng tôi nói chuyện với kết quả.

Hiện tại, Tongyi Wanxiang đã ra mắt ba chức năng tạo ảnh văn bản, tạo ảnh tương tự và chuyển kiểu ảnh.

Hãy bắt đầu với việc tạo văn bản thành hình ảnh tiêu chuẩn. Trong Wenshengtu, bạn có thể chọn từ nhiều phong cách khác nhau như màu nước, tranh sơn dầu, tranh Trung Quốc, minh họa phẳng, hai chiều, ký họa, phim hoạt hình 3D, v.v. Sau khi nhập mô tả văn bản và chọn kiểu, AI có thể tự động tạo ra một bức tranh sáng tạo. Đồng thời, để thuận tiện cho việc sử dụng, tỷ lệ hình ảnh đầu ra có ba tùy chọn: 1:1, 16:9 và 9:16.

Hãy bắt đầu với một cái gì đó ít phức tạp hơn. Chúng tôi chọn một bộ từ trong "Tianjingsha · Autumn Thoughts" của Ma Zhiyuan, một trong bốn bậc thầy của Yuanqu, để mô tả "những cây cầu nhỏ, dòng nước chảy và những ngôi nhà", và chọn "Tranh Trung Quốc" cho phong cách.

Kết quả là, Tongyi Wanxiang đã hoàn toàn cho chúng ta thấy những bức tranh đầy nét quyến rũ cổ kính, giàu chi tiết và thêm một số yếu tố không có trong miêu tả, chẳng hạn như ngọn núi xa xôi và đàn vịt bơi dưới nước.

Chúng ta cũng có thể thay đổi hai phong cách một lần nữa, lần này chọn "ký họa" và "tranh sơn dầu". Tongyi Wanxiang có thể tự do chuyển đổi theo nhiều phong cách khác nhau, và các bản phác thảo và tranh sơn dầu được tạo ra cũng tuyệt vời không kém. Không ngoa khi nói rằng những bức ảnh này ở mức có thể sử dụng trực tiếp.

Hãy để một tập hợp văn bản khác mô tả "một con mèo trong bộ đồ phi hành gia, không gian, du hành, bầu trời đầy sao", lần này chọn "hai chiều" và "phim hoạt hình 3D" cho phong cách. Hiệu ứng rõ ràng trong nháy mắt, đặc biệt là nhóm phong cách hoạt hình 3D, những chú mèo rất dễ thương.

Trên: 2D; Dưới: Phim hoạt hình 3D

Ở đây tôi đột nhiên muốn so sánh Tongyi Wanxiang với Sự khuếch tán ổn định nổi tiếng. Mô tả văn bản tương tự được dịch sang tiếng Anh "con mèo trong bộ đồ phi hành gia, không gian, du hành, bầu trời đầy sao", và sau đó thêm "phong cách thùng carton 3D", hình ảnh được tạo ra như sau.

Thật bất ngờ, Tongyi Wanxiang đã giành được làn sóng này, những con mèo do Stable Diffusion tạo ra quá trừu tượng hoặc quá chân thực và không thể hiện phong cách hoạt hình 3D.

Vì một mô tả văn bản đơn giản không khó đối với Tongyi Wanxiang, chúng ta hãy làm cho nó khó hơn.

Lần này có một đoạn dài hơn về "một cô gái Nhật Bản với mái tóc nâu thẳng, làn da trắng, mặc một chiếc váy, đăng ten và đeo nơ, đeo một chiếc túi nhỏ, mỉm cười", và phong cách là "hai chiều". Tôi muốn hỏi những người bạn thích chiều không gian thứ hai, những bức ảnh được tạo ra này có phù hợp với những cô gái Nhật Bản trong tâm trí bạn không?

Một bộ mô tả khác theo phong cách ma thuật là "chủ nghĩa siêu thực, kết cấu nổi bật, độ phân giải 4k, cyberpunk, tàu chiến, hùng vĩ, khói, người khổng lồ kim loại, vũ khí laze, chất kết xuất octan" và phong cách là "tranh sơn dầu". Nhìn những hình ảnh dưới đây mới thấy cảm giác căng thẳng của cuộc chiến ngày tận thế.

Chúng tôi đặt lại mô tả tương tự vào Khuếch tán ổn định. Xét về độ phong phú của chi tiết, Ổn định khuếch tán tốt hơn, nhưng phong cách hình ảnh của nó có vẻ xám xịt và không mang lại cho mọi người cảm giác mạnh về tác động của màu sắc. Và đó là phong cách hiện thực hơn, hơi khác với chủ nghĩa siêu thực.

Có vẻ như ít nhất trên đường đi của Wen Shengtu, Tongyi Wanxiang dường như đã hoàn toàn bị nắm bắt. Mọi người không khỏi thở dài, khả năng sáng tạo của AI trong lĩnh vực vẽ đã ngày càng phát triển.

Tiếp theo, chúng ta sẽ nói về chức năng tạo ảnh tương tự của Tongyi Wanxiang, người dùng chỉ cần cung cấp ảnh tham chiếu để có được những bức tranh AI có nội dung và phong cách tương tự. Cần lưu ý ở đây rằng kích thước của hình ảnh tải lên phải nhỏ hơn 10M và định dạng hỗ trợ phổ biến JPG, JPEG, PNG, BMP, v.v.

Trước tiên, hãy đặt một tác phẩm của Musk, một vị khách thường xuyên đến với thế giới vẽ AI, để xem "Fenke" của Musk trông như thế nào trong mắt Tongyi Wanxiang. So với cơ thể thật của Musk, bức ảnh được tạo ra có già hơn nhưng nụ cười cũng tươi vui không kém.

Một hình ảnh phong cảnh khác, hiệu ứng được tạo ra rất tốt. Dòng suối róc rách, trên mặt nước còn điểm xuyết thêm những chiếc lá rụng không thua gì bức tranh ban đầu.

Theo kinh nghiệm, trái tim của máy cũng phát hiện ra rằng những bức tranh được tạo ra bởi văn bản Wanxiang có nghĩa chung có thể trực tiếp tạo ra những bức tranh tương tự. Ở đây chúng tôi chọn một trong những phong cách hoạt hình 3D "mèo trong bộ đồ vũ trụ" ở trên làm ảnh gốc. Ngay khi có kết quả, những chú mèo được tạo ra dễ thương hơn và các yếu tố nền cũng phong phú hơn.

Cuối cùng hãy xem chức năng di chuyển kiểu. Bạn chỉ cần tải lên hình ảnh gốc mà bạn muốn thay đổi kiểu và sơ đồ của kiểu mục tiêu và bạn có thể nhanh chóng xử lý hình ảnh gốc thành hình ảnh sáng tạo của kiểu mục tiêu. Giống như tạo ảnh tương tự, kích thước của ảnh gốc và ảnh phong cách không được vượt quá 10M và định dạng giống nhau.

Đầu tiên chúng tôi chọn một bức tranh gốc hiện thực và một bức tranh phong cách trường phái ấn tượng. Kết quả là những bức tranh gốc hiện thực đã hoàn toàn thay đổi phong cách và trở thành những bức tranh trường phái ấn tượng.

Sau đó, hãy thử một hình ảnh gốc hoạt hình 3D và một hình ảnh theo phong cách phác họa. Có thể thấy từ kết quả rằng việc chuyển đổi giữa hai phong cách rất dễ dàng.

Cuối cùng, chọn một bức tranh gốc theo phong cách hội họa Trung Hoa và một bức tranh theo phong cách màu nước. Kết quả tạo ra đều tốt như nhau.

Sau một số trải nghiệm, dù là sơ đồ Wensheng hay sơ đồ Tusheng, Tongyi Wanxiang đã mang đến cho chúng tôi rất nhiều bất ngờ về sự tương quan ngữ nghĩa, tính toàn vẹn của hình ảnh và sự phong phú của các chi tiết. Đặc biệt là chức năng di chuyển phong cách, việc chuyển đổi giữa các phong cách khác nhau rất mượt mà, các bức ảnh được tạo ra hầu như không có cảm giác bị ghép và nhòe, như thể chúng thuộc về phong cách mục tiêu.

Là thành viên mới của gia đình mô hình quy mô lớn Tongyi của Alibaba Cloud, Ali nói rằng các khả năng hiện có của Tongyi Wanxiang chỉ là một thử nghiệm nhỏ và các khả năng của nó vẫn đang phát triển. Trong tương lai, các khả năng liên quan sẽ dần được mở ra cho các khách hàng trong ngành.

Mô hình Composer tự phát triển: 5 tỷ tham số, sẽ lọt top

Trước đây, các mô hình lớn của nhiều công ty đang thiết lập những người "đa phương thức", với khả năng vẽ AI. Ngược lại, ý nghĩa phổ quát của Ali có bao nhiêu nội dung kỹ thuật? Có vẻ như nó không phải là một sự bắt chước đơn giản, mà có khả năng độc đáo của riêng nó.

Điều này được hiểu rằng Tongyi Wanxiang dựa trên Composer, một mô hình thế hệ kết hợp tự phát triển do Ali phát triển, có 5 tỷ tham số và được đào tạo trên hàng tỷ cặp văn bản và hình ảnh. Tại thời điểm mà ngành đang xem xét cách cải thiện khả năng kiểm soát của các mô hình vẽ bằng AI, Composer đã đưa ra những ý tưởng sáng tạo của mình.

Thông qua khung "tạo kết hợp" dựa trên mô hình khuếch tán, Composer có thể phân tách và kết hợp các yếu tố thiết kế hình ảnh như kết hợp màu sắc, bố cục và kiểu dáng, đạt được hiệu ứng tạo hình ảnh cực kỳ tự do và có thể kiểm soát cao.

Kết quả, như bạn và tôi có thể thấy, là chỉ có một mô hình có thể hỗ trợ các tác vụ tạo ảnh đa lớp. Zhou Jingren, Giám đốc Công nghệ của Alibaba Cloud, đã tham gia vào nghiên cứu của Composer và các kết quả liên quan đã được đưa vào ICML 2023, hội nghị AI quốc tế hàng đầu.

* Địa chỉ giấy tờ:

Địa chỉ GitHub:

Cái gọi là sự kết hợp tháo gỡ, đầu tiên phân tách hình ảnh thành các yếu tố thiết kế khác nhau, chẳng hạn như kết hợp màu sắc, phác thảo, bố cục, phong cách, ngữ nghĩa, vật liệu, v.v. Các yếu tố thiết kế này sau đó được kết hợp lại thành hình ảnh mới bằng các mô hình AI. Ở đây, quá trình tháo dỡ và lắp ráp cho phép sửa đổi và chỉnh sửa miễn phí các yếu tố được sử dụng, do đó khả năng kiểm soát được tăng cường đáng kể.

*Teardown - Quá trình tạo hình ảnh kết hợp. *

Không chỉ vậy, Composer còn có thể đạt được một không gian sáng tạo rộng lớn hơn bằng cách “bóp chết” tiềm năng của sự kết hợp-tháo rời. Giả sử rằng có 100 bức tranh, mỗi bức ảnh được chia thành 8 phần tử, thì có 100 tổ hợp lũy thừa bậc 8 của tất cả các phần tử. Sự gia tăng số lượng theo cấp số nhân này được gọi là hiện tượng bùng nổ tổ hợp và chắc chắn tạo ra một không gian thế hệ khổng lồ cho các mô hình AI. Đồng thời, các nhà thiết kế con người cũng được trao quyền tự do và khả năng tùy chỉnh tuyệt vời khi tạo ra các hình ảnh tùy chỉnh.

* Quá trình ghép ảnh. *

Dựa trên khung Composer mà Tongyi Wanxiang cho phép chúng tôi trải nghiệm hai chức năng tạo biểu đồ tương tự và chuyển kiểu. Trong khi sử dụng mô hình hiểu hình ảnh để phân tách hình ảnh thành các phần tử khác nhau, đồng thời sử dụng mô hình khuếch tán để kết hợp lại các phần tử này thành một hình ảnh mới, cách tiếp cận hai hướng, việc tạo ra hình ảnh là điều tất nhiên.

Trong đó, đối với việc sinh ảnh tương tự, giữ nguyên nội dung ngữ nghĩa của ảnh, chỉ thay đổi các chi tiết cục bộ trong ảnh mới có thể sinh ra ảnh tương tự. Trong quá trình này, tính nhất quán của nội dung chính của ảnh gốc có thể được duy trì tốt hơn, đồng thời tính đa dạng và chất lượng của ảnh được tạo cũng có thể được cải thiện.

Để chuyển kiểu, một mặt, hình dạng và cấu trúc cơ bản của hình ảnh gốc được giữ lại, mặt khác, kiểu, màu sắc, nét vẽ và thông tin cá nhân hóa khác của hình ảnh kiểu mục tiêu được chuyển để cuối cùng nhận ra kiểu chuyển khoản.

Sử dụng mô hình lớn làm cốt lõi để tạo cơ sở thống nhất cho trí tuệ nhân tạo tổng quát

Có vẻ như hiệu ứng bất ngờ của Tongyi Wanxiang đến từ công nghệ cốt lõi của chính Ali.

Trên thực tế, ở Trung Quốc, Ali là một trong những công ty lớn bắt đầu khám phá AI tổng quát sớm hơn và họ đã bắt đầu nghiên cứu và phát triển công nghệ mô hình quy mô lớn vào năm 2018. Năm 2019, mô hình đào tạo ngôn ngữ lớn StructBERT do Học viện Pháp đề xuất đã vượt qua nghiên cứu của Google, Microsoft và Facebook và lọt vào top đầu danh sách điểm chuẩn NLP có thẩm quyền GLUE tại thời điểm đó.

Vào năm 2021, Ali sẽ phát hành mô hình quy mô lớn đa phương thức M6 đầu tiên với hàng chục tỷ tham số ở Trung Quốc và mô hình ngôn ngữ quy mô lớn PLUG được gọi là "phiên bản Trung Quốc GPT-3". Trong số đó, sau nhiều lần lặp lại, M6 đã đạt được quy mô tham số mười nghìn tỷ cấp và M6 được kết hợp với nhu cầu kinh doanh của Alipay và Taobao.

Tại WAIC năm ngoái, Ali đã phát hành loạt mô hình quy mô lớn Tongyi, lần đầu tiên xây dựng một "mô hình cơ bản" cho ngành, đạt được một biểu diễn phương thức, biểu diễn nhiệm vụ và cấu trúc mô hình thống nhất. Hơn nữa, các mô hình cốt lõi có liên quan đều có nguồn mở cho các nhà phát triển trên khắp thế giới.

Liên quan đến việc triển khai AI tổng quát, chúng tôi đã phải đối mặt với một số thách thức: chi phí điện toán cao, quy trình xây dựng phức tạp và tính linh hoạt hạn chế. Tongyi đã tạo ra cơ sở hợp nhất AI đầu tiên trong ngành và xây dựng một hệ thống trí tuệ nhân tạo phân cấp với các mô hình lớn và nhỏ được phối hợp với nhau. Mục tiêu của nó là đối mặt với thách thức và để AI chuyển từ nhận thức sang nhận thức.

Có thể nói, Ali đã có một số đóng góp tiên tiến và hàng đầu cho sự phát triển của các mô hình quy mô lớn của Trung Quốc về các mô hình siêu lớn, ngôn ngữ và khả năng đa phương thức, đào tạo carbon thấp, dịch vụ nền tảng và ứng dụng hạ cánh .

Trước Tongyi Wanxiang, Ali đã liên tiếp phát hành "Tongyi Nghìn câu hỏi" để xử lý ngôn ngữ tự nhiên và "Tongyi Listening" chuyên về năng suất âm thanh và video. Cho đến nay, ba hướng đi chính của AI đều đã được mở ra. Trước nhu cầu tiềm năng rất lớn đối với các mô hình lớn và AI sáng tạo, Alibaba Cloud có những lợi thế độc nhất.

Ngoài việc tích lũy công nghệ mô hình quy mô lớn, khả năng cơ sở hạ tầng đám mây mạnh mẽ là rất quan trọng. Về sức mạnh tính toán, Alibaba Cloud là nhà cung cấp dịch vụ điện toán đám mây số một ở châu Á và thứ ba trên thế giới, và mô hình lớn của nó có hệ thống sức mạnh tính toán vững chắc hỗ trợ. Ví dụ: Alibaba Cloud có nguồn điện toán thông minh dự trữ mạnh nhất ở Trung Quốc và cụm điện toán thông minh của Alibaba Cloud có thể hỗ trợ quy mô GPU tối đa là 100.000 thẻ.

Ngoài ra, Ali lần đầu tiên đề xuất khái niệm "Mô hình như một dịch vụ" ở Trung Quốc và đi đầu trong việc xây dựng cộng đồng dịch vụ mô hình AI lớn nhất ở Trung Quốc, "Magic Build", nhấn mạnh vào nguồn mở và tính mở, đồng thời thúc đẩy tính toàn diện của AI. Tại diễn đàn chủ đề "MaaS: Mô hình mới để phát triển AI lấy mô hình làm trung tâm" của Alibaba Cloud, Zhou Jingren đã chia sẻ tầm nhìn của mình về MaaS và cách tiếp tục trao quyền cho các sản phẩm và đối tác.

*Jingren Zhou, CTO của Alibaba Cloud. *

Trong cuộc cạnh tranh của AI 2.0, cuộc cạnh tranh đã bước sang một giai đoạn mới, sau cuộc cạnh tranh 100 mẫu chắc chắn sẽ có sóng lớn và Alibaba Cloud đã sẵn sàng.

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#PI#
293k Trạng thái
#BTC#
262k Trạng thái
#ETH#
172k Trạng thái
4#GateioInto11#
83k Trạng thái
5#ContentStar#
69k Trạng thái
6#GT#
68k Trạng thái
7#DOGE#
63k Trạng thái
8#BOME#
62k Trạng thái
9#MAGA#
53k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web