Theo báo cáo phương tiện truyền thông nước ngoài, tuần trước một phần mềm dịch thuật có tên LipDub ** đã chính thức được phát hành, một chương trình AI cho phép người tạo video giao tiếp bằng các ngôn ngữ khác nhau trong vài phút.
LipDub đang được phát triển bởi startup Captions, được thành lập vào năm 2021 bởi Gaurav Misra và Dwight Churchill. Captions đã nhận được hỗ trợ đầu tư từ Sequoia Capital, Anderson Horowitz, đồng sáng lập Instagram Kevin Systrom và Mike Krieger, và Julie Zhuo, cựu phó chủ tịch thiết kế sản phẩm của Facebook.
Người sáng lập Gaurav Misra đến từ New Delhi, Ấn Độ và là người đứng đầu bộ phận kỹ thuật thiết kế của Snap. Theo Misra, anh lớn lên bằng nhiều ngôn ngữ khác nhau, bao gồm tiếng Hindi, tiếng Anh, tiếng Punjabi và tiếng Urdu. Gaurav Misra cũng dành nhiều năm học tiếng Pháp, điều này giúp anh xây dựng mạng lưới chuyên nghiệp ở Châu Âu, Châu Phi và Trung Đông.
Misra tin rằng công nghệ dịch thuật và kết hợp môi được hỗ trợ bởi AI có thể giúp mọi người kết nối và hiểu người khác dễ dàng hơn.
**Chú thích: Bản địa hóa bản dịch video dễ dàng với AI **
Phụ đề được biết đến với việc tạo phụ đề, chỉnh sửa giọng nói do AI tạo và các kỹ thuật điều chỉnh vị trí nhãn cầu của người tạo video trong quá trình hậu kỳ. Misra và Churchill, những người trước đây từng là nhà phát triển sản phẩm tại Goldman Sachs, từ lâu đã muốn thêm tính năng kết hợp môi vào bản dịch bằng giọng nói, nhưng không ngờ nó lại xảy ra nhanh như vậy. "Ban đầu chúng tôi nghĩ rằng sẽ mất 10 năm để công nghệ mất 10 năm để đạt được điều đó, nhưng bây giờ công nghệ đang phát triển nhanh đến mức những thứ mới xuất hiện gần như mỗi tháng hoặc thậm chí mỗi tuần", Misra nói. "
LipDub đang bước vào một thị trường dịch thuật AI đầy hứa hẹn. Các đối thủ cạnh tranh của nó bao gồm các ứng dụng dịch thuật nhân bản giọng nói HeyGen và Verbalate, cũng như các công cụ mới từ các công ty như Spotify và studio hiệu ứng hình ảnh Monsters Aliens Robots Zombies. **
Trước đây, nhiều doanh nghiệp cần thuê nhiều người thuyết trình video để thể hiện cùng một câu chuyện bằng các ngôn ngữ khác nhau, nhưng bây giờ họ có thể làm điều tương tự với AI tạo ra. Các ứng dụng này cho phép người dùng tải lên video và sau đó chuyển đổi chúng thành tiếng Thổ Nhĩ Kỳ, Pháp, Ả Rập hoặc Ý thông thạo trong vài phút.
Rijul Gupta, người sáng lập DeepMedia, cho biết: "Về cơ bản, chúng tôi đã triển khai công nghệ mới này một cách hoàn hảo, bất kỳ ai cũng có thể sao chép giọng nói của bất kỳ ai và làm cho nó nói bằng một ngôn ngữ khác với tham chiếu âm thanh 5 giây. "
Trên các trang web như X và Reddit, các video lồng tiếng của một số người nổi tiếng đã xuất hiện hàng nghìn lần. Spotify đã tham gia vào nhóm vào tháng trước khi họ thông báo rằng họ sẽ cung cấp các podcast được dịch bằng AI có thể được chuyển đổi sang các ngôn ngữ khác nhau trong khi vẫn duy trì âm sắc và ngữ điệu ban đầu của chúng. **
Hiện tại, các diễn viên Dax Shepard và Kristen Bell, các nhà nghiên cứu MIT Lex Fridman và Steven Bartlett đều có podcast tiếng Tây Ban Nha, và các bản dịch tiếng Pháp và tiếng Đức sẽ sớm có sẵn. Công cụ Spotify mới tận dụng công nghệ tạo giọng nói mới được phát hành của OpenAI để mang lại trải nghiệm nghe thực tế hơn.
**Đầu năm ngoái, nhóm nghiên cứu tại Misra and Captions đã bắt đầu thử nghiệm so khớp môi và làm việc với các đối tác để kiểm tra cách thức hoạt động của nó trong ứng dụng Phụ đề. **
Misra thừa nhận rằng công nghệ kết hợp môi đang phát triển nhanh hơn ông mong đợi. "Có vẻ như việc chuyển sang giai đoạn tiếp theo là điều tự nhiên, tạo ra một video không giống như lồng tiếng hoặc điều chỉnh nhân tạo." Công nghệ mới làm cho video trông rất tự nhiên và dễ hiểu. "Ngay từ khi bắt đầu thử nghiệm, một khả năng mới đã được trình bày cho họ. Misra nói: "Giống như công nghệ mà chúng ta đã thấy trước đây trong Star Trek, đó là khoa học viễn tưởng! "
Captions đã nhận được 25 triệu đô la tài trợ Series B từ Kleiner Perkins vào tháng Sáu. Captions hiện có 100.000 người dùng hoạt động hàng ngày và Misra tin rằng công ty sẽ có nhiều người dùng tích cực hơn sau khi ra mắt LipDub.
**Hiện có sẵn bằng 28 ngôn ngữ, bao gồm tiếng Hàn, tiếng Tây Ban Nha, tiếng Séc, tiếng Tamil và tiếng Ukraina, LipDub sử dụng chế độ zero-shot để cung cấp video mượt mà mà không nhìn thấy chủ thể trong mô hình tạo video của Phụ đề. **
Các thuật toán học máy nội bộ của LipDubs được đào tạo để nhận ra chuyển động môi của người nói và công ty cũng sử dụng mô hình GPT-4 của OpenAI để dịch video sang các ngôn ngữ và phương ngữ khác nhau trong ứng dụng. Công nghệ lồng tiếng AI này đã được sử dụng trong ứng dụng Phụ đề và được phát hành vào tháng 3 năm nay, thu hút người dùng từ khắp nơi trên thế giới.
"Những người không thể tiếp cận một đối tượng cụ thể giờ đây có thể làm điều đó," Misra nói. Công nghệ này là một ví dụ hoàn hảo về một tương lai không tưởng, vì vậy tôi rất vui mừng về nó. "
Theo Misra, khả năng cho các công nghệ mới là vô tận. "Tôi nghĩ rằng phát trực tiếp là một ví dụ rất đáng tin cậy." "Cho dù đó là một trò chơi trực tiếp trên Twitch hay một bài thuyết trình không xác định, những loại nội dung này có thể dễ dàng được bản địa hóa thông qua AI", Misra nói. "
HeyGen: Muốn phân phối video bằng các ngôn ngữ khác nhau dễ dàng như nhập **
Ngoài Phụ đề, có nhiều công ty cùng loại dịch AI, chẳng hạn như HeyGen**. HeyGen là một công ty AI với hàng triệu người dùng và là một trong những công ty lớn nhất trong lĩnh vực AI kết hợp môi và dịch nội dung video ngắn. Sau khi công ty ra mắt tính năng dịch video vào ngày 7 tháng 9, nó nhanh chóng trở nên phổ biến trên X. Kể từ đó, hàng chục video photorealistic đã lan truyền, với người dùng chia sẻ clip Elon Musk, Messi và Mark Zuckerberg nói bằng nhiều ngôn ngữ nước ngoài. **
Mark Burginger, người đứng đầu công ty đồ chơi Qubits, đã từng giới thiệu công ty tập trung vào STEM của mình trong một chương trình có tên "Shark Tank". Vì tò mò, anh đã thử tính năng dịch AI của HeyGen vào ngày 13/9. Anh ấy đã đăng một video trên X về việc anh ấy nói bằng tiếng Tây Ban Nha, mặc dù anh ấy không hiểu tiếng Tây Ban Nha.
Bạn có thể tưởng tượng một công ty đồ chơi nhỏ kiếm được ít hơn một triệu đô la một năm có thể sử dụng những công cụ khá rẻ tiền này không? Burginger cho biết ông là một nghệ sĩ và nhà phát minh có trụ sở tại Hendersonville, Bắc Carolina, và Burginger nói, "điều này giúp san bằng sân chơi với các công ty lớn." "
Mục tiêu của HeyGen là "loại bỏ rào cản ngôn ngữ", Joshua Xu, đồng sáng lập và CEO của công ty cho biết, "trong đó chúng tôi hình dung ra một tương lai nơi sản xuất nội dung video và phổ biến thông tin bằng các ngôn ngữ khác nhau dễ dàng như đánh máy".
Trong một video do AI tạo ra được đăng trên X, Xu nói thêm rằng các nền tảng giáo dục như Coursera, Khan Academy và MasterClass có thể mở rộng phạm vi tiếp cận của họ bằng cách "đa ngôn ngữ". HeyGen hiện hỗ trợ 10 ngôn ngữ nhập liệu và 8 ngôn ngữ đầu ra ** bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Trung, tiếng Ý, tiếng Hindi và tiếng Nhật. **
Giám đốc điều hành HeyGen, Joshua Xu
Trước khi thành lập HeyGen, trước đây được gọi là Movio, Wayne Liang, XU từ Snap và cựu kỹ sư ByteDance, đã thành lập Surreal vào năm 2020.
Vào thời điểm đó, Surreal cung cấp các sản phẩm "**deepfake **" thực tế, "**deepfake **" là một công nghệ tổng hợp video có thể tạo video tổng hợp với thực tế giả mạo. Công nghệ này thu hút các công ty thương mại điện tử muốn quảng cáo sản phẩm của họ một cách hiệu quả hơn. ** Surreal đã bảo đảm 1 triệu đô la trong vòng thiên thần bốn tháng sau khi khởi động hoạt động tại Thâm Quyến, Trung Quốc. ** Cho đến ngày nay, Surreal vẫn hoạt động ở Trung Quốc, đăng tin tuyển dụng và thực tập trên các trang web việc làm và đại học của Trung Quốc, nhưng nền tảng HeyGen của Surreal hoạt động chủ yếu ở Los Angeles, nơi XU và Liang làm việc.
Movio là một nền tảng video AI dựa trên công cụ Surreal ra mắt vào tháng 7/2022. Theo công ty, sản phẩm của họ đã tạo ra doanh thu 1 triệu đô la chỉ trong 7 tháng, sau đó XU và Liang đổi thương hiệu Movio thành HeyGen, ** và kể từ năm 2020, HeyGen và Surreal đã huy động được ít nhất 9 triệu đô la tài trợ từ Sequoia Capital, IDG Capital, ZhenFund và chi nhánh đầu tư mạo hiểm của Baidu, Baidu Ventures. **
**Nguyên văn lấy cảm hứng từ podcast **
Ngoài LipDub và HeyGen, còn có một nền tảng cũng tham gia vào không gian này và Verbalate cũng có thể lồng tiếng video của người dùng sang ngôn ngữ đích đồng thời. Sự khác biệt là Verbalate có thể lồng tiếng qua video dài tới 30 phút.
Theo người sáng lập nền tảng, Grant Davies, Verbalate được sinh ra hoàn toàn vì sự nhàm chán trong đại dịch. Một ngày trong năm 2022, Davies đã nghe một cuộc phỏng vấn podcast với Joe Rogan và MrBeast khi đang cưỡi ngựa. Vào thời điểm đó, YouTuber đã đề cập rằng kênh của anh ấy đang sử dụng các diễn viên lồng tiếng để lồng tiếng video sang tiếng Tây Ban Nha, Nga, Hindi, Bồ Đào Nha và các ngôn ngữ khác, vì chưa đến 10% dân số thế giới nói tiếng Anh. Davies đang nghiên cứu về công nghệ AI vào thời điểm đó và họ không nghĩ rằng nhóm của họ sẽ có thể làm điều đó.
Davies sử dụng mạng lưới tiếp thị của mình để giới thiệu và bán các dịch vụ của Verbalate cho các khách hàng doanh nghiệp muốn giao tiếp với nhân viên ở nước ngoài. Theo Dom Procter, người sáng lập OutSourced Staff, một công ty gia công phần mềm ở Sydney, "Đối với tôi với tư cách là một nhân viên bán hàng và tiếp thị, nó giúp cuộc sống của tôi dễ dàng hơn. "
Sau khi sử dụng video Verbalate để gửi tin nhắn cho nhân viên từ xa ở châu Á hoặc Đông Âu, Dom Procter lưu ý, "Tạo nội dung bằng ngôn ngữ mẹ đẻ của họ là một người thay đổi cuộc chơi." Gói đăng ký cơ bản nhất của Verbalate là 9 đô la mỗi tháng và cho phép người dùng tạo video dài 10 phút với mức phí bổ sung là 1 đô la mỗi phút. Gói người sáng tạo hàng tháng của HeyGen là 29 đô la mỗi tháng và có thể sản xuất nhiều video, mỗi video dài 5 phút. **
Các nền tảng khác đang xem xét một thị trường lớn hơn và thời gian phát lại video dài hơn. MARZ có trụ sở tại Toronto chủ yếu thu hút các công ty sản xuất phim và truyền hình quan tâm đến diễn xuất bằng giọng nói quang học thông qua nền tảng LipDub AI (không phải LipDub của Captions).
LipDub AI ** hiện đang xử lý một video clip dài một phút chứa nhiều cảnh quay với thời gian chạy dưới 20 phút. Mặc dù công ty hiện đang sử dụng các clip đào tạo để thực hiện các phần lồng tiếng này, nhưng họ hy vọng sẽ tăng tốc độ xử lý trong năm bằng cách bỏ các clip đào tạo và chỉ dựa vào âm thanh và clip thô. Không giống như các nền tảng lồng tiếng khác, LipDub AI không sử dụng các mô hình ngôn ngữ lớn, mà thay vào đó sử dụng mô hình tạo ra của riêng nó, được đào tạo trên cơ sở ghi âm.
Tim Reyes, giám đốc tiếp thị tại MARZ, tin rằng công nghệ hát nhép sẽ giúp các nhà sản xuất mở rộng tác động của một bộ phim hoặc chương trình truyền hình mà không gây nguy hiểm cho sự đảm bảo công việc của nam diễn viên. Reyes lập luận: "LipDub AI thực sự mở ra rất nhiều cơ hội cho các thị trường mới, không giống như một số công nghệ AI khác phá vỡ quy trình làm việc hiện tại trong ngành công nghiệp điện ảnh. "
Ngoài việc mở ra thị trường mới, những người tạo ra các ứng dụng này có những lý tưởng cao cả hơn. Davies hy vọng rằng các chương trình dịch thuật như Verbalate sẽ phá vỡ những thành kiến ngầm về ngôn ngữ của họ và thậm chí thúc đẩy một tư duy toàn cầu hơn. Davies nói rằng trong một video mà nhóm của anh chia sẻ trên X, mọi người từ các khu vực khác nhau có thể được nhìn thấy bày tỏ ý kiến của họ bằng các ngôn ngữ khác nhau, điều này giúp anh suy nghĩ về cách mọi người có thể giao tiếp xuyên biên giới. Davies nghĩ rằng nó có tiềm năng làm cho mọi người trở nên con người hơn một chút, bởi vì mọi người từ các nền văn hóa khác nhau có thể hiểu nhau hơn. **
Davies nói rằng ngay cả những thông điệp chính trị, theo cách nói của bạn, cũng có thể tạo ra sự khác biệt, và nếu chúng ta có thể lắng nghe nhau, có thể giúp đỡ nhân loại.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Ngoài thay đổi khuôn mặt sâu, lồng tiếng mô phỏng và phần mềm AI cũng có thể phù hợp với hình dạng môi, đã xuất hiện
Nguồn gốc: GenAI New World
Theo báo cáo phương tiện truyền thông nước ngoài, tuần trước một phần mềm dịch thuật có tên LipDub ** đã chính thức được phát hành, một chương trình AI cho phép người tạo video giao tiếp bằng các ngôn ngữ khác nhau trong vài phút.
Người sáng lập Gaurav Misra đến từ New Delhi, Ấn Độ và là người đứng đầu bộ phận kỹ thuật thiết kế của Snap. Theo Misra, anh lớn lên bằng nhiều ngôn ngữ khác nhau, bao gồm tiếng Hindi, tiếng Anh, tiếng Punjabi và tiếng Urdu. Gaurav Misra cũng dành nhiều năm học tiếng Pháp, điều này giúp anh xây dựng mạng lưới chuyên nghiệp ở Châu Âu, Châu Phi và Trung Đông.
Misra tin rằng công nghệ dịch thuật và kết hợp môi được hỗ trợ bởi AI có thể giúp mọi người kết nối và hiểu người khác dễ dàng hơn.
**Chú thích: Bản địa hóa bản dịch video dễ dàng với AI **
Phụ đề được biết đến với việc tạo phụ đề, chỉnh sửa giọng nói do AI tạo và các kỹ thuật điều chỉnh vị trí nhãn cầu của người tạo video trong quá trình hậu kỳ. Misra và Churchill, những người trước đây từng là nhà phát triển sản phẩm tại Goldman Sachs, từ lâu đã muốn thêm tính năng kết hợp môi vào bản dịch bằng giọng nói, nhưng không ngờ nó lại xảy ra nhanh như vậy. "Ban đầu chúng tôi nghĩ rằng sẽ mất 10 năm để công nghệ mất 10 năm để đạt được điều đó, nhưng bây giờ công nghệ đang phát triển nhanh đến mức những thứ mới xuất hiện gần như mỗi tháng hoặc thậm chí mỗi tuần", Misra nói. "
LipDub đang bước vào một thị trường dịch thuật AI đầy hứa hẹn. Các đối thủ cạnh tranh của nó bao gồm các ứng dụng dịch thuật nhân bản giọng nói HeyGen và Verbalate, cũng như các công cụ mới từ các công ty như Spotify và studio hiệu ứng hình ảnh Monsters Aliens Robots Zombies. **
Trước đây, nhiều doanh nghiệp cần thuê nhiều người thuyết trình video để thể hiện cùng một câu chuyện bằng các ngôn ngữ khác nhau, nhưng bây giờ họ có thể làm điều tương tự với AI tạo ra. Các ứng dụng này cho phép người dùng tải lên video và sau đó chuyển đổi chúng thành tiếng Thổ Nhĩ Kỳ, Pháp, Ả Rập hoặc Ý thông thạo trong vài phút.
Trên các trang web như X và Reddit, các video lồng tiếng của một số người nổi tiếng đã xuất hiện hàng nghìn lần. Spotify đã tham gia vào nhóm vào tháng trước khi họ thông báo rằng họ sẽ cung cấp các podcast được dịch bằng AI có thể được chuyển đổi sang các ngôn ngữ khác nhau trong khi vẫn duy trì âm sắc và ngữ điệu ban đầu của chúng. **
Hiện tại, các diễn viên Dax Shepard và Kristen Bell, các nhà nghiên cứu MIT Lex Fridman và Steven Bartlett đều có podcast tiếng Tây Ban Nha, và các bản dịch tiếng Pháp và tiếng Đức sẽ sớm có sẵn. Công cụ Spotify mới tận dụng công nghệ tạo giọng nói mới được phát hành của OpenAI để mang lại trải nghiệm nghe thực tế hơn.
**Đầu năm ngoái, nhóm nghiên cứu tại Misra and Captions đã bắt đầu thử nghiệm so khớp môi và làm việc với các đối tác để kiểm tra cách thức hoạt động của nó trong ứng dụng Phụ đề. **
Misra thừa nhận rằng công nghệ kết hợp môi đang phát triển nhanh hơn ông mong đợi. "Có vẻ như việc chuyển sang giai đoạn tiếp theo là điều tự nhiên, tạo ra một video không giống như lồng tiếng hoặc điều chỉnh nhân tạo." Công nghệ mới làm cho video trông rất tự nhiên và dễ hiểu. "Ngay từ khi bắt đầu thử nghiệm, một khả năng mới đã được trình bày cho họ. Misra nói: "Giống như công nghệ mà chúng ta đã thấy trước đây trong Star Trek, đó là khoa học viễn tưởng! "
Captions đã nhận được 25 triệu đô la tài trợ Series B từ Kleiner Perkins vào tháng Sáu. Captions hiện có 100.000 người dùng hoạt động hàng ngày và Misra tin rằng công ty sẽ có nhiều người dùng tích cực hơn sau khi ra mắt LipDub.
**Hiện có sẵn bằng 28 ngôn ngữ, bao gồm tiếng Hàn, tiếng Tây Ban Nha, tiếng Séc, tiếng Tamil và tiếng Ukraina, LipDub sử dụng chế độ zero-shot để cung cấp video mượt mà mà không nhìn thấy chủ thể trong mô hình tạo video của Phụ đề. **
Các thuật toán học máy nội bộ của LipDubs được đào tạo để nhận ra chuyển động môi của người nói và công ty cũng sử dụng mô hình GPT-4 của OpenAI để dịch video sang các ngôn ngữ và phương ngữ khác nhau trong ứng dụng. Công nghệ lồng tiếng AI này đã được sử dụng trong ứng dụng Phụ đề và được phát hành vào tháng 3 năm nay, thu hút người dùng từ khắp nơi trên thế giới.
"Những người không thể tiếp cận một đối tượng cụ thể giờ đây có thể làm điều đó," Misra nói. Công nghệ này là một ví dụ hoàn hảo về một tương lai không tưởng, vì vậy tôi rất vui mừng về nó. "
Theo Misra, khả năng cho các công nghệ mới là vô tận. "Tôi nghĩ rằng phát trực tiếp là một ví dụ rất đáng tin cậy." "Cho dù đó là một trò chơi trực tiếp trên Twitch hay một bài thuyết trình không xác định, những loại nội dung này có thể dễ dàng được bản địa hóa thông qua AI", Misra nói. "
HeyGen: Muốn phân phối video bằng các ngôn ngữ khác nhau dễ dàng như nhập **
Ngoài Phụ đề, có nhiều công ty cùng loại dịch AI, chẳng hạn như HeyGen**. HeyGen là một công ty AI với hàng triệu người dùng và là một trong những công ty lớn nhất trong lĩnh vực AI kết hợp môi và dịch nội dung video ngắn. Sau khi công ty ra mắt tính năng dịch video vào ngày 7 tháng 9, nó nhanh chóng trở nên phổ biến trên X. Kể từ đó, hàng chục video photorealistic đã lan truyền, với người dùng chia sẻ clip Elon Musk, Messi và Mark Zuckerberg nói bằng nhiều ngôn ngữ nước ngoài. **
Bạn có thể tưởng tượng một công ty đồ chơi nhỏ kiếm được ít hơn một triệu đô la một năm có thể sử dụng những công cụ khá rẻ tiền này không? Burginger cho biết ông là một nghệ sĩ và nhà phát minh có trụ sở tại Hendersonville, Bắc Carolina, và Burginger nói, "điều này giúp san bằng sân chơi với các công ty lớn." "
Mục tiêu của HeyGen là "loại bỏ rào cản ngôn ngữ", Joshua Xu, đồng sáng lập và CEO của công ty cho biết, "trong đó chúng tôi hình dung ra một tương lai nơi sản xuất nội dung video và phổ biến thông tin bằng các ngôn ngữ khác nhau dễ dàng như đánh máy".
Trong một video do AI tạo ra được đăng trên X, Xu nói thêm rằng các nền tảng giáo dục như Coursera, Khan Academy và MasterClass có thể mở rộng phạm vi tiếp cận của họ bằng cách "đa ngôn ngữ". HeyGen hiện hỗ trợ 10 ngôn ngữ nhập liệu và 8 ngôn ngữ đầu ra ** bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Trung, tiếng Ý, tiếng Hindi và tiếng Nhật. **
Trước khi thành lập HeyGen, trước đây được gọi là Movio, Wayne Liang, XU từ Snap và cựu kỹ sư ByteDance, đã thành lập Surreal vào năm 2020.
Vào thời điểm đó, Surreal cung cấp các sản phẩm "**deepfake **" thực tế, "**deepfake **" là một công nghệ tổng hợp video có thể tạo video tổng hợp với thực tế giả mạo. Công nghệ này thu hút các công ty thương mại điện tử muốn quảng cáo sản phẩm của họ một cách hiệu quả hơn. ** Surreal đã bảo đảm 1 triệu đô la trong vòng thiên thần bốn tháng sau khi khởi động hoạt động tại Thâm Quyến, Trung Quốc. ** Cho đến ngày nay, Surreal vẫn hoạt động ở Trung Quốc, đăng tin tuyển dụng và thực tập trên các trang web việc làm và đại học của Trung Quốc, nhưng nền tảng HeyGen của Surreal hoạt động chủ yếu ở Los Angeles, nơi XU và Liang làm việc.
Movio là một nền tảng video AI dựa trên công cụ Surreal ra mắt vào tháng 7/2022. Theo công ty, sản phẩm của họ đã tạo ra doanh thu 1 triệu đô la chỉ trong 7 tháng, sau đó XU và Liang đổi thương hiệu Movio thành HeyGen, ** và kể từ năm 2020, HeyGen và Surreal đã huy động được ít nhất 9 triệu đô la tài trợ từ Sequoia Capital, IDG Capital, ZhenFund và chi nhánh đầu tư mạo hiểm của Baidu, Baidu Ventures. **
**Nguyên văn lấy cảm hứng từ podcast **
Ngoài LipDub và HeyGen, còn có một nền tảng cũng tham gia vào không gian này và Verbalate cũng có thể lồng tiếng video của người dùng sang ngôn ngữ đích đồng thời. Sự khác biệt là Verbalate có thể lồng tiếng qua video dài tới 30 phút.
Davies sử dụng mạng lưới tiếp thị của mình để giới thiệu và bán các dịch vụ của Verbalate cho các khách hàng doanh nghiệp muốn giao tiếp với nhân viên ở nước ngoài. Theo Dom Procter, người sáng lập OutSourced Staff, một công ty gia công phần mềm ở Sydney, "Đối với tôi với tư cách là một nhân viên bán hàng và tiếp thị, nó giúp cuộc sống của tôi dễ dàng hơn. "
Sau khi sử dụng video Verbalate để gửi tin nhắn cho nhân viên từ xa ở châu Á hoặc Đông Âu, Dom Procter lưu ý, "Tạo nội dung bằng ngôn ngữ mẹ đẻ của họ là một người thay đổi cuộc chơi." Gói đăng ký cơ bản nhất của Verbalate là 9 đô la mỗi tháng và cho phép người dùng tạo video dài 10 phút với mức phí bổ sung là 1 đô la mỗi phút. Gói người sáng tạo hàng tháng của HeyGen là 29 đô la mỗi tháng và có thể sản xuất nhiều video, mỗi video dài 5 phút. **
Các nền tảng khác đang xem xét một thị trường lớn hơn và thời gian phát lại video dài hơn. MARZ có trụ sở tại Toronto chủ yếu thu hút các công ty sản xuất phim và truyền hình quan tâm đến diễn xuất bằng giọng nói quang học thông qua nền tảng LipDub AI (không phải LipDub của Captions).
LipDub AI ** hiện đang xử lý một video clip dài một phút chứa nhiều cảnh quay với thời gian chạy dưới 20 phút. Mặc dù công ty hiện đang sử dụng các clip đào tạo để thực hiện các phần lồng tiếng này, nhưng họ hy vọng sẽ tăng tốc độ xử lý trong năm bằng cách bỏ các clip đào tạo và chỉ dựa vào âm thanh và clip thô. Không giống như các nền tảng lồng tiếng khác, LipDub AI không sử dụng các mô hình ngôn ngữ lớn, mà thay vào đó sử dụng mô hình tạo ra của riêng nó, được đào tạo trên cơ sở ghi âm.
Tim Reyes, giám đốc tiếp thị tại MARZ, tin rằng công nghệ hát nhép sẽ giúp các nhà sản xuất mở rộng tác động của một bộ phim hoặc chương trình truyền hình mà không gây nguy hiểm cho sự đảm bảo công việc của nam diễn viên. Reyes lập luận: "LipDub AI thực sự mở ra rất nhiều cơ hội cho các thị trường mới, không giống như một số công nghệ AI khác phá vỡ quy trình làm việc hiện tại trong ngành công nghiệp điện ảnh. "
Ngoài việc mở ra thị trường mới, những người tạo ra các ứng dụng này có những lý tưởng cao cả hơn. Davies hy vọng rằng các chương trình dịch thuật như Verbalate sẽ phá vỡ những thành kiến ngầm về ngôn ngữ của họ và thậm chí thúc đẩy một tư duy toàn cầu hơn. Davies nói rằng trong một video mà nhóm của anh chia sẻ trên X, mọi người từ các khu vực khác nhau có thể được nhìn thấy bày tỏ ý kiến của họ bằng các ngôn ngữ khác nhau, điều này giúp anh suy nghĩ về cách mọi người có thể giao tiếp xuyên biên giới. Davies nghĩ rằng nó có tiềm năng làm cho mọi người trở nên con người hơn một chút, bởi vì mọi người từ các nền văn hóa khác nhau có thể hiểu nhau hơn. **
Davies nói rằng ngay cả những thông điệp chính trị, theo cách nói của bạn, cũng có thể tạo ra sự khác biệt, và nếu chúng ta có thể lắng nghe nhau, có thể giúp đỡ nhân loại.