除了深度換臉、類比配音,還能口型匹配的AI軟體出現了

原文來源:GenAI新世界

圖片來源:由無界 AI生成

據海外媒體報導,上週一款名為LipDub 的翻譯軟體正式發佈,這款AI程式可以讓視頻創作者在幾分鐘內使用不同語言進行交流。

LipDub由初創公司Captions開發,這家公司成立於2021年,由Gaurav Misra和 Dwight Churchill聯合成立。 Captions目前已經獲得了紅杉資本、安德森-霍洛維茨、Instagram聯合創始人Kevin Systrom和Mike Krieger以及Facebook前產品設計副總裁Julie Zhuo的投資支援。

創始人Gaurav Misra來自印度新德里,曾是Snap的設計工程主管。 Misra表示,他的成長環境中充滿了印地語、英語、旁遮普語和烏爾都語等各種不同的語言。 而Gaurav Misra還花了數年時間學習法語,這説明他在歐洲、非洲和中東建立了專業的關係網。

Misra相信,AI驅動的翻譯和口型匹配技術可以幫助人們更輕鬆地聯繫和理解他人。

Captions:利用 AI 輕鬆實現視頻翻譯當地語系化

Captions以製作AI生成的字幕、語音糾正以及在後期製作中糾正視頻創作者眼球位置的技術而聞名。 Misra 和 Churchill 曾在高盛集團擔任產品開發人員,他們早就想在配音翻譯中加入口型匹配功能,但沒想到會這麼快實現。 Misra說:「我們最初認為這項技術需要10年時間才能夠實現,但現在的技術發展實在太快了,幾乎每月甚至每周都有新東西出現。 ”

LipDub正在進入一個很有前景的AI翻譯市場。 **它的競爭對手包括語音克隆翻譯應用 HeyGen 和Verbalate,以及Spotify和視覺特效工作室Monsters Aliens Robots Zombies等公司推出的新工具。 **

過去,許多企業需要聘請多個視頻主持人用不同的語言表達同一個故事,而現在,他們可以通過生成式AI來實現同樣的功能。 這些應用程式允許使用者上傳視頻,然後在幾分鐘內將其轉換成流利的土耳其語、法語、阿拉伯文或義大利語。

DeepMedia公司的創始人Rijul Gupta表示:「我們基本上已經完美地實現了這項新技術,任何人都可以克隆任何人的聲音,並通過5秒鐘的音訊參考,讓它用不同的語言說話。 ”

在 X 和Reddit等網站上,一些知名人士的配音視頻已經出現了數千次。 **Spotify 上個月也加入了這一行列,他們宣佈將提供人工智慧翻譯的播客,讓這些播客保持原本音色和語調的同時轉換為不同的語言。 **

目前,演員Dax Shepard和Kristen Bell、麻省理工學院研究員Lex Fridman和Steven Bartlett等人都有了西班牙語播客,法語和德語翻譯也將很快推出。 新的 Spotify 工具利用了OpenAI最新發佈的語音生成技術,可提供更真實的聽覺體驗。

**去年年初,Misra和 Captions 的團隊開始嘗試口型匹配技術,並與合作夥伴測試該技術在Captions應用程式中的效果。 **

Misra坦言,口型匹配技術發展速度比他預期的要快。 “這看起來就像是自然地進入下一階段,創造出一種不像是配音或者人工調整的視頻。 新的技術讓視頻看起來非常自然且易於理解。 “從測試開始,一種新的可能性便已展示在他們面前。 Misra表示:“就像我們以前在《星際迷航》中看到的那些科技一樣,這簡直就是科幻! ”

Captions今年6月獲得了來自Kleiner Perkins 領投的 2500 萬美元的B輪融資。 目前Captions的日活躍使用者已達10萬,Misra認為LipDub推出后該公司將會擁有更多的活躍使用者。

**目前LipDub 支援28種語言,包括韓語、西班牙文、捷克語、泰米爾語和烏克蘭語,它採用零鏡頭模式,可以在Captions的視頻生成模型在沒見過主題的情況下推出流暢的視頻。 **

LipDubs的內部機器學習演算法經過訓練,可以識別講話人的唇部動作,公司還使用 OpenAI 的GPT-4模型,在應用中將視頻翻譯成不同的語言和方言。 這種 AI 配音技術已在Captions應用程式中使用,並於今年3月發佈,吸引了來自世界各地的使用者。

Misra說:“原本無法接觸到特定受眾的人現在可以做到了。 這項技術是烏托邦式未來的完美範例,所以我對此感到非常興奮。 ”

Misra認為,新技術的可能性是無窮無盡的。 “我認為直播是一個非常可靠的案例。” Misra表示:「無論是 Twitch 上的遊戲直播,還是不知名的演講,這些類型的內容都可以通過 AI 輕易地當地語系化。 ”

HeyGen:想讓不同語言的視頻傳播像打字一樣簡單

除了Captions,還有很多同類型AI翻譯的公司,比如HeyGen。 HeyGen 是一家擁有數百萬使用者的AI公司,是短視頻內容AI口型匹配成和翻譯領域最大的參與者之一。 該公司在 9 月 7 日上線視頻翻譯功能後,在 X 上迅速走紅。 自此以後,數十個逼真的視頻在網上瘋傳,**使用者分享了埃隆-馬斯克、梅西和馬克·紮克伯格用多種外語講話的片段。 **

Mark Burginger是玩具公司Qubits的負責人,他曾在一個名為 「鯊魚坦克」節目中推銷他以STEM為中心的公司。 出於好奇,他於 9 月 13 日試用了 HeyGen 的人工智慧翻譯功能。 他在X上發佈了一段自己用西班牙文說話的視頻,儘管他並不懂西班牙文。

“你能想像一家一年收入不到一百萬美元的小型玩具公司能夠使用這些價格相當低廉的工具嗎?” Burginger說,他是一名藝術家和發明家,工作地點在北卡羅來納州亨德森維爾,Burginger表示,“這有助於與大公司公平競爭。 ”

HeyGen 的目標是“消除語言障礙”,公司聯合創始人兼首席執行官Joshua Xu說:“我們設想在未來,用不同語言製作視頻內容和傳播資訊,就像打字一樣簡單”。

在 X 上發佈的一段人工智慧生成的視頻中,Xu補充說,Coursera、Khan Academy、和MasterClass等教育平臺可以通過“多語言化”來擴大影響力。 HeyGen 目前支援10種輸入語言和8種輸出語言,**包括英語、西班牙文、中文、義大利語、印地語和日語等。 **

HeyGen首席執行官Joshua Xu

在創辦原名為Movio的HeyGen之前,來自Snap的XU和前位元組跳動工程師Wayne Liang於2020年創辦了Surreal。

當時,Surreal提供逼真的“深度偽造”產品,“深度偽造”是一種視頻合成技術,可以創作出以假亂真的合成視頻。 這種技術吸引了希望以更有效方式宣傳產品的電子商務公司。 **Surreal在中國深圳啟動運營四個月後,在一輪天使投資中獲得了100萬美元的投資。 **時至今日,Surreal仍活躍在中國,在中國的就業和大學網站上發佈招聘和實習資訊,但Surreal的HeyGen平臺主要在洛杉磯運營,XU和Liang在洛杉磯工作。

Movio 是一個基於Surreal引擎的AI視頻平臺,於2022年7月推出。 據該公司稱,其產品僅在7個月內就獲得了100萬美元的收入,之後 XU 和 Liang 將 Movio 更名為HeyGen,**自2020年以來,HeyGen和Surreal已從紅杉資本、IDG資本、真格基金和百度的風險投資部門百度風投(Baidu Ventures)獲得了至少900萬美元的融資。 **

被播客啟發誕生的Verbalate

除了 LipDub和HeyGen之外,還有一個平臺也在涉足該領域,Verbalate也能將使用者的視頻同步配音成目標語言。 不同的是,Verbalate可以為長達30分鐘的視頻配音。

據該平台創始人Grant Davies表示,Verbalate純粹是因為疫情流行期間的無聊而誕生的。 在2022年的一天,Davies在騎車時聽到Joe Rogan和MrBeast的播客訪談。 當時這位YouTuber提到,**他的頻道正在使用配音演員將視頻配音成西班牙文、俄語、印地語、葡萄牙語等語言,因為全世界只有不到10%的人說英語。 **Davies當時正在研究AI技術,他們沒撒航就覺得他們的團隊肯定能夠實現這個功能。

Davies利用自己的行銷網路向希望與海外員工溝通的企業客戶介紹並銷售Verbalate的服務。 據悉尼一家外包公司OutSourced Staff的創始人Dom Procter表示:「對我這個銷售和行銷人員來說,它讓我的生活變得更輕鬆。 ”

他曾使用 Verbalate視頻向亞洲或東歐的遠端員工發送資訊,Dom Procter指出:「用他們的母語製作內容,這改變了遊戲規則。 “**Verbalate最基本的訂閱計劃每月9美元,允許使用者創建一個10分鐘長的視頻,每分鐘的額外費用為1美元。 而HeyGen的創作者包月套餐每月29美元,可以製作多個視頻,每個視頻5分鐘。 **

其他平臺則著眼於更大的市場和更長的視頻播放時間。 總部位於多倫多的 MARZ 公司主要通過其LipDub AI平臺(並非 Captions 的LipDub)吸引對逼真配音感興趣的電影和電視製作公司。

LipDub AI 目前處理一分鐘包含多個鏡頭的視頻片段的運行時間不到20分鐘。 雖然該公司目前使用訓練片段來製作這些配音,但它希望在年內通過放棄訓練片段而只依靠音訊和原始片段來加快處理速度。 與其他配音平臺不同,LipDub AI不使用大型語言模型,而是使用自己的生成模型,該模型在錄音基礎上進行訓練。

MARZ 市場總監Tim Reyes認為,口型合成技術將説明製片人擴大電影或電視節目的影響力,同時又不會危及演員的工作保障。 Reyes認為:「LipDub AI 實際上為新市場開闢了一大堆機會,這不像其他一些人工智慧技術,他們破壞了電影業目前的工作流程。 ”

除了開拓新市場,這些應用程式的創造者們還有更崇高的理想。 Davies希望,像 Verbalate 這樣的翻譯程式能夠打破人們對自己語言的隱性偏見,甚至培養一種更加全球化的思維方式。 Davies說,在他的團隊在 X 上分享的一個視頻中,可以看到來自不同地區的人們用不同語言發表自己的觀點,這説明他思考人們是如何能夠跨越國界進行溝通。 **Davies認為這有可能讓人們變得更人性化一些,因為不同文化背景的人們可以更好地理解彼此“。 **

Davies表示,即使是政治資訊,用你自己的語言也會產生不同的效果,如果我們能夠相互傾聽,就有可能幫助人類。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)