深い顔の変化に加え、模擬吹き替えや、唇の形にも合わせられるAIソフトが登場

元のソース: GenAI新世界

画像ソース:無制限のAIによって生成

海外メディアの報道によると、先週、ビデオクリエイターが数分でさまざまな言語でコミュニケーションできるAIプログラムであるLipDub**と呼ばれる翻訳ソフトウェアが正式にリリースされました。

LipDubは、2021年にガウラフ・ミスラとドワイト・チャーチルによって設立されたスタートアップCaptionsによって開発されています。 Captionsは、Sequoia Capital、Anderson Horowitz、Instagramの共同創設者Kevin SystromとMike Krieger、Facebookの元プロダクトデザイン担当バイスプレジデントJulie Zhuoから投資支援を受けている。

創設者のGaurav Misraはインドのニューデリー出身で、Snapのデザインエンジニアリングの責任者でした。 ミスラによると、彼はヒンディー語、英語、パンジャブ語、ウルドゥー語など、さまざまな言語で育ちました。 Gaurav Misraはまた、フランス語を学ぶのに何年も費やし、ヨーロッパ、アフリカ、中東で専門的なネットワークを構築するのに役立ちました。

Misraは、AIを活用した翻訳とリップマッチングテクノロジーにより、人々が他の人とつながり、理解しやすくなると信じています。

キャプション:AIによる簡単なビデオ翻訳ローカリゼーション

キャプションは、AIで生成されたキャプション、音声修正、およびポストプロダクションでのビデオクリエーターの眼球の位置を修正する技術を作成することで知られています。 ゴールドマン・サックスで製品開発者として働いていたミスラとチャーチルは、ナレーションの翻訳にリップマッチングを追加したいと考えていましたが、こんなに早く実現するとは思っていませんでした。 「当初、テクノロジーがそこにたどり着くのに10年かかると思っていましたが、今ではテクノロジーの動きが非常に速く、ほぼ毎月、さらには毎週新しいものが出てきています」とミスラ氏は述べています。 "

LipDubは有望なAI翻訳市場に参入しています。 その競合他社には、音声クローン翻訳アプリのHeyGenとVerbalateのほか、Spotifyや視覚効果スタジオのモンスターズエイリアンロボットゾンビなどの企業の新しいツールが含まれます。 **

以前は、多くの企業が同じストーリーを異なる言語で表現するために複数のビデオプレゼンターを雇う必要がありましたが、今ではジェネレーティブAIで同じことができます。 これらのアプリを使用すると、ユーザーはビデオをアップロードして、数分で流暢なトルコ語、フランス語、アラビア語、またはイタリア語に変換できます。

DeepMediaの創設者であるRijul Gupta氏は、「私たちは基本的にこの新しいテクノロジーを完璧に実装しました。誰でも誰かの声を複製し、5秒のオーディオリファレンスで別の言語で話すことができます。 "

XやRedditなどのサイトでは、有名人の吹き替えビデオが何千回も登場しています。 Spotifyは先月、元の音色とイントネーションを維持しながらさまざまな言語に変換できるAI翻訳されたポッドキャストを提供することを発表したときに時流に加わりました。 **

現在、俳優のダックスシェパードとクリステンベル、MITの研究者であるレックスフリッドマンとスティーブンバートレットはすべてスペイン語のポッドキャストを持っており、フランス語とドイツ語の翻訳がまもなく利用可能になります。 新しいSpotifyツールは、OpenAIの新しくリリースされた音声生成テクノロジーを活用して、よりリアルなリスニング体験を提供します。

**昨年初め、MisraとCaptionsのチームはリップマッチングの実験を開始し、パートナーと協力してキャプションアプリでどのように機能するかをテストしました。 **

ミスラは、リップマッチング技術が予想よりも速く進化していることを認めています。 「次のステージに進み、声優や人為的な調整のように感じられないビデオを作成するのは自然なことのようです。」 新しいテクノロジーにより、ビデオは非常に自然で理解しやすく見えます。 「テストの最初から、彼らに新しい可能性が提示されました。 ミスラは言った:「スタートレックで以前に見た技術のように、それはSFです! "

キャプションは、6月にクライナーパーキンスからシリーズBの資金で2500万ドルを受け取りました。 Captionsには現在、毎日10万人のアクティブユーザーがおり、Misraは、LipDubの発売後、同社にはより多くのアクティブユーザーがいると考えています。

**現在、韓国語、スペイン語、チェコ語、タミル語、ウクライナ語を含む28の言語で利用可能なLipDubは、ゼロショットモードを使用して、キャプションのビデオ生成モデルで被写体を見ることなくスムーズなビデオを配信します。 **

LipDubsの社内機械学習アルゴリズムは、スピーカーの唇の動きを認識するようにトレーニングされており、同社はOpenAIのGPT-4モデルを使用して、アプリ内のビデオをさまざまな言語や方言に翻訳しています。 このAIボイスオーバーテクノロジーは、キャプションアプリですでに使用されており、今年3月にリリースされ、世界中のユーザーを魅了しています。

「他の方法では特定のオーディエンスにリーチできない人々が、今ではそれを行うことができます」とミスラは言いました。 このテクノロジーはユートピアの未来の完璧な例なので、私はそれに非常に興奮しています。 "

ミスラによると、新しいテクノロジーの可能性は無限大です。 「ライブストリーミングは非常に信頼できる例だと思います。」 「Twitchのライブゲームであろうと、未知のプレゼンテーションであろうと、これらのタイプのコンテンツはAIを介して簡単にローカライズできます」とMisra氏は言います。 "

HeyGen: タイピングと同じくらい簡単に異なる言語での動画配信をしたい**

キャプション以外にも、HeyGen**など、同じタイプのAI翻訳の会社がたくさんあります。 HeyGenは数百万人のユーザーを抱えるAI企業であり、AIリップマッチングと短いビデオコンテンツの翻訳の分野で最大のプレーヤーの1つです。 同社が9月7日にビデオ翻訳機能を開始した後、Xですぐに人気を博しました。 それ以来、数十のフォトリアリスティックなビデオが口コミで広まり、ユーザーはイーロンマスク、メッシ、マークザッカーバーグが複数の外国語で話すクリップを共有しています。 **

玩具会社Qubitsの責任者であるマーク・バージンジャーは、かつて「シャークタンク」と呼ばれるショーでSTEM中心の会社を売り込みました。 好奇心から、彼は9月13日にHeyGenのAI翻訳機能を試しました。 彼はスペイン語を理解していなかったにもかかわらず、スペイン語で話している自分のビデオをXに投稿しました。

「年間100万ドル未満の小さな玩具会社が、これらのかなり安価なツールを使用できると想像できますか?」 バージンジャーは、ノースカロライナ州ヘンダーソンビルを拠点とするアーティスト兼発明家であり、バージンジャーは「大企業との競争の場を平準化するのに役立つ」と述べました。 "

HeyGenの目標は「言語の壁を取り除くこと」であり、同社の共同創設者兼CEOであるJoshua Xuは、「ビデオコンテンツの制作とさまざまな言語での情報の配布が入力するのと同じくらい簡単になる未来を思い描いています」と述べています。

Xに投稿されたAI生成ビデオで、Xu氏は、Coursera、Khan Academy、MasterClassなどの教育プラットフォームは、「多言語」であることでリーチを拡大できると付け加えました。 HeyGenは現在、英語、スペイン語、中国語、イタリア語、ヒンディー語、日本語を含む10の入力言語と8つの出力言語**をサポートしています。 **

HeyGen CEO ジョシュア・シュー

以前はMovioとして知られていたHeyGen、SnapのXU、元ByteDanceエンジニアのウェイン・リャンを設立する前は、2020年にSurrealを設立しました。

当時、シュールリアルはリアルな「ディープフェイク**」製品を提供し、「ディープフェイク」はフェイクリアリティのある合成ビデオを作成できるビデオ合成技術です。 このテクノロジーは、より効率的な方法で自社製品を宣伝したいeコマース企業にアピールします。 **Surrealは、中国の深センで事業を開始してから4か月後にエンジェルラウンドで100万ドルを確保しました。 **今日まで、Surrealは中国で活動しており、中国の雇用および大学のWebサイトに求人情報やインターンシップを掲載していますが、SurrealのHeyGenプラットフォームは主にXuとLiangが働いているロサンゼルスで運営されています。

Movioは、2022年7月に発売されたシュールリアルエンジンをベースにしたAI動画プラットフォームです。 同社によると、同社の製品はわずか7か月で100万ドルの収益を上げ、その後、XUとLiangはMovioをHeyGen**にブランド変更し、2020年以降、HeyGenとSurrealはSequoia Capital、IDG Capital、ZhenFund、およびBaiduのベンチャーキャピタル部門であるBaidu Venturesから少なくとも900万ドルの資金を調達しました。 **

ポッドキャストに触発された口頭

LipDubとHeyGenに加えて、このスペースにも関与するプラットフォームがあり、Verbalateはユーザーのビデオを同時にターゲット言語にダビングすることもできます。 違いは、Verbalateは最大30分の長さのビデオをボイスオーバーできることです。

プラットフォームの創設者であるグラントデイビスによると、Verbalateはパンデミック時の退屈から純粋に生まれました。 2022年のある日、デイビスは乗っているときにジョーローガンとミスタービーストとのポッドキャストインタビューを聞きました。 当時、YouTuberは、世界人口の10%未満が英語を話すため、彼のチャンネルが声優を使用してビデオをスペイン語、ロシア語、ヒンディー語、ポルトガル語、その他の言語に吹き替えていると述べました。 当時、DaviesはAIテクノロジーに取り組んでいましたが、チームがそれを実行できるとは思っていませんでした。

Daviesは、マーケティングネットワークを使用して、海外の従業員とコミュニケーションを取りたい企業クライアントにVerbalateのサービスを紹介および販売しています。 シドニーのアウトソーシング会社であるOutSourced Staffの創設者であるDom Procterによると、「セールスおよびマーケターとしての私にとって、それは私の人生を楽にします。 "

Dom Procter氏は、口頭での動画を使用してアジアや東ヨーロッパの遠隔地の従業員にメッセージを送信した経験から、「母国語でコンテンツを作成することはゲームチェンジャーです」と述べています。 Verbalateの最も基本的なサブスクリプションプランは月額$ 9で、ユーザーは10分あたり$ 1の追加料金で1分間の長さのビデオを作成できます。 HeyGenの月額クリエイタープランは月額29ドルで、それぞれ5分の複数のビデオを制作できます。 **

他のプラットフォームは、より大きな市場とより長いビデオ再生時間を検討しています。 トロントを拠点とするMARZは、主にLipDub AIプラットフォーム(キャプションのLipDubではない)を通じてフォトリアリスティックな声優に関心のある映画やテレビ制作会社を引き付けています。

LipDub AI**は現在、実行時間が20分未満の複数のショットを含む1分間のビデオクリップを処理しています。 同社は現在、トレーニングクリップを使用してこれらのナレーションを作成していますが、トレーニングクリップを捨て、オーディオクリップと生クリップのみに依存することで、年内に処理を高速化したいと考えています。 他のダビングプラットフォームとは異なり、LipDub AIは大規模な言語モデルを使用せず、代わりに録音ベースでトレーニングされた独自の生成モデルを使用します。

MARZのマーケティングディレクターであるTim Reyesは、リップシンクテクノロジーは、プロデューサーが俳優の雇用保障を危険にさらすことなく、映画やテレビ番組の影響を拡大するのに役立つと信じています。 「LipDub AIは、映画業界の現在のワークフローを混乱させる他のAIテクノロジーとは異なり、実際には新しい市場に多くの機会を開きます。 "

新しい市場を開拓することに加えて、これらのアプリの作成者はより高尚な理想を持っています。 Daviesは、Verbalateのような翻訳プログラムが、自国の言語に関する暗黙の偏見を打ち破り、よりグローバルな考え方を育むことを望んでいます。 Daviesは、彼のチームがXで共有したビデオでは、さまざまな地域の人々がさまざまな言語で意見を述べているのを見ることができ、人々が国境を越えてコミュニケーションをとる方法を考えるのに役立ったと言います。 Daviesは、異なる文化の人々がお互いをよりよく理解できるため、人々をもう少し人間的にする可能性を秘めていると考えています。」 **

デイビスは、あなた自身の言葉で政治的メッセージでさえ違いを生むことができ、私たちがお互いに耳を傾けることができれば、人類を助けることが可能であると言います。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)