بالإضافة إلى التغيير العميق للوجه ، ظهرت محاكاة الدبلجة وبرامج الذكاء الاصطناعي التي يمكن أن تتطابق أيضا مع أشكال الشفاه

المصدر الأصلي: GenAI العالم الجديد

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

وفقا لتقارير وسائل الإعلام الأجنبية ، تم إطلاق برنامج ترجمة يسمى LipDub ** الأسبوع الماضي رسميا ، وهو برنامج الذكاء الاصطناعي يسمح لمنشئي الفيديو بالتواصل بلغات مختلفة في دقائق.

يتم تطوير LipDub بواسطة شركة Captions الناشئة ، التي تأسست في عام 2021 من قبل غوراف ميسرا ودوايت تشرشل. تلقت Captions دعما استثماريا من Sequoia Capital و Anderson Horowitz ومؤسسي Instagram Kevin Systrom و Mike Krieger و Julie Zhuo ، نائب الرئيس السابق لتصميم المنتجات في Facebook.

المؤسس غوراف ميسرا من نيودلهي ، الهند ، وكان رئيس هندسة التصميم في Snap. وفقا لميسرا ، نشأ في مجموعة متنوعة من اللغات المختلفة ، بما في ذلك الهندية والإنجليزية والبنجابية والأردية. كما أمضى غوراف ميسرا سنوات في تعلم اللغة الفرنسية، مما ساعده على بناء شبكات مهنية في أوروبا وأفريقيا والشرق الأوسط.

تعتقد ميسرا أن الترجمة المدعومة من الذكاء الاصطناعي وتقنية مطابقة الشفاه يمكن أن تساعد الناس على التواصل وفهم الآخرين بسهولة أكبر.

التسميات التوضيحية: ترجمة فيديو سهلة التعريب باستخدام الذكاء الاصطناعي

تشتهر التسميات التوضيحية بإنتاج تسميات توضيحية تم إنشاؤها بواسطة الذكاء الاصطناعي وتصحيح الصوت والتقنيات التي تصحح موضع مقل عيون منشئي الفيديو في مرحلة ما بعد الإنتاج. لطالما أراد ميسرا وتشرشل، اللذان عملا سابقا كمطورين للمنتجات في جولدمان ساكس، إضافة مطابقة الشفاه إلى الترجمات الصوتية، لكنهما لم يتوقعا أن يحدث ذلك بهذه السرعة. وقال ميسرا: "اعتقدنا في البداية أن الأمر سيستغرق 10 سنوات حتى تستغرق التكنولوجيا 10 سنوات للوصول إلى هناك ، ولكن الآن تتحرك التكنولوجيا بسرعة كبيرة لدرجة أن أشياء جديدة تظهر كل شهر تقريبا أو حتى كل أسبوع". "

تدخل LipDub سوق ترجمة الذكاء الاصطناعي واعدة. ومن بين منافسيها تطبيقات ترجمة الاستنساخ الصوتي HeyGen و Verbalate ، بالإضافة إلى أدوات جديدة من شركات مثل Spotify واستوديو التأثيرات المرئية Monsters Aliens Robots Zombies. **

حيث كانت العديد من الشركات في الماضي بحاجة إلى توظيف العديد من مقدمي الفيديو للتعبير عن نفس القصة بلغات مختلفة ، ولكن الآن يمكنهم فعل الشيء نفسه مع الذكاء الاصطناعي التوليدية. تتيح هذه التطبيقات للمستخدمين تحميل مقاطع الفيديو ثم تحويلها إلى التركية أو الفرنسية أو العربية أو الإيطالية بطلاقة في دقائق.

وقال ريجول جوبتا ، مؤسس DeepMedia: "لقد طبقنا هذه التكنولوجيا الجديدة بشكل مثالي ، يمكن لأي شخص استنساخ صوت أي شخص وجعله يتحدث بلغة مختلفة مع مرجع صوتي مدته 5 ثوان. "

على مواقع مثل X و Reddit ، ظهرت مقاطع فيديو مدبلجة لبعض الأشخاص المعروفين آلاف المرات. انضمت Spotify إلى العربة الشهر الماضي عندما أعلنت أنها ستقدم ملفات بودكاست مترجمة الذكاء الاصطناعي يمكن تحويلها إلى لغات مختلفة مع الحفاظ على جرسها الأصلي وتنغيمها. **

حاليا ، لدى الممثلين داكس شيبرد وكريستين بيل ، وباحثي معهد ماساتشوستس للتكنولوجيا ليكس فريدمان وستيفن بارتليت ، بودكاست باللغة الإسبانية ، وستتوفر ترجمات فرنسية وألمانية قريبا. تستفيد أداة Spotify الجديدة من تقنية توليد الصوت التي تم إصدارها حديثا من OpenAI لتقديم تجربة استماع أكثر واقعية.

** في أوائل العام الماضي ، بدأ الفريق في Misra and Captions في تجربة مطابقة الشفاه والعمل مع الشركاء لاختبار كيفية عملها في تطبيق Captions. **

يعترف ميسرا بأن تقنية مطابقة الشفاه تتطور بشكل أسرع مما كان يتوقع. "يبدو أنه من الطبيعي الانتقال إلى المرحلة التالية ، وإنشاء مقطع فيديو لا يشبه التمثيل الصوتي أو التعديلات الاصطناعية." التكنولوجيا الجديدة تجعل مقاطع الفيديو تبدو طبيعية جدا وسهلة الفهم. "منذ بداية الاختبار ، تم تقديم إمكانية جديدة لهم. قال ميسرا: "مثل التكنولوجيا التي رأيناها من قبل في Star Trek ، إنها خيال علمي! "

تلقت التسميات التوضيحية 25 مليون دولار في تمويل السلسلة ب من كلاينر بيركنز في يونيو. لدى Captions الآن 100000 مستخدم نشط يوميا ، ويعتقد Misra أن الشركة سيكون لديها المزيد من المستخدمين النشطين بعد إطلاق LipDub.

**يستخدم LipDub، المتوفر حاليا ب 28 لغة، بما في ذلك الكورية والإسبانية والتشيكية والتاميلية والأوكرانية، وضع عدم اللقطة لتقديم مقاطع فيديو سلسة دون رؤية الهدف في نموذج إنشاء الفيديو الخاص بالتسميات التوضيحية. **

يتم تدريب خوارزميات التعلم الآلي الداخلية في LipDubs على التعرف على حركات الشفاه للمتحدثين ، وتستخدم الشركة أيضا نموذج GPT-4 من OpenAI لترجمة مقاطع الفيديو إلى لغات ولهجات مختلفة في التطبيق. يتم استخدام تقنية التعليق الصوتي الذكاء الاصطناعي هذه بالفعل في تطبيق Captions وتم إصدارها في مارس من هذا العام ، مما جذب المستخدمين من جميع أنحاء العالم.

قال ميسرا: "يمكن للأشخاص الذين لن يتمكنوا من الوصول إلى جمهور معين القيام بذلك الآن". هذه التكنولوجيا هي مثال مثالي لمستقبل طوباوي ، لذلك أنا متحمس جدا لها. "

وفقا لميسرا ، فإن إمكانيات التقنيات الجديدة لا حصر لها. "أعتقد أن البث المباشر هو مثال موثوق للغاية." يقول ميسرا: "سواء كانت لعبة مباشرة على Twitch أو عرضا تقديميا غير معروف ، يمكن ترجمة هذه الأنواع من المحتوى بسهولة من خلال الذكاء الاصطناعي". "

HeyGen: تريد أن تجعل توزيع الفيديو بلغات مختلفة سهلا مثل الكتابة **

بالإضافة إلى التسميات التوضيحية ، هناك العديد من الشركات من نفس النوع من الترجمة الذكاء الاصطناعي ، مثل HeyGen **. HeyGen هي شركة الذكاء الاصطناعي تضم ملايين المستخدمين وهي واحدة من أكبر اللاعبين في مجال مطابقة الشفاه الذكاء الاصطناعي وترجمة محتوى الفيديو القصير. بعد أن أطلقت الشركة ميزة ترجمة الفيديو في 7 سبتمبر ، سرعان ما أصبحت شائعة على X. منذ ذلك الحين ، انتشرت العشرات من مقاطع الفيديو الواقعية ، حيث شارك المستخدمون مقاطع من Elon Musk و Messi و Mark Zuckerberg يتحدثون بلغات أجنبية متعددة. **

قام مارك بورغنجر ، رئيس شركة الألعاب Qubits ، ذات مرة بعرض شركته التي تركز على العلوم والتكنولوجيا والهندسة والرياضيات في عرض يسمى "Shark Tank". بدافع الفضول ، جرب ميزة الترجمة الذكاء الاصطناعي ل HeyGen في 13 سبتمبر. نشر مقطع فيديو على X لنفسه يتحدث باللغة الإسبانية ، على الرغم من أنه لا يفهم الإسبانية.

"هل يمكنك أن تتخيل شركة ألعاب صغيرة تجني أقل من مليون دولار سنويا قادرة على استخدام هذه الأدوات غير المكلفة إلى حد ما؟" قال بورغنجر إنه فنان ومخترع مقيم في هندرسونفيل بولاية نورث كارولينا ، وقال بورغنجر ، "مما يساعد على تكافؤ الفرص مع الشركات الكبيرة". "

يقول جوشوا شو ، المؤسس المشارك والرئيس التنفيذي للشركة ، إن هدف HeyGen هو "إزالة حاجز اللغة" ، "حيث نتصور مستقبلا يكون فيه إنتاج محتوى الفيديو ونشر المعلومات بلغات مختلفة أمرا سهلا مثل الكتابة".

في مقطع فيديو تم إنشاؤه عام الذكاء الاصطناعي تم نشره على X ، أضاف شو أن المنصات التعليمية مثل Coursera و Khan Academy و MasterClass يمكنها توسيع نطاق وصولها من خلال كونها "متعددة اللغات". يدعم HeyGen حاليا 10 لغات إدخال و 8 لغات إخراج ** بما في ذلك الإنجليزية والإسبانية والصينية والإيطالية والهندية واليابانية. **

الرئيس التنفيذي لشركة HeyGen جوشوا شو

قبل تأسيس HeyGen ، المعروف سابقا باسم Movio ، أسس Wayne Liang ، XU من Snap ومهندس ByteDance السابق ، Surreal في عام 2020.

في ذلك الوقت ، عرضت Surreal منتجات واقعية "** deepfake " ، " deepfake **" هي تقنية تركيب فيديو يمكنها إنشاء مقاطع فيديو مركبة بواقع مزيف. تروق هذه التقنية لشركات التجارة الإلكترونية التي ترغب في الإعلان عن منتجاتها بطريقة أكثر كفاءة. ** حصلت سريالية على 1 مليون دولار في جولة ملاك بعد أربعة أشهر من إطلاق العمليات في شنتشن ، الصين. ** حتى يومنا هذا ، لا تزال Surreal نشطة في الصين ، حيث تنشر إعلانات الوظائف والتدريب الداخلي على مواقع التوظيف والجامعات في الصين ، لكن منصة HeyGen الخاصة ب Surreal تعمل بشكل أساسي في لوس أنجلوس ، حيث يعمل XU و Liang.

Movio هي منصة فيديو الذكاء الاصطناعي تعتمد على المحرك السريالي الذي تم إطلاقه في يوليو 2022. وفقا للشركة ، حقق منتجها إيرادات بقيمة 1 مليون دولار في 7 أشهر فقط ، وبعد ذلك أعادت XU و Liang تسمية Movio إلى HeyGen ، ** ومنذ عام 2020 ، جمعت HeyGen و Surreal ما لا يقل عن 9 ملايين دولار من التمويل من Sequoia Capital و IDG Capital و ZhenFund وذراع رأس المال الاستثماري لشركة Baidu ، Baidu Ventures. **

حرفي مستوحى من البودكاست

بالإضافة إلى LipDub و HeyGen ، هناك أيضا نظام أساسي يشارك أيضا في هذا الفضاء ، ويمكن ل Verbalate أيضا دبلجة مقاطع فيديو المستخدمين إلى اللغة المستهدفة في وقت واحد. الفرق هو أن Verbalate يمكنه نقل مقاطع الفيديو الصوتية لمدة تصل إلى 30 دقيقة.

وفقا لمؤسس المنصة ، جرانت ديفيز ، ولد Verbalate بحتة من الملل أثناء الوباء. في أحد أيام عام 2022 ، سمع ديفيز مقابلة بودكاست مع جو روغان والسيد بيست أثناء الركوب. في ذلك الوقت، ذكر مستخدم YouTube أن قناته كانت تستخدم ممثلين صوتيين لدبلجة مقاطع الفيديو إلى الإسبانية والروسية والهندية والبرتغالية ولغات أخرى، حيث يتحدث أقل من 10٪ من سكان العالم اللغة الإنجليزية. كان ديفيز يعمل على تكنولوجيا الذكاء الاصطناعي في ذلك الوقت ، ولم يعتقدوا أن فريقهم سيكون قادرا على القيام بذلك.

تستخدم Davies شبكتها التسويقية لتقديم وبيع خدمات Verbalate للعملاء من الشركات الذين يرغبون في التواصل مع الموظفين في الخارج. وفقا لدوم بروكتر ، مؤسس OutSourcingd Staff ، وهي شركة تعهيد خارجية في سيدني ، "بالنسبة لي كمبيعات ومسوق ، فإنه يجعل حياتي أسهل. "

بعد استخدام مقاطع فيديو Verbalate لإرسال رسائل إلى الموظفين عن بعد في آسيا أو أوروبا الشرقية ، يلاحظ Dom Procter ، "إن إنشاء المحتوى بلغتهم الأم يغير قواعد اللعبة". خطة الاشتراك الأساسية ل Verbalate هي 9 دولارات شهريا وتسمح للمستخدمين بإنشاء مقطع فيديو مدته 10 دقائق مقابل رسوم إضافية قدرها 1 دولار في الدقيقة. تبلغ تكلفة خطة منشئي المحتوى الشهرية من HeyGen 29 دولارا شهريا ويمكنها إنتاج مقاطع فيديو متعددة مدة كل منها 5 دقائق. **

تبحث المنصات الأخرى عن سوق أكبر وأوقات تشغيل فيديو أطول. تجذب MARZ التي تتخذ من تورنتو مقرا لها في المقام الأول شركات الإنتاج السينمائي والتلفزيوني المهتمة بالتمثيل الصوتي الواقعي من خلال منصة LipDub الذكاء الاصطناعي (وليس LipDub من Captions).

يعالج LipDub الذكاء الاصطناعي** حاليا مقطع فيديو مدته دقيقة واحدة يحتوي على لقطات متعددة بوقت تشغيل أقل من 20 دقيقة. بينما تستخدم الشركة حاليا مقاطع التدريب لعمل هذه التعليقات الصوتية ، فإنها تأمل في تسريع المعالجة خلال العام من خلال التخلص من مقاطع التدريب والاعتماد فقط على الصوت والمقاطع الخام. على عكس منصات الدبلجة الأخرى ، لا تستخدم LipDub الذكاء الاصطناعي نماذج لغوية كبيرة ، ولكنها تستخدم بدلا من ذلك نموذجها التوليدي الخاص ، والذي يتم تدريبه على أساس التسجيل الصوتي.

يعتقد تيم رييس ، مدير التسويق في MARZ ، أن تقنية مزامنة الشفاه ستساعد المنتجين على توسيع تأثير الفيلم أو البرنامج التلفزيوني دون تعريض الأمن الوظيفي للممثل للخطر. يقول رييس: "تفتح LipDub الذكاء الاصطناعي في الواقع مجموعة كاملة من الفرص لأسواق جديدة ، على عكس بعض التقنيات الذكاء الاصطناعي الأخرى التي تعطل سير العمل الحالي في صناعة السينما. "

بالإضافة إلى فتح أسواق جديدة ، يتمتع منشئو هذه التطبيقات بمثل أعلى. يأمل ديفيز أن تعمل برامج الترجمة مثل Verbalate على كسر التحيزات الضمنية حول لغتهم وحتى تعزيز عقلية أكثر عالمية. يقول ديفيز إنه في مقطع فيديو شاركه فريقه على X ، يمكن رؤية أشخاص من مناطق مختلفة يعبرون عن آرائهم بلغات مختلفة ، مما ساعده على التفكير في كيفية قدرة الناس على التواصل عبر الحدود. يعتقد ديفيز أن لديها القدرة على جعل الناس أكثر إنسانية ، لأن الناس من ثقافات مختلفة يمكنهم فهم بعضهم البعض بشكل أفضل. **

يقول ديفيز إنه حتى الرسائل السياسية ، بكلماتك الخاصة ، يمكن أن تحدث فرقا ، وإذا استطعنا الاستماع إلى بعضنا البعض ، فمن الممكن مساعدة البشرية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت