تسهل مايكروسوفت إنتاج الفيديو بواسطة الذكاء الاصطناعي
يمكن للمستخدمين التعامل مع الكائنات أو الإطارات الكاملة للفيديو باستخدام مسارات محددة، هذا يسهل عملية إنشاء فيديو يتم التحكم فيه بشكل كبير من النواحي الدلالية والمكانية والزمانية، مع الحفاظ على جودة الإخراج في الوقت نفسه.
قدمت مايكروسوفت معايير التعلم للنموذج كمصدر مفتوح، وقدمت عرضًا توضيحيًا للمشروع، مما يتيح للمجتمع تجربته.
يتعلق توليد الفيديو بالذكاء الاصطناعي بالنص أو الصورة أو المدخلات المستندة إلى المسار، وكل نهج يواجه تحديات في تقديم تحكم دقيق في النتائج المطلوبة.
يفشل الجمع بين النص والصورة في نقل تفاصيل الحركة المعقدة الموجودة في الفيديو، وقد لا تعبر الصور والمسارات بشكل صحيح عن الأشياء المستقبلية، وقد تؤدي النصوص والمسارات إلى الغموض عند التعبير عن المفاهيم المجردة.
تقدم مايكروسوفت نموذج DragNUWA لتحسين توليد الفيديو بالذكاء الاصطناعي
اقترح فريق الذكاء الاصطناعي في مايكروسوفت نموذج DragNUWA في أغسطس 2023 لحل هذه المشكلة، حيث يعتبر نموذجًا قائمًا على الانتشار مفتوح المدى يجمع بين العوامل الثلاثة.
يتيح هذا للمستخدم تحديد النص والصورة والمسار المطلوب في الإدخال للتحكم في الجوانب، مثل حركات الكاميرا، ويشمل ذلك تأثيرات التكبير والتصغير، أو حركة الكائن في الفيديو الناتج.
يوفر المسار تفاصيل الحركة، وتقدم النصوص تفاصيل عن الأشياء المستقبلية، وتضيف الصور التمييز بين الكائنات.
أكدت مايكروسوفت في اختباراتها أن النموذج كان قادرًا على تحقيق حركات دقيقة للكاميرا والكائنات بمسارات سحب مختلفة.