أربعة نماذج فيديو بالذكاء الاصطناعي، وموجّه واحد صعب

باختصار

ما الذي تقوله هذه المقالة

كان Seedance 2.0 أفضل نموذج فيديو بالذكاء الاصطناعي في هذا الاختبار. فقد اتّبع موجّه القفز بالمظلة من منظور الشخص الأول بأكمل صورة، وحافظ على إحساس كاميرا الخوذة، وتضمّن الصوت، وكلّف نحو $2.43. بدا Veo 3.1 فاخرًا لكنه رفض الموجّه الأصلي وفقد منظور الشخص الأول عند إعادة المحاولة؛ وبدا Kling v3 Pro جيدًا لكن حركته كانت ضعيفة؛ وكان Wan 2.7 رخيصًا لكنه غير قابل للاستخدام.

موجّه الاختبار: قفزة BASE من منظور الشخص الأول من مدخنة مهجورة بارتفاع 150 مترًا إلى بركة موحلة واحدة.
النماذج المقارَنة: Seedance 2.0 وKling v3 Pro وVeo 3.1 وWan 2.7 على fal.ai.
الفائز: Seedance 2.0، لأنه اتّبع الفكرة كاملة بأقل تشويش.
التكاليف التقريبية للمقاطع العاملة: Seedance بـ$2.43، وKling بـ$1.34، وVeo بـ$3.20، وWan بـ$1.20.

كانت لديّ فكرة صعبة واحدة لفيديو بالذكاء الاصطناعي: قافز BASE يقفز من مدخنة مصنع مهجور بارتفاع 150 مترًا، مصوَّرًا من كاميرا خوذته، ويهبط في البركة الموحلة الوحيدة في ساحة جافة بقية أجزائها. أعطيت الموجّه نفسه بالضبط لأربعة نماذج فيديو بالذكاء الاصطناعي وتحقّقت من أمرين — كم بدا واقعيًا، وكم كلّف.

الاختبار

أجريت كل شيء على fal.ai. يتيح لك استخدام نماذج فيديو كثيرة من مكان واحد، في الطابور نفسه. فحصل كل نموذج على الموجّه نفسه، وكانت الأسعار سهلة المقارنة جنبًا إلى جنب.

كان الموجّه صعبًا عمدًا. لقطة طويلة واحدة من منظور الشخص الأول، وإحساس واضح بالارتفاع، ومظلة، وساحة صناعية، وهبوط موحل. الموجّهات السهلة تجعل كل نموذج يبدو جيدًا. الموجّهات الصعبة تُريك أين ينهار النموذج.

اخترت أربعة نماذج، كلٌّ منها لسبب:

Seedance 2.0 (ByteDance) — مرجعيتي لمظهر نظيف وسينمائي.
Kling v3 Pro (Kuaishou) — معروف بالحركة وتخطيط اللقطات الذكي.
Veo 3.1 (Google) — الخيار الفاخر.
Wan 2.7 (Alibaba) — نموذج أرخص يمكنه العرض بدقة 1080p.

الموجّه، في سطر واحد: لقطة حركة طويلة من منظور الشخص الأول — ارتفاع حقيقي، ومظلة، وساحة صناعية، وهبوط موحل.

الموجّه الدقيق

حوّلت الفكرة الأوّلية إلى موجّه واضح واحد يمكن لكل نموذج قراءته. إليه، حرفًا بحرف:

الموجّه

A cinematic first-person POV action-camera shot from the helmet of a fictional BASE jumper standing on the top edge of a 150-meter abandoned industrial concrete smokestack. The location is a deserted factory complex with cracked asphalt, rusted metal structures, dry concrete ground, and only one large dirty muddy puddle on a road far below. The jumper's gloved hands appear at the edge, looking down over the massive chimney, then leaps forward. A fast stomach-dropping descent along the side of the tall concrete smokestack, wind noise, subtle camera shake, dramatic height and scale. The parachute opens quickly, suspension lines briefly visible, the camera glides toward the mostly dry industrial yard. The landing target becomes clear: one muddy puddle in the middle of the road. The jumper lands directly into the dirty puddle with a huge muddy splash covering the lens. Realistic physics, gritty documentary style, overcast light, cinematic color grading, wide-angle GoPro lens, intense but safe stunt, no injury, no gore, no text, no logos.

أخذت معظم النماذج أيضًا موجّهًا سلبيًا — قائمة قصيرة من الأشياء التي يجب إبقاؤها خارج اللقطة:

الموجّه السلبي

injury, blood, gore, death, broken body, cartoon, animation, text, subtitles, captions, logos, watermark, low quality, blur, distorted camera

Seedance 2.0 الفائز

ByteDance · مرجعية سينمائية

كانت هذه أفضل نتيجة. حافظت على إحساس كاميرا الخوذة، واليدين، وحبال المظلة، وإيقاع القصة. فهمت الفكرة كاملةً، لا أجزاءً منها فقط. شكواي الحقيقية الوحيدة كانت الهبوط — لم تبدُ السقطة في البركة واقعية تمامًا. أُدرج الصوت من دون تكلفة إضافية.

نقطة النهايةhttps://queue.fal.run/bytedance/seedance-2.0/text-to-video

الإعدادات720p · 8s · الصوت مفعّل

العرض~150s · seed 44209696

التكلفة≈ $2.43 173.7 × $0.014

Kling v3 Pro

Kuaishou · مبنيّ للحركة

بدت الصورة جيدة. الحركة لم تبدُ كذلك. حتى إنني فعّلت تخطيط اللقطات "الذكي" الخاص به، الذي يُفترض أن يقسّم المشهد إلى مراحل من تلقاء نفسه — الحافة، والسقطة، والمظلة، والهبوط — لكن الأفعال ما زالت بدت غير صحيحة وغير واقعية، رغم أن Kling مبنيّ للحركة.

نقطة النهايةhttps://queue.fal.run/fal-ai/kling-video/v3/pro/text-to-video

الإعدادات8s · الصوت مفعّل · shot_type "intelligent" · cfg_scale 0.5

العرض~129s

التكلفة≈ $1.34 9.6 × $0.14

Veo 3.1

Google · الخيار الفاخر

كان هذا صعبًا. استخدمت محاولتي الأولى الموجّه الدقيق ورُفضت — أعاد fal.ai خطأ سياسة محتوى. غالبًا ما تمتلك النماذج الفاخرة الكبيرة مرشّحات أمان أكثر صرامة، وقد تُشعِلها حركة استعراضية تبدو خطرة (قفزة من برج بارتفاع 150 مترًا). خفّفت الصياغة وأرسلته مجددًا. هذه المرة عُرض، لكنه أسقط منظور الشخص الأول لصالح لقطة من منظور الشخص الثالث. ومع ذلك بدا رائعًا.

نقطة النهايةhttps://queue.fal.run/fal-ai/veo3.1

الإعدادات1080p · 8s · الصوت مفعّل · safety_tolerance 4

الأصليمرفوض — content_policy_violation (422)

إعادة المحاولةصياغة مخفَّفة ← مقطع من منظور الشخص الثالث

التكلفة≈ $3.20 8 × $0.40

Wan 2.7

Alibaba · المنافس الرخيص

أخذ Wan الموجّه، لكن النتيجة تفكّكت. بدت كفيديو غريب مصنوع من لقطات لا تتّصل ببعضها. كانت أرخص جولة بدقة 1080p، لكن المقطع لم يكن قابلًا للاستخدام. وعلى عكس Veo، لم يحجب المشهد.

نقطة النهايةhttps://queue.fal.run/fal-ai/wan/v2.7/text-to-video

الإعدادات1080p · 8s · بلا صوت · توسيع الموجّه مفعّل

العرض~186s · seed 2131596831

التكلفة≈ $1.20 12 × $0.10

التكلفة، والفائز

باحتساب جولة Veo الثانية، كلّفت المقاطع العاملة نحو $8.17 إجمالًا. تُحتسب فواتير النماذج بطرق مختلفة — بعضها بطول المقطع، وبعضها بوقت الحوسبة — لذا أرخص عرض ليس دائمًا أرخص فكرة. لم يكن الفائز هو الأرخص. كان Seedance 2.0 — النموذج الذي اتّبع الفكرة كاملةً بأقل تشويش.

الدرس: أفضل نموذج ليس الأرخص، وليس صاحب أجمل إطار مفرد. إنه الذي يتّبع فكرتك كاملةً.

إن أردت تجربة هذا بنفسك

ابدأ بفكرة واحدة واضحة وصعبة. الموجّه الصعب يُظهر الفجوة الحقيقية بين النماذج.
اكتب الموجّه الكامل مرة واحدة وأرسل النص نفسه إلى كل نموذج، كي يكون الاختبار عادلًا.
استخدم منصة واحدة كي تتوافق التكاليف — وتذكّر أن بعضها يحتسب الفاتورة بالطول وبعضها بوقت الحوسبة.
توقّع مرشّحات أمان على النماذج الفاخرة. إن حُجب موجّه، فخفّفه وحاول مجددًا.
احكم على المقطع كاملًا، لا على إطار جميل واحد. الحركة والقصة أهم.

شارك على Telegram

أسئلة شائعة سريعة

أيُّ نموذج فيديو بالذكاء الاصطناعي فاز في اختبار موجّه المظلة؟

فاز Seedance 2.0 لأنه حافظ على نحو أفضل على كاميرا الشخص الأول وحركة المظلة وإيقاع القصة ومقصد الموجّه عمومًا.

هل كان أرخص نموذج فيديو بالذكاء الاصطناعي هو الخيار الأفضل؟

لا. كان Wan 2.7 أرخص عرض عامل بنحو $1.20، لكن المقطع لم يكن متماسكًا. كلّف Seedance 2.0 أكثر لكنه أنتج النتيجة الأكثر قابلية للاستخدام.

لماذا لم يفز Veo 3.1؟

حُجبت جولة Veo 3.1 الأصلية بخطأ سياسة المحتوى. وأنتجت إعادة محاولة مخفَّفة الصياغة مقطعًا جيد المظهر، لكنه حوّل موجّه الشخص الأول إلى لقطة من منظور الشخص الثالث.