การเปิดตัวของ FastVideo ซึ่งเป็นเฟรมเวิร์คใหม่สำหรับเร่งความเร็วของโมเดลการสร้างวิดีโอ ได้จุดประเด็นการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยีเกี่ยวกับอนาคตของโมเดล AI สร้างวิดีโอระหว่างแบบโอเพนซอร์สและโคลสซอร์ส การอภิปรายนี้เกิดขึ้นในช่วงเวลาสำคัญที่บริษัทต่างๆ กำลังแข่งขันกันพัฒนาความสามารถในการสร้างวิดีโอที่ซับซ้อนมากขึ้น
ข้อได้เปรียบของโอเพนซอร์ส
ชุมชนส่วนใหญ่เชื่อว่าโมเดลวิดีโอแบบโอเพนซอร์สจะประสบความสำเร็จเหนือกว่าตัวเลือกแบบโคลสซอร์สอย่าง Sora ของ OpenAI ประเด็นสำคัญคือข้อได้เปรียบด้านระบบนิเวศที่โอเพนซอร์สมอบให้ รวมถึงความสามารถในการปรับแต่ง ฝึกฝน และผสานโมเดลเหล่านี้เข้ากับแอปพลิเคชันต่างๆ โมเดลอย่าง Hunyuan และ Mochi ที่สามารถรันบนเครื่องหรือคลาวด์ส่วนตัวได้ ทำให้นักพัฒนาและครีเอเตอร์มีความยืดหยุ่นมากขึ้นในการสร้างแอปพลิเคชันที่สร้างสรรค์
โมเดลวิดีโอแบบโอเพนซอร์สจะเหนือกว่าแบบโคลสซอร์ส ระบบนิเวศและเครื่องมือมีความสำคัญ... เพราะคุณสามารถเขียนโปรแกรมกับมันและรันบนเครื่องหรือคลาวด์ของคุณเองได้ คุณสามารถฝึกฝนให้มันทำอะไรก็ได้ตามที่คุณต้องการ สามารถสร้างโมเดลที่ตอบสนองต่อเสียง โมเดลที่ควบคุมได้ ผนังศิลปะแบบโต้ตอบ หรืออะไรก็ตามที่คุณต้องการ
คุณสมบัติหลักของ FastVideo:
- เพิ่มความเร็วในการประมวลผลถึง 8 เท่าด้วย FastHunyuan และ FastMochi
- รองรับเทคโนโลยี DiTs วิดีโอล่าสุดแบบเปิด
- สามารถปรับขนาดการฝึกฝนได้เกือบเป็นเส้นตรงไปจนถึง 64 GPUs
- มีความสามารถในการปรับแต่งที่ใช้หน่วยความจำอย่างมีประสิทธิภาพ
ข้อจำกัดทางเทคนิคและความท้าทาย
อย่างไรก็ตาม การอภิปรายยังเผยให้เห็นอุปสรรคทางเทคนิคที่สำคัญที่ทั้งโมเดลแบบโอเพนซอร์สและโคลสซอร์สต้องเผชิญ ข้อจำกัดด้านฮาร์ดแวร์ โดยเฉพาะเรื่องหน่วยความจำ GPU เป็นข้อจำกัดหลัก แม้ว่าสมาชิกในชุมชนบางส่วนแสดงความต้องการการ์ดจอที่มีหน่วยความจำขนาดใหญ่ขึ้น (เช่น รุ่น 192GB) ผู้เชี่ยวชาญชี้ว่าการออกแบบที่ใช้ GDDR ในปัจจุบันทำให้การกำหนดค่าดังกล่าวเป็นไปได้ยาก อุตสาหกรรมดูเหมือนจะกำลังเข้าถึงข้อจำกัดทางกายภาพกับสถาปัตยกรรมหน่วยความจำ GPU แบบดั้งเดิม
ความต้องการด้านฮาร์ดแวร์สำหรับ FastVideo:
- ขั้นต่ำ: GPU 2 ตัว แต่ละตัวมีหน่วยความจำ 40GB (ใช้ร่วมกับ LoRA)
- ข้อกำหนดที่ลดลง: GPU 2 ตัว แต่ละตัวมีหน่วยความจำ 30GB (ใช้ร่วมกับการโอนย้ายงานไป CPU และ LoRA)
- แนะนำ: GPU ที่มีหน่วยความจำ 80GB สำหรับการประมวลผล
การแลกเปลี่ยนระหว่างคุณภาพและการเข้าถึง
ชุมชนสังเกตว่าโมเดลการสร้างวิดีโอในปัจจุบันเผชิญความท้าทายในการทำความเข้าใจความเป็นจริงทางกายภาพและความต่อเนื่องในลำดับที่ยาวขึ้น ในขณะที่โมเดลเหล่านี้เก่งในการสร้างคลิปสั้นๆ ที่น่าประทับใจ แต่พวกมันยังคงมีปัญหาในการรักษาความสอดคล้องในลำดับที่ยาวขึ้นหรือการแสดงปฏิสัมพันธ์ทางกายภาพที่ซับซ้อน การถกเถียงชี้ให้เห็นว่าโมเดลต่างๆ มีการแลกเปลี่ยนที่แตกต่างกันระหว่างคุณภาพและการเข้าถึง โดยบางโมเดลมุ่งเน้นที่ผลลัพธ์คุณภาพสูง ในขณะที่บางโมเดลให้ความสำคัญกับการใช้งานจริง
สรุปได้ว่า แม้เทคโนโลยีจะแสดงให้เห็นถึงศักยภาพที่น่าทึ่ง ชุมชนตระหนักว่าอาจจำเป็นต้องมีการพัฒนาครั้งสำคัญทั้งในด้านความสามารถของฮาร์ดแวร์และสถาปัตยกรรมของโมเดล เพื่อให้บรรลุความสามารถในการสร้างวิดีโอระดับถัดไป การแข่งขันระหว่างแนวทางแบบโอเพนซอร์สและโคลสซอร์สยังคงผลักดันนวัตกรรมในสาขาที่กำลังพัฒนาอย่างรวดเร็วนี้
อ้างอิง: FastVideo: A Lightweight Framework for Accelerating Large Video Diffusion Models