เทคโนโลยีใหม่จาก Facebook Research ที่มีชื่อว่า Visual Geometry Grounded Transformer (VGGT) กำลังสร้างความตื่นเต้นอย่างมากในวงการสร้างโมเดล 3 มิติ ด้วยความสามารถในการสร้างฉากสามมิติอย่างรวดเร็วจากภาพถ่ายธรรมดา ต่างจากวิธีการ photogrammetry แบบดั้งเดิมที่ต้องใช้เวลาประมวลผลนาน VGGT สามารถสร้างโมเดล 3 มิติที่มีรายละเอียดจากภาพเพียงไม่กี่ภาพในเวลาเพียงไม่กี่วินาที
![]() |
---|
ภาพหน้าจอของที่เก็บโค้ดบน GitHub สำหรับ Visual Geometry Grounded Transformer (VGGT) โดย Facebook Research แสดงให้เห็นถึงลักษณะโอเพนซอร์ส |
แนวทางการสร้างโมเดล 3 มิติด้วย Transformer
VGGT นำเสนอแนวทางที่แตกต่างอย่างมากจากกระบวนการสร้างโมเดล 3 มิติแบบดั้งเดิม แทนที่จะอาศัยขั้นตอนแยกสำหรับการประมาณตำแหน่งกล้อง การคำนวณความลึก และการสร้าง point cloud VGGT จัดการทุกอย่างในการประมวลผลครั้งเดียวผ่านสถาปัตยกรรม transformer ของมัน สมาชิกในชุมชนได้กล่าวว่านี่อาจเป็นการแทนที่ COLMAP ซึ่งเป็นเครื่องมือมาตรฐานอุตสาหกรรมที่แม้จะแม่นยำ แต่มีชื่อเสียงในเรื่องความล่าช้าและต้องการภาพคุณภาพสูงจำนวนมาก
ผมคาดว่านี่จะถูกนำไปใช้ในหลายๆ ขั้นตอนการทำงานที่จะเข้าไปแทนที่กระบวนการที่ประกอบขึ้นมาอย่างซับซ้อน
โมเดลนี้ทำงานโดยใช้สถาปัตยกรรม transformer มาตรฐานที่มีกลไกความสนใจแบบสลับระหว่างเฟรมและแบบทั่วทั้งภาพ ซึ่งได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ของภาพที่มีการกำกับข้อมูล 3 มิติ สิ่งที่น่าประทับใจเป็นพิเศษคือ VGGT ไม่ได้รวมอคติเชิงอุปนัย 3 มิติเฉพาะทางในการออกแบบ แต่เรียนรู้ความสัมพันธ์เหล่านี้จากข้อมูลล้วนๆ
คุณสมบัติหลักของ VGGT
- อนุมานพารามิเตอร์ของกล้อง, แผนที่ความลึก, แผนที่จุด และการติดตามจุด 3D ได้โดยตรง
- ทำงานได้กับภาพเพียง 1 ภาพหรือมากถึงหลายร้อยภาพ
- ใช้เวลาประมวลผลตั้งแต่ระดับมิลลิวินาทีถึงวินาที
- ไม่ต้องการสถาปัตยกรรมเครือข่าย 3D แบบเฉพาะทาง
- ฝึกฝนบนชุดข้อมูลที่หลากหลายรวมถึง Co3Dv2, BlendMVS, MegaDepth และข้อมูลสังเคราะห์
- ขนาดโมเดล: 1 พันล้านพารามิเตอร์ (มีแผนจะพัฒนาเวอร์ชันที่เล็กลง)
- ต้นทุนการฝึกฝน: GPU A100 จำนวน 64 ตัวเป็นเวลาเก้าวัน (ประมาณ 18,000 ดอลลาร์สหรัฐ)
การประยุกต์ใช้งานจริงที่เกิดขึ้นจากการสนทนาในชุมชน
การสนทนาในชุมชนเผยให้เห็นการประยุกต์ใช้งานจริงมากมายสำหรับ VGGT การแสดงภาพสถาปัตยกรรมโดดเด่นเป็นกรณีการใช้งานหลัก ซึ่งการสร้างโมเดล 3 มิติอย่างรวดเร็วสามารถทำให้กระบวนการออกแบบการปรับปรุงบ้านง่ายขึ้นอย่างมาก การประยุกต์ใช้ทางการแพทย์ก็มีแนวโน้มที่ดี โดยผู้แสดงความคิดเห็นรายหนึ่งได้อธิบายถึงงานบนระบบศัลยกรรมกระดูกที่ติดตามเครื่องมือผ่าตัดในพื้นที่โดยใช้ฮาร์ดแวร์ราคาไม่แพงอย่าง iPhone
สิ่งที่น่าตื่นเต้นที่สุดอาจเป็นศักยภาพในการผสานรวม VGGT กับ Gaussian Splatting ซึ่งเป็นเทคนิคการเรนเดอร์ล้ำสมัย ผู้แสดงความคิดเห็นหลายคนสังเกตว่า VGGT สามารถให้โครงสร้างฉากเริ่มต้นสำหรับขั้นตอนการทำงานของ Gaussian Splatting ซึ่งอาจกำจัดความจำเป็นในการประมวลผล COLMAP ที่ช้า บทความเองก็กล่าวถึงการทดลอง fine-tuning สำหรับการสังเคราะห์มุมมองใหม่ ซึ่งบ่งชี้ว่าเส้นทางการผสานรวมนี้กำลังถูกสำรวจอยู่แล้ว
ข้อจำกัดและต้นทุนการฝึกฝน
แม้จะมีผลลัพธ์ที่น่าประทับใจ สมาชิกในชุมชนได้แสดงความสงสัยบางประการเกี่ยวกับประสิทธิภาพของ VGGT บนฉากใหม่เทียบกับสถานที่สำคัญที่มีชื่อเสียงซึ่งอาจปรากฏในข้อมูลการฝึกฝน ตัวอย่างพีระมิดอียิปต์และโคลอสเซียมโรมันที่แสดงในการสาธิตได้สร้างคำถามเกี่ยวกับโมเดลนี้จะทำงานได้ดีแค่ไหนกับสภาพแวดล้อมที่ไม่เคยเห็นมาก่อนจริงๆ
ทรัพยากรการคำนวณที่จำเป็นในการฝึกฝน VGGT มีจำนวนมาก ตามที่ระบุในบทความ โมเดลสุดท้ายที่มีพารามิเตอร์หนึ่งพันล้านตัวได้รับการฝึกฝนบน NVIDIA A100 GPUs จำนวน 64 ตัวเป็นเวลาเก้าวัน ซึ่งจะมีค่าใช้จ่ายประมาณ 18,000 ดอลลาร์สหรัฐบนแพลตฟอร์มคลาวด์เชิงพาณิชย์ นี่คือสิ่งที่ผู้แสดงความคิดเห็นบางคนเรียกว่า The Bitter Lesson ของ AI สมัยใหม่ - การเพิ่มขนาดการคำนวณและข้อมูลมักจะเหนือกว่าการออกแบบอัลกอริทึมที่ชาญฉลาด
เกณฑ์มาตรฐานประสิทธิภาพของ VGGT
เฟรมข้อมูลนำเข้า | 1 | 2 | 4 | 8 | 10 | 20 | 50 | 100 | 200 |
---|---|---|---|---|---|---|---|---|---|
เวลา (วินาที) | 0.04 | 0.05 | 0.07 | 0.11 | 0.14 | 0.31 | 1.04 | 3.12 | 8.75 |
หน่วยความจำ (GB) | 1.88 | 2.07 | 2.45 | 3.23 | 3.63 | 5.58 | 11.41 | 21.15 | 40.63 |
ทดสอบประสิทธิภาพบน GPU NVIDIA H100 หนึ่งตัวโดยใช้ Flash Attention 3
อนาคตของการสร้างโมเดล 3 มิติ
การเปิดตัว VGGT ถือเป็นก้าวสำคัญในการทำให้การสร้างโมเดล 3 มิติเข้าถึงได้มากขึ้น ในขณะที่เครื่องมือ photogrammetry ระดับมืออาชีพยังคงมีข้อได้เปรียบในด้านความแม่นยำ ความเร็วและความง่ายในการใช้งานของ VGGT เปิดโอกาสใหม่สำหรับการประยุกต์ใช้งานที่ผลลัพธ์ที่รวดเร็วมีคุณค่ามากกว่าความแม่นยำที่สมบูรณ์แบบ
ผู้แสดงความคิดเห็นรายหนึ่งแนะนำว่าแนวทางที่เหมาะสมที่สุดอาจเป็นการผสมผสาน VGGT กับ photogrammetry แบบดั้งเดิมแทนที่จะแทนที่ทั้งหมด - โดยใช้ AI เพื่อเติมเต็มช่องว่างในการสแกนและปรับปรุงผลลัพธ์ แนวทางแบบผสมผสานนี้อาจมีคุณค่าเป็นพิเศษสำหรับเครื่องสแกน 3 มิติบนโทรศัพท์ซึ่งการจับข้อมูลที่สมบูรณ์แบบเป็นเรื่องท้าทาย
เมื่อการทดลอง fine-tuning เริ่มขึ้นบนฮาร์ดแวร์สำหรับผู้บริโภค เราสามารถคาดหวังนวัตกรรมที่รวดเร็วในพื้นที่นี้ในช่วงหลายเดือนข้างหน้า ซึ่งอาจเปลี่ยนแปลงขั้นตอนการทำงานในหลายอุตสาหกรรมตั้งแต่เกมและ VR ไปจนถึงสถาปัตยกรรมและการถ่ายภาพทางการแพทย์