VGGT Transformer สร้างภาพ 3 มิติจากภาพถ่ายในเวลาไม่กี่วินาที อาจมาแทนที่ COLMAP ในหลายขั้นตอนการทำงาน

BigGo Editorial Team
VGGT Transformer สร้างภาพ 3 มิติจากภาพถ่ายในเวลาไม่กี่วินาที อาจมาแทนที่ COLMAP ในหลายขั้นตอนการทำงาน

เทคโนโลยีใหม่จาก Facebook Research ที่มีชื่อว่า Visual Geometry Grounded Transformer (VGGT) กำลังสร้างความตื่นเต้นอย่างมากในวงการสร้างโมเดล 3 มิติ ด้วยความสามารถในการสร้างฉากสามมิติอย่างรวดเร็วจากภาพถ่ายธรรมดา ต่างจากวิธีการ photogrammetry แบบดั้งเดิมที่ต้องใช้เวลาประมวลผลนาน VGGT สามารถสร้างโมเดล 3 มิติที่มีรายละเอียดจากภาพเพียงไม่กี่ภาพในเวลาเพียงไม่กี่วินาที

ภาพหน้าจอของที่เก็บโค้ดบน GitHub สำหรับ Visual Geometry Grounded Transformer (VGGT) โดย Facebook Research แสดงให้เห็นถึงลักษณะโอเพนซอร์ส
ภาพหน้าจอของที่เก็บโค้ดบน GitHub สำหรับ Visual Geometry Grounded Transformer (VGGT) โดย Facebook Research แสดงให้เห็นถึงลักษณะโอเพนซอร์ส

แนวทางการสร้างโมเดล 3 มิติด้วย Transformer

VGGT นำเสนอแนวทางที่แตกต่างอย่างมากจากกระบวนการสร้างโมเดล 3 มิติแบบดั้งเดิม แทนที่จะอาศัยขั้นตอนแยกสำหรับการประมาณตำแหน่งกล้อง การคำนวณความลึก และการสร้าง point cloud VGGT จัดการทุกอย่างในการประมวลผลครั้งเดียวผ่านสถาปัตยกรรม transformer ของมัน สมาชิกในชุมชนได้กล่าวว่านี่อาจเป็นการแทนที่ COLMAP ซึ่งเป็นเครื่องมือมาตรฐานอุตสาหกรรมที่แม้จะแม่นยำ แต่มีชื่อเสียงในเรื่องความล่าช้าและต้องการภาพคุณภาพสูงจำนวนมาก

ผมคาดว่านี่จะถูกนำไปใช้ในหลายๆ ขั้นตอนการทำงานที่จะเข้าไปแทนที่กระบวนการที่ประกอบขึ้นมาอย่างซับซ้อน

โมเดลนี้ทำงานโดยใช้สถาปัตยกรรม transformer มาตรฐานที่มีกลไกความสนใจแบบสลับระหว่างเฟรมและแบบทั่วทั้งภาพ ซึ่งได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ของภาพที่มีการกำกับข้อมูล 3 มิติ สิ่งที่น่าประทับใจเป็นพิเศษคือ VGGT ไม่ได้รวมอคติเชิงอุปนัย 3 มิติเฉพาะทางในการออกแบบ แต่เรียนรู้ความสัมพันธ์เหล่านี้จากข้อมูลล้วนๆ

คุณสมบัติหลักของ VGGT

  • อนุมานพารามิเตอร์ของกล้อง, แผนที่ความลึก, แผนที่จุด และการติดตามจุด 3D ได้โดยตรง
  • ทำงานได้กับภาพเพียง 1 ภาพหรือมากถึงหลายร้อยภาพ
  • ใช้เวลาประมวลผลตั้งแต่ระดับมิลลิวินาทีถึงวินาที
  • ไม่ต้องการสถาปัตยกรรมเครือข่าย 3D แบบเฉพาะทาง
  • ฝึกฝนบนชุดข้อมูลที่หลากหลายรวมถึง Co3Dv2, BlendMVS, MegaDepth และข้อมูลสังเคราะห์
  • ขนาดโมเดล: 1 พันล้านพารามิเตอร์ (มีแผนจะพัฒนาเวอร์ชันที่เล็กลง)
  • ต้นทุนการฝึกฝน: GPU A100 จำนวน 64 ตัวเป็นเวลาเก้าวัน (ประมาณ 18,000 ดอลลาร์สหรัฐ)

การประยุกต์ใช้งานจริงที่เกิดขึ้นจากการสนทนาในชุมชน

การสนทนาในชุมชนเผยให้เห็นการประยุกต์ใช้งานจริงมากมายสำหรับ VGGT การแสดงภาพสถาปัตยกรรมโดดเด่นเป็นกรณีการใช้งานหลัก ซึ่งการสร้างโมเดล 3 มิติอย่างรวดเร็วสามารถทำให้กระบวนการออกแบบการปรับปรุงบ้านง่ายขึ้นอย่างมาก การประยุกต์ใช้ทางการแพทย์ก็มีแนวโน้มที่ดี โดยผู้แสดงความคิดเห็นรายหนึ่งได้อธิบายถึงงานบนระบบศัลยกรรมกระดูกที่ติดตามเครื่องมือผ่าตัดในพื้นที่โดยใช้ฮาร์ดแวร์ราคาไม่แพงอย่าง iPhone

สิ่งที่น่าตื่นเต้นที่สุดอาจเป็นศักยภาพในการผสานรวม VGGT กับ Gaussian Splatting ซึ่งเป็นเทคนิคการเรนเดอร์ล้ำสมัย ผู้แสดงความคิดเห็นหลายคนสังเกตว่า VGGT สามารถให้โครงสร้างฉากเริ่มต้นสำหรับขั้นตอนการทำงานของ Gaussian Splatting ซึ่งอาจกำจัดความจำเป็นในการประมวลผล COLMAP ที่ช้า บทความเองก็กล่าวถึงการทดลอง fine-tuning สำหรับการสังเคราะห์มุมมองใหม่ ซึ่งบ่งชี้ว่าเส้นทางการผสานรวมนี้กำลังถูกสำรวจอยู่แล้ว

ข้อจำกัดและต้นทุนการฝึกฝน

แม้จะมีผลลัพธ์ที่น่าประทับใจ สมาชิกในชุมชนได้แสดงความสงสัยบางประการเกี่ยวกับประสิทธิภาพของ VGGT บนฉากใหม่เทียบกับสถานที่สำคัญที่มีชื่อเสียงซึ่งอาจปรากฏในข้อมูลการฝึกฝน ตัวอย่างพีระมิดอียิปต์และโคลอสเซียมโรมันที่แสดงในการสาธิตได้สร้างคำถามเกี่ยวกับโมเดลนี้จะทำงานได้ดีแค่ไหนกับสภาพแวดล้อมที่ไม่เคยเห็นมาก่อนจริงๆ

ทรัพยากรการคำนวณที่จำเป็นในการฝึกฝน VGGT มีจำนวนมาก ตามที่ระบุในบทความ โมเดลสุดท้ายที่มีพารามิเตอร์หนึ่งพันล้านตัวได้รับการฝึกฝนบน NVIDIA A100 GPUs จำนวน 64 ตัวเป็นเวลาเก้าวัน ซึ่งจะมีค่าใช้จ่ายประมาณ 18,000 ดอลลาร์สหรัฐบนแพลตฟอร์มคลาวด์เชิงพาณิชย์ นี่คือสิ่งที่ผู้แสดงความคิดเห็นบางคนเรียกว่า The Bitter Lesson ของ AI สมัยใหม่ - การเพิ่มขนาดการคำนวณและข้อมูลมักจะเหนือกว่าการออกแบบอัลกอริทึมที่ชาญฉลาด

เกณฑ์มาตรฐานประสิทธิภาพของ VGGT

เฟรมข้อมูลนำเข้า 1 2 4 8 10 20 50 100 200
เวลา (วินาที) 0.04 0.05 0.07 0.11 0.14 0.31 1.04 3.12 8.75
หน่วยความจำ (GB) 1.88 2.07 2.45 3.23 3.63 5.58 11.41 21.15 40.63

ทดสอบประสิทธิภาพบน GPU NVIDIA H100 หนึ่งตัวโดยใช้ Flash Attention 3

อนาคตของการสร้างโมเดล 3 มิติ

การเปิดตัว VGGT ถือเป็นก้าวสำคัญในการทำให้การสร้างโมเดล 3 มิติเข้าถึงได้มากขึ้น ในขณะที่เครื่องมือ photogrammetry ระดับมืออาชีพยังคงมีข้อได้เปรียบในด้านความแม่นยำ ความเร็วและความง่ายในการใช้งานของ VGGT เปิดโอกาสใหม่สำหรับการประยุกต์ใช้งานที่ผลลัพธ์ที่รวดเร็วมีคุณค่ามากกว่าความแม่นยำที่สมบูรณ์แบบ

ผู้แสดงความคิดเห็นรายหนึ่งแนะนำว่าแนวทางที่เหมาะสมที่สุดอาจเป็นการผสมผสาน VGGT กับ photogrammetry แบบดั้งเดิมแทนที่จะแทนที่ทั้งหมด - โดยใช้ AI เพื่อเติมเต็มช่องว่างในการสแกนและปรับปรุงผลลัพธ์ แนวทางแบบผสมผสานนี้อาจมีคุณค่าเป็นพิเศษสำหรับเครื่องสแกน 3 มิติบนโทรศัพท์ซึ่งการจับข้อมูลที่สมบูรณ์แบบเป็นเรื่องท้าทาย

เมื่อการทดลอง fine-tuning เริ่มขึ้นบนฮาร์ดแวร์สำหรับผู้บริโภค เราสามารถคาดหวังนวัตกรรมที่รวดเร็วในพื้นที่นี้ในช่วงหลายเดือนข้างหน้า ซึ่งอาจเปลี่ยนแปลงขั้นตอนการทำงานในหลายอุตสาหกรรมตั้งแต่เกมและ VR ไปจนถึงสถาปัตยกรรมและการถ่ายภาพทางการแพทย์

อ้างอิง: VGGT: Visual Geometry Grounded Transformer