นักวิจัยของ Apple ได้เปิดตัว FastVLM ซึ่งเป็นโมเดลภาษาวิชวลที่ปฏิวัติวงการ ออกแบบมาสำหรับการประมวลผลบนอุปกรณ์อย่างมีประสิทธิภาพ ทำให้เกิดการถกเถียงอย่างกระตือรือร้นในหมู่นักพัฒนาและผู้สนับสนุนด้านการเข้าถึง งานวิจัยนี้จะนำเสนอที่ CVPR 2025 แนะนำตัวเข้ารหัสวิชวลแบบไฮบริดใหม่ที่ลดเวลาการประมวลผลอย่างมากในขณะที่ยังคงประสิทธิภาพสูง
![]() |
---|
ภาพรวมของที่เก็บโค้ด GitHub สำหรับ FastVLM แสดงให้เห็นถึงอินเทอร์เฟซที่เรียบง่ายและเนื้อหาทางเทคนิคที่เกี่ยวข้องสำหรับนักพัฒนาและนักวิจัย |
การปรับปรุงความเร็วที่ปฏิวัติวงการสำหรับ AI การมองเห็น
ความสำเร็จที่โดดเด่นที่สุดของ FastVLM คือการปรับปรุงความเร็วที่น่าทึ่ง โดยรุ่นที่เล็กที่สุดให้ Time-to-First-Token (TTFT) เร็วกว่า 85 เท่าเมื่อเทียบกับโซลูชันที่มีอยู่เช่น LLAVA-OneVision-0.5B การลดความล่าช้าอย่างมากนี้เป็นขีดจำกัดที่สำคัญสำหรับการประยุกต์ใช้งานจริงของ AI การมองเห็นในอุปกรณ์ทั่วไป ความสามารถของเทคโนโลยีในการประมวลผลข้อมูลภาพอย่างรวดเร็วแก้ไขปัญหาคอขวดที่สำคัญที่สุดในโมเดลภาษาวิชวลปัจจุบัน ซึ่งอาจทำให้เกิดผู้ช่วย AI ที่ตอบสนองได้จริงซึ่งสามารถเห็นและตีความโลกได้เกือบแบบเรียลไทม์
ด้วยเหตุนี้ จึงสามารถสร้างเครื่องมือช่วยเหลือที่มีประโยชน์มากสำหรับคนตาบอดได้ โดยทำงานบนโทรศัพท์ของพวกเขาเท่านั้น รับข้อมูลจากกล้องในแว่นตาของพวกเขา คนที่ไม่สามารถเคลื่อนไหวได้โดยไม่มีผู้ช่วยสามารถกลายเป็นอิสระในชีวิตประจำวันได้
รุ่นต่างๆ ของ FastVLM
รุ่น | พารามิเตอร์ | ประสิทธิภาพที่โดดเด่น |
---|---|---|
FastVLM-0.5B | 0.5 พันล้าน | เร็วกว่า LLAVA-OneVision-0.5B 85 เท่าในแง่ของ TTFT, ตัวเข้ารหัสภาพเล็กกว่า 3.4 เท่า |
FastVLM-1.5B | 1.5 พันล้าน | มีให้เลือกทั้งในรูปแบบ Stage 2 และ Stage 3 |
FastVLM-7B | 7 พันล้าน | ใช้ Qwen2-7B LLM, มีประสิทธิภาพดีกว่า Cambrian-1-8B โดยมี TTFT เร็วกว่า 7.9 เท่า |
ทุกรุ่นรองรับการใช้งานบนอุปกรณ์ Apple Silicon สำหรับการประมวลผลบนอุปกรณ์โดยตรง
กลยุทธ์การประมวลผลบนอุปกรณ์กำลังได้รับความนิยม
งานวิจัยนี้สอดคล้องกับสิ่งที่หลายคนในชุมชนมองว่าเป็นกลยุทธ์ AI ระยะยาวของ Apple: การให้ความสำคัญกับการประมวลผลบนอุปกรณ์เพื่อปรับปรุงความเป็นส่วนตัว ลดต้นทุน และลดความล่าช้า การออกแบบที่มีประสิทธิภาพของ FastVLM ทำให้สามารถทำงานได้โดยตรงบน Apple Silicon โดยที่เก็บข้อมูลให้คำแนะนำสำหรับการส่งออกโมเดลไปยังรูปแบบที่เข้ากันได้กับ iPhone, iPad และ Mac วิธีการนี้แตกต่างจากระบบ AI ที่พึ่งพาคลาวด์ซึ่งต้องการการเชื่อมต่ออินเทอร์เน็ตอย่างต่อเนื่องและก่อให้เกิดความกังวลเกี่ยวกับความเป็นส่วนตัวเมื่อประมวลผลข้อมูลภาพที่ละเอียดอ่อน
ในขณะที่ผู้แสดงความคิดเห็นบางคนแสดงความผิดหวังที่การใช้งานใช้ PyTorch แทนที่จะเป็นเฟรมเวิร์ก MLX ของ Apple การตอบสนองโดยรวมต่อเทคโนโลยีนี้เป็นไปในเชิงบวกอย่างท่วมท้น โดยนักพัฒนากำลังวางแผนที่จะรวมเข้ากับแอปพลิเคชันตั้งแต่เครื่องมือการเข้าถึงไปจนถึงยูทิลิตี้การแยกวิเคราะห์หน้าจอ
ศักยภาพในการเปลี่ยนแปลงสำหรับการเข้าถึง
บางทีการอภิปรายที่สร้างความรู้สึกมากที่สุดเกี่ยวกับ FastVLM อาจเป็นศักยภาพในการเปลี่ยนแปลงการเข้าถึงสำหรับผู้มีความบกพร่องทางการมองเห็น สมาชิกในชุมชน รวมถึงผู้ปกครองของเด็กที่มีความบกพร่องทางการมองเห็น แสดงความหวังอย่างลึกซึ้งเกี่ยวกับวิธีที่เทคโนโลยีนี้สามารถให้ความเป็นอิสระและโอกาสใหม่ๆ ความสามารถในการประมวลผลข้อมูลภาพอย่างรวดเร็วบนอุปกรณ์ส่วนตัวสามารถช่วยให้เทคโนโลยีสิ่งอำนวยความสะดวกอธิบายสภาพแวดล้อม ระบุวัตถุ และช่วยนำทางสภาพแวดล้อมโดยไม่ต้องใช้อุปกรณ์พิเศษหรือการเชื่อมต่ออินเทอร์เน็ตอย่างต่อเนื่อง
ทีมวิจัยได้จัดทำโมเดลขนาดต่างๆ ตั้งแต่เวอร์ชัน 0.5B พารามิเตอร์ที่มีน้ำหนักเบาไปจนถึงเวอร์ชัน 7B พารามิเตอร์ที่มีความสามารถมากกว่า ช่วยให้นักพัฒนาสามารถสร้างความสมดุลระหว่างประสิทธิภาพกับข้อจำกัดของอุปกรณ์ ที่เก็บข้อมูลมีคำแนะนำโดยละเอียดสำหรับทั้งการอนุมานและการปรับแต่ง ซึ่งอาจเร่งการนำไปใช้ในแอปพลิเคชันที่หลากหลาย
เมื่อการมองเห็นกลายเป็นศูนย์กลางของระบบ AI มากขึ้น วิธีการเข้ารหัสที่มีประสิทธิภาพของ FastVLM อาจพิสูจน์ได้ว่าเป็นความก้าวหน้าที่สำคัญในการนำความเข้าใจด้านภาพที่ซับซ้อนมาสู่อุปกรณ์ทั่วไป ด้วยฮาร์ดแวร์การประมวลผลประสาทของ Apple ที่ได้รับการติดตั้งในอุปกรณ์หลายล้านเครื่องแล้ว เวทีดูเหมือนจะพร้อมสำหรับแอปพลิเคชัน AI การมองเห็นที่ตอบสนองและรักษาความเป็นส่วนตัวรุ่นใหม่
อ้างอิง: FastVLM: Efficient Vision Encoding for Vision Language Models