ในวงการที่ GPU ของ NVIDIA ครองตลาดงานประมวลผล AI ชิป Apple Silicon กำลังสร้างตำแหน่งของตัวเองในฐานะทางเลือกที่ประหยัดพลังงานสำหรับการรันโมเดลภาษาขนาดใหญ่ในเครื่อง ขณะที่นักพัฒนากำลังสำรวจความสามารถของ MLX เฟรมเวิร์กการเรียนรู้ของเครื่องจาก Apple ที่ได้รับการปรับแต่งสำหรับซิลิคอนที่ออกแบบเอง ผู้ใช้รายงานตัวเลขประสิทธิภาพที่น่าประทับใจซึ่งแสดงให้เห็นถึงศักยภาพของระบบเหล่านี้สำหรับแอปพลิเคชัน AI
เฟรมเวิร์ก MLX กำลังได้รับความนิยมเพิ่มขึ้น
MLX เฟรมเวิร์กการเรียนรู้ของเครื่องจาก Apple ที่ออกแบบมาเฉพาะสำหรับ Apple Silicon ได้รับความสนใจอย่างต่อเนื่องในชุมชนนักพัฒนา แม้จะมีอายุเพียงกว่าหนึ่งปีเท่านั้น คล้ายกับ NumPy และ PyTorch แต่ทำงานเฉพาะบน Apple Silicon เท่านั้น MLX ให้พื้นฐานสำหรับการรันโมเดล AI หลากหลายในเครื่อง Mac โดยไม่จำเป็นต้องใช้ฮาร์ดแวร์ GPU ราคาแพง เฟรมเวิร์กนี้ช่วยให้ผู้ใช้สามารถรัน LLM (Large Language Models) โมเดลวิชัน และโมเดลเสียงที่เพิ่มมากขึ้นได้ สมาชิกในชุมชนสังเกตว่ากิจกรรมในระบบนิเวศรอบ MLX นั้นน่าประทับใจ โดยมีเครื่องมืออย่าง mlx-lm ที่เกิดขึ้นมาเป็นเสมือน llama.cpp ที่สร้างขึ้นเฉพาะสำหรับสถาปัตยกรรมของ Apple
ตัวเลขประสิทธิภาพแสดงความเป็นไปได้
รายงานประสิทธิภาพจากสมาชิกในชุมชนเน้นย้ำถึงประสิทธิภาพของ Apple Silicon ในการรัน LLM ผู้ใช้ที่รัน DeepSeek-R1-Distill-Llama-70B แบบ 4-bit quantized บน MacBook Pro M4 Max รายงานว่าได้รับ 10.2 โทเค็นต่อวินาทีเมื่อเสียบปลั๊ก และ 4.2 โทเค็นต่อวินาทีเมื่อใช้แบตเตอรี่ สำหรับโมเดล Gemma-3-27B-IT-QAT ที่เล็กกว่า ระบบเดียวกันนี้ทำได้ 26.37 โทเค็นต่อวินาทีเมื่อใช้ไฟ และ 9.7 โทเค็นต่อวินาทีในโหมดประหยัดแบตเตอรี่ ตัวเลขเหล่านี้แสดงให้เห็นว่า Mac รุ่นใหม่สามารถรันโมเดล AI ขนาดใหญ่ด้วยประสิทธิภาพที่เหมาะสม ทำให้ความสามารถที่เคยมีเฉพาะในเซิร์ฟเวอร์สามารถใช้งานได้บนฮาร์ดแวร์ระดับผู้บริโภค
ข้อมูลประสิทธิภาพบน Apple Silicon
โมเดล | อุปกรณ์ | โหมดพลังงาน | ประสิทธิภาพ |
---|---|---|---|
DeepSeek-R1-Distill-Llama-70B (4-bit) | MacBook Pro M4 Max | เสียบปลั๊ก | 10.2 โทเค็น/วินาที |
DeepSeek-R1-Distill-Llama-70B (4-bit) | MacBook Pro M4 Max | แบตเตอรี่/ประหยัดพลังงาน | 4.2 โทเค็น/วินาที |
Gemma-3-27B-IT-QAT (4-bit) | MacBook Pro M4 Max | เสียบปลั๊ก | 26.37 โทเค็น/วินาที |
Gemma-3-27B-IT-QAT (4-bit) | MacBook Pro M4 Max | แบตเตอรี่/ประหยัดพลังงาน | 9.7 โทเค็น/วินาที |
การเปรียบเทียบประสิทธิภาพการใช้พลังงาน
ฮาร์ดแวร์ | คะแนน OpenCL Benchmark | การใช้พลังงาน |
---|---|---|
NVIDIA GeForce RTX 5090 | 376,224 | 400-550W (GPU) + 250-500W (ระบบ) |
Apple M3 Ultra | 131,247 | ~200W (ระบบทั้งหมด) |
การเปรียบเทียบประสิทธิภาพการใช้พลังงาน
เมื่อเปรียบเทียบประสิทธิภาพการใช้พลังงานระหว่าง Apple Silicon และ GPU ของ NVIDIA การสนทนาในชุมชนบ่งชี้ว่า Apple อาจมีข้อได้เปรียบในแง่ของประสิทธิภาพต่อวัตต์ ในขณะที่การ์ดระดับสูงของ NVIDIA เช่น RTX 5090 ให้ประสิทธิภาพโดยรวมที่สูงกว่า (ได้คะแนน 376,224 ในการทดสอบ OpenCL เทียบกับ M3 Ultra ที่ได้ 131,247) แต่พวกมันใช้พลังงานมากกว่าอย่างมีนัยสำคัญ—ประมาณ 400-550 วัตต์สำหรับ GPU เพียงอย่างเดียว บวกกับความต้องการพลังงานของระบบเพิ่มเติม ในทางตรงกันข้าม M3 Ultra ทำงานที่พลังงานระบบรวมประมาณ 200 วัตต์ ซึ่งอาจทำให้มีประสิทธิภาพการใช้พลังงานมากกว่าสำหรับงาน AI บางประเภท แม้จะมีประสิทธิภาพโดยรวมต่ำกว่าก็ตาม
ความท้าทายในประสบการณ์ผู้ใช้
แม้จะมีข้อดีด้านประสิทธิภาพ การจัดการกับ Python dependency ยังคงเป็นจุดปวดหัวสำคัญสำหรับผู้ใช้หลายคนที่พยายามรันแอปพลิเคชันที่ใช้ MLX ผู้แสดงความคิดเห็นหลายคนอธิบายประสบการณ์ที่น่าหงุดหงิดกับการตั้งค่าสภาพแวดล้อม Python ซึ่งเน้นถึงอุปสรรคทั่วไปสำหรับนักพัฒนาที่ไม่ใช่ Python ที่เพียงแค่ต้องการรันแอปพลิเคชันที่บังเอิญเขียนด้วย Python ประสบการณ์ของผู้ใช้รายหนึ่งดีขึ้นโดยการระบุ Python เวอร์ชัน 3.12 ด้วยพารามิเตอร์คำสั่ง -p 3.12
ซึ่งบ่งชี้ว่า MLX อาจมี binary wheels ที่ใช้ได้เฉพาะกับ Python บางเวอร์ชันเท่านั้น
Python อยู่ในหมวดหมู่ของสิ่งที่คุณไม่สามารถใช้ได้โดยไม่เป็นผู้เชี่ยวชาญในรายละเอียดปลีกย่อย นี่เป็นเรื่องน่าเสียดายเพราะมีคนจำนวนมากที่ไม่ใช่นักพัฒนา Python แต่ต้องการรันโปรแกรมที่บังเอิญเขียนด้วย Python
การประยุกต์ใช้งานจริง
ผู้ใช้รายงานความสำเร็จในการใช้โมเดลต่างๆ ผ่าน MLX สำหรับงานที่หลากหลาย โมเดลยอดนิยมรวมถึง Mistral Small 3.1 (ต้องการ RAM ประมาณ 20GB), Gemma3:12B สำหรับงานทั่วไปเช่นการสร้างเรื่องราวและการเขียนโค้ดเล็กน้อย, Qwen2.5-coder:32B สำหรับการช่วยเหลือด้านการเขียนโปรแกรม และโมเดล Qwen2.5:0.5B ขนาดเล็กที่มีความสามารถน่าประหลาดใจ โปรเจกต์ tiny-llm tutorial ที่เน้นในบทความต้นฉบับมีจุดมุ่งหมายเพื่อช่วยให้นักพัฒนาเข้าใจเทคนิคเบื้องหลังการให้บริการโมเดล LLM อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งมุ่งเน้นที่โมเดล Qwen2 ด้วยการสร้างโครงสร้างพื้นฐานสำหรับการให้บริการโมเดลตั้งแต่เริ่มต้นโดยใช้ MLX array/matrix APIs
ในขณะที่ความสามารถของฮาร์ดแวร์ระดับผู้บริโภคยังคงพัฒนาขึ้นและเฟรมเวิร์กอย่าง MLX เติบโตขึ้น เรากำลังเห็นการกระจายเทคโนโลยี AI ที่เคยจำกัดอยู่ในศูนย์ข้อมูลเฉพาะทาง แม้จะยังมีความท้าทาย โดยเฉพาะอย่างยิ่งเกี่ยวกับ software dependencies และ development workflows แต่ Apple Silicon กำลังเป็นแพลตฟอร์มที่น่าสนใจสำหรับผู้ที่ชื่นชอบ AI และมืออาชีพที่ต้องการรันโมเดลที่ซับซ้อนในเครื่องด้วยประสิทธิภาพที่เหมาะสมและการใช้พลังงานที่ยอดเยี่ยม
อ้างอิง: tiny-llm - LLM Serving in a Week