ในการพัฒนาที่สร้างความตื่นตะลึงให้กับวงการ AI บริษัท AI สตาร์ทอัพจากจีนอย่าง DeepSeek ได้ทำในสิ่งที่หลายคนคิดว่าเป็นไปไม่ได้ นั่นคือการสร้างโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพทัดเทียมกับ o1 ของ OpenAI โดยใช้ทรัพยากรเพียงเศษเสี้ยวเท่านั้น ความก้าวหน้าทางเทคโนโลยีครั้งนี้ท้าทายความเชื่อดั้งเดิมเกี่ยวกับความสัมพันธ์ระหว่างทรัพยากรการประมวลผลและขีดความสามารถของโมเดล AI
ความสำเร็จด้านประสิทธิภาพต้นทุนที่ปฏิวัติวงการ
โมเดล R1 ของ DeepSeek ได้รับการฝึกฝนโดยใช้ NVIDIA H800 GPU เพียง 2,048 หน่วย ด้วยต้นทุนการฝึกฝนรวมประมาณ 5.576 ล้านดอลลาร์สหรัฐ ซึ่งถือเป็นการลดต้นทุนอย่างมหาศาลเมื่อเทียบกับวิธีการฝึกฝนแบบดั้งเดิมที่ต้องใช้เงินลงทุนหลายสิบพันล้านดอลลาร์ โมเดลนี้แสดงประสิทธิภาพที่เทียบเท่ากับ o1 ของ OpenAI ในหลากหลายงาน ทั้งด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลทางภาษา
ข้อมูลจำเพาะในการฝึกฝน:
- การกำหนดค่า GPU: GPU NVIDIA H800 จำนวน 2,048 หน่วย
- ค่าใช้จ่ายในการฝึกฝนทั้งหมด: 5.576 ล้านดอลลาร์สหรัฐ
- ระยะเวลาในการฝึกฝน: 54 วันด้วย GPU 2,048 หน่วย หรือ 11 วันด้วย GPU 10,000 หน่วย
Elon Musk แสดงความคิดเห็นต่อประสิทธิภาพอันน่าประทับใจของโมเดล DeepSeek R1 ซึ่งเป็นการเปิดศักราชใหม่ของประสิทธิภาพในด้าน AI |
นวัตกรรมทางเทคนิคเบื้องหลัง R1
ความสำเร็จของ R1 มาจากแนวทางที่เป็นนวัตกรรมในการฝึกฝนโมเดล ทีมงานได้พัฒนากลยุทธ์การเรียนรู้แบบเสริมแรงล้วนๆ โดยไม่มีการฝึกฝนแบบมีผู้สอนสำหรับ R1-Zero ซึ่งต่อมาได้พัฒนาเป็นโมเดล R1 เต็มรูปแบบ กระบวนการฝึกฝนแบ่งออกเป็น 4 ขั้นตอนสำคัญ: การเริ่มต้นจากศูนย์, การเรียนรู้แบบเสริมแรงที่เน้นการให้เหตุผล, การสุ่มตัวอย่างแบบคัดออกพร้อมการปรับแต่งแบบมีผู้สอน และการเรียนรู้แบบเสริมแรงครอบคลุมทุกสถานการณ์
ชิป AI ขั้นสูงที่ใช้ในโมเดล R1 ของ DeepSeek แสดงให้เห็นถึงเทคโนโลยีนวัตกรรมเบื้องหลังการพัฒนา |
การปรับแต่งระดับระบบ
DeepSeek ประสบความสำเร็จในด้านประสิทธิภาพผ่านกลยุทธ์การปรับแต่งหลายรูปแบบ ทีมงานได้นำระบบการกระจายภาระงานแบบไม่มีการสูญเสียเสริมมาใช้กับสถาปัตยกรรม MoE (Mixture of Experts) ซึ่งประกอบด้วยผู้เชี่ยวชาญร่วม 1 คนและผู้เชี่ยวชาญด้านการจัดเส้นทาง 256 คน นอกจากนี้ยังได้พัฒนาอัลกอริทึม DualPipe สำหรับการปรับแต่งการสื่อสาร และใช้เทคนิคการจัดการหน่วยความจำขั้นสูงเพื่อเพิ่มประสิทธิภาพการใช้งาน GPU ให้สูงสุด
สถาปัตยกรรมของโมเดล:
- พารามิเตอร์ทั้งหมด: 671B
- พารามิเตอร์ที่ทำงานต่อโทเค็น: 37B (5.5% ของทั้งหมด)
- สถาปัตยกรรม: 61 เลเยอร์ของ Transformer
- การกำหนดค่า MoE: ผู้เชี่ยวชาญร่วม 1 คน + ผู้เชี่ยวชาญในการจัดเส้นทาง 256 คน
- การเปิดใช้งานโทเค็น: ผู้เชี่ยวชาญในการจัดเส้นทาง 8 คนต่อโทเค็น
เทคโนโลยีของ NVIDIA มีบทบาทสำคัญในการปรับประสิทธิภาพระดับระบบของโมเดล R1 ของ DeepSeek |
ผลกระทบต่ออุตสาหกรรมและการตอบสนอง
ความสำเร็จนี้ได้รับความสนใจอย่างมากจากผู้นำในอุตสาหกรรม Satya Nadella ซีอีโอของ Microsoft ได้กล่าวชื่นชมประสิทธิภาพของโมเดลโอเพนซอร์สของ DeepSeek ในการประชุม World Economic Forum ที่เมือง Davos การพัฒนานี้ยังส่งผลกระทบต่อมูลค่าตลาดของ NVIDIA และนำไปสู่การอภิปรายเกี่ยวกับความต้องการฮาร์ดแวร์ AI และวิธีการฝึกฝนในอนาคต
นัยสำคัญในอนาคต
ความก้าวหน้าของ DeepSeek ชี้ให้เห็นถึงการเปลี่ยนแปลงกระบวนทัศน์ที่อาจเกิดขึ้นในการพัฒนา AI แสดงให้เห็นว่าความก้าวหน้าที่สำคัญสามารถเกิดขึ้นได้ผ่านนวัตกรรมด้านอัลกอริทึม แทนที่จะพึ่งพาเพียงทรัพยากรการประมวลผลมหาศาล สิ่งนี้อาจทำให้การพัฒนา AI เป็นประชาธิปไตยมากขึ้น โดยทำให้องค์กรที่มีทรัพยากรจำกัดสามารถเข้าถึงได้ ซึ่งอาจเร่งอัตราการสร้างนวัตกรรมในวงการนี้
กลยุทธ์การฝึกฝนแบบขนาน:
- การประมวลผลแบบขนาน 16 ทาง
- การประมวลผลแบบผู้เชี่ยวชาญ 64 ทาง
- ครอบคลุม 8 โหนดทางกายภาพ
- การประมวลผลข้อมูลแบบขนานบนพื้นฐานของ ZeRO-1
การมีส่วนร่วมในโอเพนซอร์ส
ต่างจากแนวทางแบบปิดของ OpenAI กับ o1 DeepSeek เลือกที่จะเปิดเผยโมเดลของตนเป็นโอเพนซอร์ส เปิดโอกาสให้นักวิจัยทั่วโลกสามารถศึกษาและต่อยอดผลงานของพวกเขา การตัดสินใจนี้ได้รับการชื่นชมอย่างกว้างขวางจากชุมชน AI และอาจช่วยเร่งความก้าวหน้าของเทคโนโลยี AI โดยรวม