ในความเคลื่อนไหวที่สำคัญสำหรับชุมชนการพัฒนา AI, DeepSeek ได้เปิดตัว DeepEP ซึ่งเป็นห้องสมุดการสื่อสารแบบผู้เชี่ยวชาญขนานที่มีประสิทธิภาพ ออกแบบมาสำหรับโมเดล Mixture-of-Experts (MoE) การเปิดตัวนี้ได้สร้างความตื่นเต้นอย่างมากในหมู่นักพัฒนาและนักวิจัย โดยเฉพาะอย่างยิ่งในด้านลักษณะโอเพนซอร์สและเทคนิคการเพิ่มประสิทธิภาพขั้นสูง
สถาปัตยกรรมการสื่อสารขั้นสูง
DeepEP แนะนำเคอร์เนลการสื่อสาร GPU แบบ all-to-all ที่ซับซ้อน รองรับการทำงานทั้งภายในโหนดและระหว่างโหนดผ่านเทคโนโลยี NVLink และ RDMA ห้องสมุดนี้ทำให้ได้ประสิทธิภาพที่น่าประทับใจ โดยการทำงานภายในโหนดสามารถทำความเร็วแบนด์วิดท์ได้สูงถึง 158 GB/s ผ่าน NVLink ในขณะที่การสื่อสารระหว่างโหนดยังคงรักษาประสิทธิภาพที่สม่ำเสมอประมาณ 40-46 GB/s ผ่าน RDMA
หมายเหตุทางเทคนิค: RDMA (Remote Direct Memory Access) อนุญาตให้เข้าถึงหน่วยความจำโดยตรงจากคอมพิวเตอร์เครื่องหนึ่งไปยังอีกเครื่องหนึ่งโดยไม่ต้องเกี่ยวข้องกับระบบปฏิบัติการทั้งสองฝั่ง ทำให้เกิดเครือข่ายที่มีปริมาณงานสูงและความหน่วงต่ำ
จุดเด่นด้านประสิทธิภาพ:
- ภายในโหนด ( NVLink ): แบนด์วิดท์สูงสุด 158 GB/s
- ระหว่างโหนด ( RDMA ): แบนด์วิดท์ 39-46 GB/s
- การดำเนินการที่มีความหน่วงต่ำ: 163-194 μs สำหรับการส่ง, 318-369 μs สำหรับการรวม
- ปรับขนาดได้อย่างมีประสิทธิภาพตั้งแต่ 8 ถึง 256 ผู้เชี่ยวชาญ
ความต้องการของระบบ:
- GPU รุ่น Hopper
- Python 3.8 ขึ้นไป
- CUDA 12.3 ขึ้นไป
- PyTorch 2.1 ขึ้นไป
- NVLink สำหรับการสื่อสารภายในโหนด
- เครือข่าย RDMA สำหรับการสื่อสารระหว่างโหนด
การปรับแต่ง PTX ที่เป็นนวัตกรรม
หนึ่งในแง่มุมที่ถูกพูดถึงมากที่สุดของการเปิดตัวนี้คือการใช้คำสั่ง PTX ขั้นสูง ห้องสมุดนี้ได้นำคำสั่ง PTX แบบพฤติกรรมนอกเอกสาร (ld.global.nc1::no_allocate.L2::256B) มาใช้ ซึ่งแม้จะเป็นพฤติกรรมที่ไม่ได้กำหนดไว้อย่างเป็นทางการ แต่ก็ได้รับการทดสอบอย่างละเอียดเพื่อความถูกต้องบนสถาปัตยกรรม Hopper การปรับแต่งนี้ได้ดึงดูดความสนใจเป็นพิเศษจากชุมชนด้านเทคนิค โดยนักพัฒนาหลายคนสังเกตเห็นถึงผลกระทบที่อาจเกิดขึ้นต่อประสิทธิภาพ
ผมรู้สึกเหมือนเด็กในร้านขนม เทคนิคบางอย่างเหล่านี้ต้องใช้เวลานานมากในการวิศวกรรมย้อนกลับให้ถูกต้องจากเอกสารวิจัย
ผลกระทบต่อชุมชนและปรัชญาโอเพนซอร์ส
การเปิดตัวนี้ได้จุดประกายการอภิปรายเกี่ยวกับสถานะของการพัฒนา AI แบบโอเพนซอร์ส โดยสมาชิกชุมชนหลายคนได้เปรียบเทียบแนวทางของ DeepSeek กับบริษัท AI อื่นๆ ในเชิงบวก เอกสารประกอบที่ครอบคลุม รวมถึงข้อมูลประสิทธิภาพโดยละเอียดและตัวอย่างการนำไปใช้ แสดงให้เห็นถึงความมุ่งมั่นในการพัฒนาที่โปร่งใสและเน้นความร่วมมือ ซึ่งได้รับการตอบรับอย่างดีจากชุมชนนักพัฒนา
การเปิดตัวห้องสมุดนี้เป็นก้าวสำคัญในการทำให้เทคโนโลยี AI ขั้นสูงเป็นประชาธิปไตยมากขึ้น ซึ่งอาจช่วยให้นักวิจัยและนักพัฒนาจำนวนมากขึ้นสามารถทำงานกับโมเดล MoE ได้อย่างมีประสิทธิภาพ ด้วยการรองรับการทำงานแบบ FP8 และการควบคุมทรัพยากร GPU ที่ยืดหยุ่น DeepEP จึงให้พื้นฐานที่แข็งแกร่งสำหรับการพัฒนาและการเพิ่มประสิทธิภาพโมเดล AI ในอนาคต
อ้างอิง: DeepEP: an efficient expert-parallel communication library