ห้องสมุดการสื่อสาร MoE ใหม่ของ DeepSeek ผลักดันการพัฒนา AI แบบโอเพนซอร์สให้ก้าวหน้า

BigGo Editorial Team

ห้องสมุดการสื่อสาร MoE ใหม่ของ DeepSeek ผลักดันการพัฒนา AI แบบโอเพนซอร์สให้ก้าวหน้า

ในความเคลื่อนไหวที่สำคัญสำหรับชุมชนการพัฒนา AI, DeepSeek ได้เปิดตัว DeepEP ซึ่งเป็นห้องสมุดการสื่อสารแบบผู้เชี่ยวชาญขนานที่มีประสิทธิภาพ ออกแบบมาสำหรับโมเดล Mixture-of-Experts (MoE) การเปิดตัวนี้ได้สร้างความตื่นเต้นอย่างมากในหมู่นักพัฒนาและนักวิจัย โดยเฉพาะอย่างยิ่งในด้านลักษณะโอเพนซอร์สและเทคนิคการเพิ่มประสิทธิภาพขั้นสูง

สถาปัตยกรรมการสื่อสารขั้นสูง

DeepEP แนะนำเคอร์เนลการสื่อสาร GPU แบบ all-to-all ที่ซับซ้อน รองรับการทำงานทั้งภายในโหนดและระหว่างโหนดผ่านเทคโนโลยี NVLink และ RDMA ห้องสมุดนี้ทำให้ได้ประสิทธิภาพที่น่าประทับใจ โดยการทำงานภายในโหนดสามารถทำความเร็วแบนด์วิดท์ได้สูงถึง 158 GB/s ผ่าน NVLink ในขณะที่การสื่อสารระหว่างโหนดยังคงรักษาประสิทธิภาพที่สม่ำเสมอประมาณ 40-46 GB/s ผ่าน RDMA

หมายเหตุทางเทคนิค: RDMA (Remote Direct Memory Access) อนุญาตให้เข้าถึงหน่วยความจำโดยตรงจากคอมพิวเตอร์เครื่องหนึ่งไปยังอีกเครื่องหนึ่งโดยไม่ต้องเกี่ยวข้องกับระบบปฏิบัติการทั้งสองฝั่ง ทำให้เกิดเครือข่ายที่มีปริมาณงานสูงและความหน่วงต่ำ

จุดเด่นด้านประสิทธิภาพ:

ภายในโหนด ( NVLink ): แบนด์วิดท์สูงสุด 158 GB/s
ระหว่างโหนด ( RDMA ): แบนด์วิดท์ 39-46 GB/s
การดำเนินการที่มีความหน่วงต่ำ: 163-194 μs สำหรับการส่ง, 318-369 μs สำหรับการรวม
ปรับขนาดได้อย่างมีประสิทธิภาพตั้งแต่ 8 ถึง 256 ผู้เชี่ยวชาญ

ความต้องการของระบบ:

GPU รุ่น Hopper
Python 3.8 ขึ้นไป
CUDA 12.3 ขึ้นไป
PyTorch 2.1 ขึ้นไป
NVLink สำหรับการสื่อสารภายในโหนด
เครือข่าย RDMA สำหรับการสื่อสารระหว่างโหนด

การปรับแต่ง PTX ที่เป็นนวัตกรรม

หนึ่งในแง่มุมที่ถูกพูดถึงมากที่สุดของการเปิดตัวนี้คือการใช้คำสั่ง PTX ขั้นสูง ห้องสมุดนี้ได้นำคำสั่ง PTX แบบพฤติกรรมนอกเอกสาร (ld.global.nc1::no_allocate.L2::256B) มาใช้ ซึ่งแม้จะเป็นพฤติกรรมที่ไม่ได้กำหนดไว้อย่างเป็นทางการ แต่ก็ได้รับการทดสอบอย่างละเอียดเพื่อความถูกต้องบนสถาปัตยกรรม Hopper การปรับแต่งนี้ได้ดึงดูดความสนใจเป็นพิเศษจากชุมชนด้านเทคนิค โดยนักพัฒนาหลายคนสังเกตเห็นถึงผลกระทบที่อาจเกิดขึ้นต่อประสิทธิภาพ

ผมรู้สึกเหมือนเด็กในร้านขนม เทคนิคบางอย่างเหล่านี้ต้องใช้เวลานานมากในการวิศวกรรมย้อนกลับให้ถูกต้องจากเอกสารวิจัย

ผลกระทบต่อชุมชนและปรัชญาโอเพนซอร์ส

การเปิดตัวนี้ได้จุดประกายการอภิปรายเกี่ยวกับสถานะของการพัฒนา AI แบบโอเพนซอร์ส โดยสมาชิกชุมชนหลายคนได้เปรียบเทียบแนวทางของ DeepSeek กับบริษัท AI อื่นๆ ในเชิงบวก เอกสารประกอบที่ครอบคลุม รวมถึงข้อมูลประสิทธิภาพโดยละเอียดและตัวอย่างการนำไปใช้ แสดงให้เห็นถึงความมุ่งมั่นในการพัฒนาที่โปร่งใสและเน้นความร่วมมือ ซึ่งได้รับการตอบรับอย่างดีจากชุมชนนักพัฒนา

การเปิดตัวห้องสมุดนี้เป็นก้าวสำคัญในการทำให้เทคโนโลยี AI ขั้นสูงเป็นประชาธิปไตยมากขึ้น ซึ่งอาจช่วยให้นักวิจัยและนักพัฒนาจำนวนมากขึ้นสามารถทำงานกับโมเดล MoE ได้อย่างมีประสิทธิภาพ ด้วยการรองรับการทำงานแบบ FP8 และการควบคุมทรัพยากร GPU ที่ยืดหยุ่น DeepEP จึงให้พื้นฐานที่แข็งแกร่งสำหรับการพัฒนาและการเพิ่มประสิทธิภาพโมเดล AI ในอนาคต

อ้างอิง: DeepEP: an efficient expert-parallel communication library

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌