FlashMLA ของ DeepSeek สามารถทำประสิทธิภาพแบนด์วิดท์หน่วยความจำได้ถึง 90% บน GPU Hopper

BigGo Editorial Team
FlashMLA ของ DeepSeek สามารถทำประสิทธิภาพแบนด์วิดท์หน่วยความจำได้ถึง 90% บน GPU Hopper

ในการพัฒนาที่สำคัญด้านประสิทธิภาพการให้บริการโมเดล AI, DeepSeek ได้เปิดเผยซอร์สโค้ดของ FlashMLA ซึ่งเป็นเคอร์เนลถอดรหัส MLA (Multi-head Linear Attention) ที่ได้รับการปรับแต่งมาโดยเฉพาะสำหรับ GPU Hopper การเปิดตัวนี้เกิดขึ้นท่ามกลางความสนใจที่เพิ่มขึ้นใน MLA ในฐานะทางเลือกแทนกลไกการให้ความสนใจแบบดั้งเดิมในโมเดลภาษาขนาดใหญ่

ความก้าวหน้าด้านประสิทธิภาพ

FlashMLA แสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจ โดยสามารถทำความเร็วได้สูงถึง 3000 GB/s ในการตั้งค่าที่จำกัดด้วยหน่วยความจำ และ 580 TFLOPS ในการตั้งค่าที่จำกัดด้วยการคำนวณบน GPU H800 SXM5 ซึ่งแปลเป็นประสิทธิภาพแบนด์วิดท์หน่วยความจำประมาณ 90% และประสิทธิภาพการคำนวณ 60% ถือเป็นการพัฒนาที่สำคัญในการใช้งาน GPU สำหรับการให้บริการโมเดล AI

ข้อมูลจำเพาะทางเทคนิค:

  • รองรับ GPU: Hopper GPUs (H800 SXM5)
  • ประสิทธิภาพหน่วยความจำ: สูงสุด 3000 GB/s
  • ประสิทธิภาพการประมวลผล: สูงสุด 580 TFLOPS
  • รองรับความแม่นยำ: BF16
  • แคช KV: แบบแบ่งหน้าด้วยขนาดบล็อก 64
  • ความต้องการ CUDA: เวอร์ชัน 12.3 ขึ้นไป
  • ความต้องการ PyTorch: เวอร์ชัน 2.0 ขึ้นไป

MLA เทียบกับ Traditional Attention

งานวิจัยเชิงทฤษฎีล่าสุดได้ยืนยันข้อได้เปรียบของ MLA เมื่อเทียบกับ Group Query Attention (GQA) แบบดั้งเดิม จากการอภิปรายในชุมชน MLA มีพลังการแสดงออกที่มากกว่า GQA ในขณะที่ยังคงรักษาการใช้หน่วยความจำ KV Cache เท่าเดิม โดยเฉพาะอย่างยิ่ง โมเดลที่ผ่านการเทรนด้วย GQA ที่มีอยู่ รวมถึงโมเดลยอดนิยมอย่าง LLaMA, Qwen และ Mixtral สามารถแปลงเป็นโมเดลที่ใช้ MLA ได้

การนำไปใช้และข้อจำกัด

ปัจจุบัน FlashMLA รองรับความแม่นยำแบบ BF16 และใช้ paged KV cache ที่มีขนาดบล็อก 64 แม้ว่าการนำไปใช้จะแสดงให้เห็นถึงความน่าสนใจ แต่สมาชิกในชุมชนบางคนได้สังเกตเห็นข้อจำกัดเฉพาะแพลตฟอร์ม:

ในมุมมองของผม การที่ FlashMLA มุ่งเน้นเฉพาะ GPU Hopper จำกัดการใช้งานข้ามแพลตฟอร์ม และการขาดเอกสารที่ครอบคลุม ความไม่ชัดเจนในการทำงานร่วมกับเฟรมเวิร์กอื่นๆ และการไม่มีการเปรียบเทียบประสิทธิภาพหรือข้อมูลเชิงลึกเกี่ยวกับข้อดีข้อเสีย ทำให้ยากต่อการใช้งานและการปรับใช้

ผลกระทบต่อภูมิทัศน์การให้บริการ AI

การเปิดตัวนี้ได้จุดประกายการอภิปรายเกี่ยวกับผลกระทบที่อาจเกิดขึ้นกับเฟรมเวิร์กการให้บริการ AI ที่มีอยู่เช่น vLLM และ SGLang ชุมชนระบุว่า vLLM ได้นำ MLA มาใช้กับโมเดล DeepSeek แล้ว โดยรายงานการปรับปรุงที่สำคัญในด้านปริมาณการสร้างและความจุหน่วยความจำโทเค็น ภูมิทัศน์การแข่งขันนี้ยังคงผลักดันนวัตกรรมในประสิทธิภาพการให้บริการโมเดล AI

นัยสำคัญในอนาคต

ในฐานะส่วนหนึ่งของกลยุทธ์การเปิดตัวโครงสร้างพื้นฐาน DeepSeek วางแผนที่จะเปิดเผยซอร์สโค้ดของคลังโครงสร้างพื้นฐานเพิ่มเติม ชุมชนคาดการณ์ว่าการเปิดตัวเหล่านี้ร่วมกับ FlashMLA อาจมีอิทธิพลอย่างมีนัยสำคัญต่อทิศทางการปรับปรุงประสิทธิภาพการให้บริการโมเดล AI โดยเฉพาะอย่างยิ่งในการแก้ไขความท้าทายด้านแบนด์วิดท์หน่วยความจำและประสิทธิภาพการคำนวณในการปรับใช้งานขนาดใหญ่

อ้างอิง: FlashMLA