การกล่าวอ้างล่าสุดของ Cerebras เกี่ยวกับความได้เปรียบด้านประสิทธิภาพ AI Inference เมื่อเทียบกับ GPU ของ NVIDIA ได้จุดประเด็นการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี โดยชี้ให้เห็นทั้งความก้าวหน้าที่อาจเกิดขึ้นและความท้าทายสำคัญในวงการฮาร์ดแวร์ AI
ข้อกังวลเรื่องข้อจำกัดของหน่วยความจำ
ประเด็นสำคัญที่ชุมชนยกขึ้นมาคือข้อจำกัดของ SRAM ใน Cerebras แม้บริษัทจะอวดอ้างว่าระบบ CS-3 มี SRAM 44GB แต่ก็ยังไม่เพียงพอสำหรับโมเดลขนาดใหญ่ ดังที่ผู้ใช้ 'menaerus' ชี้ให้เห็น:
CS-1 มี SRAM 18GB, CS-2 เพิ่มเป็น 40GB และ CS-3 มี SRAM 44GB ซึ่งไม่เพียงพอสำหรับการรัน inference ของ Llama 70B และยิ่งไม่พอสำหรับโมเดลที่ใหญ่กว่า
การพิจารณาด้านต้นทุนและประสิทธิภาพ
โครงสร้างต้นทุนของโซลูชัน Cerebras ถูกตรวจสอบอย่างละเอียด ด้วยราคา 900 ล้านดอลลาร์สำหรับ 576 โหนดของ CS-3 (1.56 ล้านดอลลาร์ต่อโหนด) การวิเคราะห์จากชุมชนเผยว่า:
- ต้องใช้ 4 โหนด CS-3 (6.24 ล้านดอลลาร์) เพื่อรองรับโมเดล 70B หนึ่งตัว
- คลัสเตอร์ AMD MI300x ที่มีราคาใกล้เคียงกัน (~5 ล้านดอลลาร์) สามารถรองรับหลายโมเดลด้วยหน่วยความจำรวม 24,576GB
- Google Cloud TPU v5e ให้ความเร็ว 2,175 tokens/วินาที บน Llama2 70B ด้วยค่าใช้จ่ายประมาณ 100,000 ดอลลาร์ต่อปี
สภาพการแข่งขันในตลาด
AMD และ Google ปรากฏตัวเป็นคู่แข่งที่แข็งแกร่ง:
- AMD MI300x มีหน่วยความจำ HBM3 192GB ต่อหน่วย
- MI325x จะมาพร้อมกับ HBM3e 256GB
- Google TPU v6 ที่เพิ่งประกาศ สัญญาว่าจะมีประสิทธิภาพการเทรนดีขึ้น 4 เท่า และเพิ่มประสิทธิภาพ inference 3 เท่า
ศักยภาพในตลาดเฉพาะกลุ่ม
แม้จะมีข้อจำกัด Cerebras อาจประสบความสำเร็จในการใช้งานเฉพาะด้าน ตามที่ 'krasin' กล่าวว่า เทคโนโลยีของพวกเขาอาจมีคุณค่าสำหรับการตอบสนองแบบ low-latency เช่น การแชทเสียงกับ LLM หุ่นยนต์ และอื่นๆ อย่างไรก็ตาม นี่เป็นเพียงส่วนเล็กๆ ของตลาด AI โดยรวม
ความเห็นร่วมของชุมชนชี้ว่า แม้ Cerebras จะแสดงประสิทธิภาพที่น่าสนใจในบางสถานการณ์ แต่ข้อจำกัดด้านหน่วยความจำและต้นทุนสูงอาจจำกัดการยอมรับในตลาดที่กว้างขึ้น กลยุทธ์ของบริษัทในการอุดหนุนอัตราการใช้งานคลาวด์เทียบกับการขายฮาร์ดแวร์ก็ยังเป็นที่ถกเถียงถึงความยั่งยืนทางธุรกิจในระยะยาว