Xiaomi เปิดตัว MiMo-7B ท้าทายโมเดลขนาดใหญ่ด้วยความสามารถในการให้เหตุผลที่น่าประทับใจ

BigGo Editorial Team
Xiaomi เปิดตัว MiMo-7B ท้าทายโมเดลขนาดใหญ่ด้วยความสามารถในการให้เหตุผลที่น่าประทับใจ

Xiaomi ได้เข้าสู่การแข่งขันด้าน AI ด้วย MiMo-7B ซึ่งเป็นซีรีส์โมเดลภาษาใหม่ที่แสดงความสามารถในการให้เหตุผลที่โดดเด่น แม้จะมีขนาดพารามิเตอร์ที่ค่อนข้างเล็ก โมเดลนี้ซึ่งเน้นทั้งงานด้านคณิตศาสตร์และการเขียนโค้ด กำลังสร้างความสนใจอย่างมากในชุมชนนักพัฒนาจากประสิทธิภาพที่น่าประทับใจในการทดสอบเกณฑ์มาตรฐานที่สามารถแข่งขันกับโมเดลที่ใหญ่กว่ามาก

ภาพหน้าจอของพื้นที่เก็บข้อมูล GitHub สำหรับ Xiaomi MiMo ที่แสดงรายละเอียดการพัฒนาและการเปิดให้ใช้งานแบบโอเพนซอร์ส
ภาพหน้าจอของพื้นที่เก็บข้อมูล GitHub สำหรับ Xiaomi MiMo ที่แสดงรายละเอียดการพัฒนาและการเปิดให้ใช้งานแบบโอเพนซอร์ส

โมเดลพื้นฐานที่สร้างมาเพื่อการให้เหตุผล

MiMo-7B โดดเด่นด้วยแนวทางการพัฒนาโมเดลที่เน้นความสามารถในการให้เหตุผลตั้งแต่เริ่มต้น แทนที่จะเป็นเพียงการฝึกฝนหลังการเทรนเท่านั้น ทีมของ Xiaomi ได้ปรับปรุงกระบวนการเทรนโมเดลพื้นฐานด้วยชุดเครื่องมือสกัดข้อมูลที่พัฒนาขึ้นและการกรองหลายมิติเพื่อเพิ่มความหนาแน่นของรูปแบบการให้เหตุผล โมเดลพื้นฐานได้รับการเทรนด้วยโทเค็นประมาณ 25 ล้านล้านโทเค็น—ซึ่งเป็นขนาดที่เทียบเท่ากับ Meta Llama 4 Maverick ที่ใช้ 22 ล้านล้านโทเค็น คลังข้อมูลการเทรนขนาดใหญ่นี้แสดงถึงการลงทุนที่สำคัญในทรัพยากรการคำนวณที่โดยปกติแล้วมักเกี่ยวข้องกับบริษัทเทคโนโลยีที่ใหญ่กว่ามาก

นี่เป็นแนวทางที่น่าสนใจ - ไม่ใช่โมเดลที่กลั่นกรองหรือชั้น RL เพื่อให้ได้การให้เหตุผลจากโมเดลอื่น แต่เป็นโมเดล RL ที่สร้างขึ้นใหม่ทั้งหมดโดยมีการให้เหตุผลฝังอยู่ตั้งแต่ต้น ข้อกล่าวอ้างดูเหมือนจะบ่งชี้ว่าคุณจะได้รับประสิทธิภาพต่อพารามิเตอร์เพิ่มขึ้นมากเมื่อทำเช่นนี้

ท้าทายโมเดลที่ใหญ่กว่าด้วยผลการทดสอบที่น่าประทับใจ

ชุมชนได้แสดงทั้งความตื่นเต้นและความสงสัยเกี่ยวกับผลการทดสอบของ MiMo-7B มีรายงานว่าโมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลที่ใหญ่กว่าหลายโมเดล รวมถึงโมเดลขนาด 32B พารามิเตอร์บางตัว โดยเฉพาะในงานด้านการเขียนโค้ด ผู้ใช้คนหนึ่งสังเกตว่าประสิทธิภาพของ MiMo-7B ในการทดสอบการเขียนโค้ด (57.8) มีค่าใกล้เคียงกับ Gemini Pro 2.5 (67.8) และ Gemini 2.5 Flash (60.6) อย่างน่าทึ่ง ระดับประสิทธิภาพนี้จากโมเดลขนาด 7B ถือว่าผิดปกติ ทำให้บางคนสงสัยว่าโมเดลอาจจะถูกเทรนให้เหมาะกับการทดสอบมาตรฐานมากเกินไป—ซึ่งเป็นคำวิจารณ์ทั่วไปในวงการ AI ปัจจุบันที่โมเดลหลายตัวถูกเทรนบนชุดข้อมูลทดสอบมาตรฐาน

นวัตกรรมการเทรนสำหรับโค้ดและคณิตศาสตร์

แนวทางของ Xiaomi ในการใช้การเรียนรู้แบบเสริมกำลัง (reinforcement learning) สำหรับการสร้างโค้ดได้รับความสนใจเป็นพิเศษ ทีมได้รวบรวมปัญหาคณิตศาสตร์และโค้ด 130,000 ปัญหาที่สามารถตรวจสอบได้โดยระบบที่ใช้กฎ สำหรับปัญหาการเขียนโค้ดโดยเฉพาะ พวกเขาได้นำระบบรางวัลที่ขับเคลื่อนด้วยความยากของการทดสอบมาใช้ ซึ่งกำหนดคะแนนละเอียดตามความซับซ้อนของกรณีทดสอบ ทำให้การปรับปรุงมีประสิทธิภาพมากขึ้นผ่านสัญญาณรางวัลที่หนาแน่น Seamless Rollout Engine ของพวกเขาช่วยเร่งการเทรนและการตรวจสอบ RL โดยรวมการ rollout ต่อเนื่อง การคำนวณรางวัลแบบอะซิงโครนัส และการยุติก่อนกำหนด ซึ่งรายงานว่าทำให้การเทรนเร็วขึ้นกว่า 2 เท่า

ภาพรวมของโมเดล MiMo-7B

โมเดล คำอธิบาย ลิงก์
MiMo-7B-Base โมเดลพื้นฐานที่มีศักยภาพในการให้เหตุผล HuggingFace
MiMo-7B-RL-Zero โมเดล RL ที่ถูกฝึกฝนจากโมเดลพื้นฐาน HuggingFace
MiMo-7B-SFT โมเดล SFT ที่ถูกฝึกฝนจากโมเดลพื้นฐาน HuggingFace
MiMo-7B-RL โมเดล RL ที่ถูกฝึกฝนจากโมเดล SFT HuggingFace

คุณสมบัติทางเทคนิคที่สำคัญ:

  • ผ่านการฝึกฝนด้วยโทเค็นประมาณ 25 ล้านล้านโทเค็น
  • ผสมผสานการทำนายโทเค็นหลายตัวเป็นวัตถุประสงค์การฝึกฝนเพิ่มเติม
  • ใช้ระบบให้รางวัลโค้ดตามระดับความยากของการทดสอบ
  • นำกลยุทธ์การสุ่มข้อมูลซ้ำมาใช้เพื่อเพิ่มประสิทธิภาพในการฝึกฝน
  • พัฒนาด้วย "Seamless Rollout Engine" เพื่อการฝึกฝนที่เร็วขึ้น 2.295 เท่า

การเติบโตของโมเดลแบบใช้งานในเครื่อง

ประสิทธิภาพที่น่าประทับใจของ MiMo-7B เพิ่มเติมให้กับแนวโน้มที่เพิ่มขึ้นของโมเดลขนาดเล็กที่สามารถรันในเครื่องได้และมีความสามารถเพิ่มขึ้นเรื่อยๆ สมาชิกในชุมชนได้สังเกตว่าคุณภาพของโมเดลขนาดเล็กได้รับการปรับปรุงอย่างต่อเนื่อง ทำให้เป็นทางเลือกที่เป็นไปได้แทนบริการบนคลาวด์สำหรับงานประจำวันหลายอย่าง การพัฒนานี้มีนัยสำคัญต่อความเป็นส่วนตัว ต้นทุน และการเข้าถึง—ช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชันโดยไม่ต้องพึ่งพาการเรียก API ไปยังบริการที่เป็นกรรมสิทธิ์

ข้อพิจารณาด้านหลายภาษา

มีการอภิปรายที่น่าสนใจเกี่ยวกับการเลือกของ Xiaomi ในการเปิดตัวโมเดลที่เชี่ยวชาญภาษาอังกฤษแม้จะเป็นบริษัทจีน สมาชิกในชุมชนชี้ให้เห็นว่าภาษาอังกฤษครอบงำเนื้อหาอินเทอร์เน็ต (43% ของข้อมูล Common Crawl) ทำให้เป็นตัวเลือกที่ปฏิบัติได้สำหรับข้อมูลการเทรน นอกจากนี้ ชุมชนวิจัยทางวิทยาศาสตร์และการทดสอบมาตรฐาน AI ส่วนใหญ่ใช้ภาษาอังกฤษ ทำให้เป็นตัวเลือกที่สมเหตุสมผลสำหรับการพัฒนาโมเดลโดยไม่คำนึงถึงต้นกำเนิดของบริษัท ผู้ใช้บางรายสังเกตว่าเนื้อหาอินเทอร์เน็ตจีนนั้นยากต่อการรวบรวมมากกว่าเนื่องจากระบบนิเวศที่ปิดซึ่งควบคุมโดยบริษัทใหญ่ๆ ซึ่งสร้างความท้าทายเพิ่มเติมสำหรับการเทรนโมเดลที่เน้นภาษาจีนเป็นหลัก

น้ำหนักแบบเปิดและการเข้าถึง

Xiaomi ได้เปิดซอร์สซีรีส์ MiMo-7B รวมถึงจุดตรวจสอบสำหรับโมเดลพื้นฐาน โมเดล SFT (Supervised Fine-Tuning) และโมเดล RL (Reinforcement Learning) สองโมเดล ชุมชนได้เริ่มแปลงโมเดลเป็นรูปแบบที่เข้าถึงได้ง่ายขึ้นเช่น GGUF สำหรับใช้กับเครื่องมือเช่น Ollama และ LM Studio ซึ่งขยายการเข้าถึงไปยังนักพัฒนาที่ต้องการรันโมเดลในเครื่อง การเคลื่อนไหวนี้สอดคล้องกับแนวโน้มที่เพิ่มขึ้นของการทำให้โมเดล AI เข้าถึงได้มากขึ้นสำหรับนักพัฒนาและนักวิจัยนอกบริษัทเทคโนโลยีขนาดใหญ่

ในขณะที่โมเดลขนาดเล็กยังคงปรับปรุงความสามารถในขณะที่ยังคงมีประสิทธิภาพเพียงพอที่จะรันในเครื่องได้ เราอาจเห็นการเปลี่ยนแปลงในวิธีการนำ AI ไปใช้ในแอปพลิเคชันประจำวัน MiMo-7B เป็นอีกก้าวหนึ่งสู่ AI ที่ทรงพลังและเข้าถึงได้ซึ่งไม่จำเป็นต้องใช้ทรัพยากรการคำนวณมหาศาลหรือการพึ่งพาคลาวด์

อ้างอิง: Xiaomi MiMo