ในการพัฒนาที่น่าประหลาดใจสำหรับวงการวิจัย AI งานวิจัยใหม่ที่มีชื่อว่า Understanding R1-Zero-Like Training: A Critical Perspective ได้ท้าทายสมมติฐานที่มีอยู่เดิมเกี่ยวกับวิธีที่โมเดลภาษาขนาดใหญ่ (LLMs) พัฒนาความสามารถในการให้เหตุผล งานวิจัยนี้ชี้ให้เห็นว่าโมเดลพื้นฐานอย่าง DeepSeek-V3-Base และ Qwen2.5 มีความสามารถในการให้เหตุผลที่สำคัญอยู่แล้วก่อนที่จะผ่านการฝึกฝนด้วยการเรียนรู้แบบเสริมแรงแบบเฉพาะทาง
โมเดลพื้นฐานแสดงการให้เหตุผลขั้นสูงอยู่แล้ว
ตามงานวิจัยนี้ โมเดล DeepSeek-V3-Base แสดงให้เห็นถึงสิ่งที่นักวิจัยเรียกว่าช่วงเวลา อ๋อ! - การค้นพบที่สำคัญในความสามารถการให้เหตุผลที่หลายคนเชื่อว่าเกิดจากเทคนิคการเทรนแบบ R1-Zero ที่น่าทึ่งยิ่งกว่านั้นคือการค้นพบว่าโมเดลพื้นฐาน Qwen2.5 แสดงความสามารถในการให้เหตุผลที่แข็งแกร่งโดยไม่ต้องใช้เทมเพลตคำสั่ง โดยคะแนนเกณฑ์มาตรฐานเพิ่มขึ้นประมาณ 60% เมื่อเทียบกับวิธีการใช้คำสั่งแบบดั้งเดิม
การเปิดเผยนี้ได้จุดประกายให้เกิดการถกเถียงที่สำคัญในชุมชนเทคนิค โดยผู้เชี่ยวชาญหลายคนตั้งคำถามถึงคุณค่าที่แท้จริงที่เพิ่มขึ้นจากกระบวนการเรียนรู้แบบเสริมแรงที่ซับซ้อน
ผมขอเสนอคำอธิบายทางเลือกที่เป็นไปได้ หลังจากที่ได้เทรน LLM มาหลายตัวแล้ว โดยเฉพาะอย่างยิ่งในการยกระดับจากโมเดลที่ทำการเติมข้อความไปสู่โมเดลแบบสั่งงานได้ ผมสังเกตเห็นว่าความสามารถในการทำตามคำสั่งมักไม่สม่ำเสมอในทุกงานที่ LLM สามารถทำได้
ผลการค้นพบสำคัญจากการวิจัย
- โมเดล DeepSeek-V3-Base แสดงความสามารถแบบ "Aha moment" ก่อนที่จะมีการฝึกฝนแบบเฉพาะทาง
- โมเดลพื้นฐาน Qwen2.5 แสดงการปรับปรุงคะแนนเกณฑ์มาตรฐานประมาณ 60% โดยไม่ต้องใช้เทมเพลตคำสั่ง
- อัลกอริทึม GRPO นำไปสู่การปรับแต่งที่มีอคติ ซึ่งได้รับการแก้ไขด้วยวิธีแก้ปัญหาที่เสนอชื่อ "Dr. GRPO"
- สูตร R1-Zero แบบเรียบง่ายบรรลุประสิทธิภาพระดับ SOTA ด้วยการคำนวณเพียง 27 ชั่วโมงบน GPU A100 จำนวน 8 ตัว
- เทมเพลตและชุดคำถามทำงานร่วมกันเพื่อส่งผลต่อพลวัตของ RL
- Llama สามารถปรับแต่งด้วย RL จากโมเดลพื้นฐานได้ โดยการฝึกฝนล่วงหน้าเฉพาะโดเมนช่วยปรับปรุงขีดความสามารถสูงสุดของ RL
![]() |
---|
ภาพนี้แสดงสถานการณ์การแก้ปัญหาทางคณิตศาสตร์ที่เกี่ยวข้องกับความสามารถในการให้เหตุผลของโมเดลพื้นฐาน |
ตั้งคำถามเกี่ยวกับบทบาทของโทเค็นในกระบวนการคิดแบบลำดับขั้น
การสนทนาในชุมชนได้เน้นย้ำความกังวลเกี่ยวกับสิ่งที่นักวิจัยเรียกว่า การสะท้อนตัวเองแบบผิวเผิน ในโมเดลเหล่านี้ ผู้ใช้หลายคนสังเกตเห็นว่าข้อสรุปในผลลัพธ์ของโมเดลไม่ได้เป็นไปตามโทเค็นความคิดที่สร้างขึ้นระหว่างกระบวนการคิดแบบลำดับขั้นเสมอไป ความไม่สอดคล้องนี้ทำให้เกิดคำถามว่าโทเค็นความคิดเหล่านี้มีบทบาทอะไรในการปรับปรุงประสิทธิภาพจริงๆ
ผู้แสดงความคิดเห็นบางคนแนะนำว่าประโยชน์ของโทเค็นเพิ่มเติมอาจเรียบง่ายกว่าที่เชื่อกันทั่วไป - โทเค็นที่มากขึ้นเพียงแค่ลดตัวเลือกสำหรับสตริงผลลัพธ์สุดท้าย แทนที่จะเป็นตัวแทนของความคิดจริงๆ คนอื่นๆ เสนอว่าแม้แต่การเพิ่มช่องว่างหรือตัวอักษรซ้ำๆ อาจปรับปรุงคุณภาพของผลลัพธ์ได้ โดยช่วยให้โมเดลเข้าสู่สถานะภายในที่แตกต่างกัน ซึ่งใช้โทเค็นเหล่านี้เป็นจุดแวะพักในการประมวลผลอย่างมีประสิทธิภาพ
การปรับปรุงประสิทธิภาพในการเทรนแบบ R1-Zero
งานวิจัยนี้แนะนำแนวทางที่มีประสิทธิภาพมากขึ้นสำหรับการเทรนแบบ R1-Zero โดยเสนอการแก้ไขอัลกอริทึม GRPO (Generalized Reinforcement Learning from Preference Optimization) ที่ปรับปรุงประสิทธิภาพของโทเค็นในขณะที่ยังคงรักษาประสิทธิภาพการให้เหตุผล แนวทางที่ปรับปรุงนี้ เรียกว่า Dr. GRPO (GRPO Done Right) ช่วยให้นักวิจัยสามารถบรรลุประสิทธิภาพระดับสูงสุดโดยการ RL-tuning Qwen2.5-Math-7B บนคำถาม MATH ระดับ 3-5 ด้วยทรัพยากรการคำนวณที่น้อยมาก - เพียง 27 ชั่วโมงบน GPU A100 จำนวน 8 ตัว
สำหรับชุมชน AI โดยเฉพาะผู้ที่ใช้โมเดลแบบเปิดเผยน้ำหนักบนฮาร์ดแวร์สำหรับผู้บริโภค การปรับปรุงประสิทธิภาพนี้สามารถลดต้นทุนในช่วงเวลาอนุมานที่เกี่ยวข้องกับกระบวนการคิดแบบลำดับขั้นที่ยาวนาน ซึ่งปัจจุบันใช้พื้นที่หน้าต่างบริบทที่มีค่าอย่างมาก
![]() |
---|
ภาพนี้แสดงสูตร Dr GRPO และการเปรียบเทียบประสิทธิภาพของโทเค็น ซึ่งเน้นให้เห็นถึงความก้าวหน้าในการฝึกฝนการเรียนรู้แบบเสริมแรง |
ความจำเป็นในการประเมินอย่างเข้มงวดและลดการโฆษณาเกินจริง
งานวิจัยนี้เกิดขึ้นในช่วงเวลาที่หลายคนในชุมชน AI กำลังเรียกร้องให้มีการประเมินความสามารถของโมเดลอย่างมีวิจารณญาณมากขึ้นและลดการโฆษณาทางการตลาดที่เกินจริง ผู้แสดงความคิดเห็นได้ชี้ให้เห็นตัวอย่างอื่นๆ ที่ผลการทดสอบเกณฑ์มาตรฐานถูกกล่าวอ้างเกินจริง เช่น เกณฑ์มาตรฐานการเขียนโค้ด SWE-verified ที่ใช้โดยผู้ขายรายใหญ่ซึ่งมีรายงานว่ามีปัญหาที่แก้ไขอย่างถูกต้องน้อยกว่า 10%
สมาชิกบางคนในชุมชนยังคงสงสัยเกี่ยวกับการอ้างสิทธิ์ในการให้เหตุผลที่แท้จริงในโมเดลเหล่านี้ โดยแนะนำว่าสิ่งที่ปรากฏเป็นการให้เหตุผลอาจเป็นเพียงการจับคู่รูปแบบทางสถิติตามข้อมูลการฝึกฝนที่มีอยู่มากมาย ความแตกต่างระหว่างทักษะการคำนวณ (ความสามารถในการคำนวณพื้นฐาน) และการให้เหตุผลทางคณิตศาสตร์ที่แท้จริงยังคงเป็นที่ถกเถียงกันอยู่
งานวิจัยนี้เป็นก้าวสำคัญสู่การประเมินความสามารถของ AI อย่างโปร่งใสและเป็นจริงมากขึ้น โดยเน้นย้ำถึงความจำเป็นในการทำความเข้าใจว่าโมเดลเหล่านี้กำลังทำอะไรอยู่จริงๆ แทนที่จะอนุมานกระบวนการให้เหตุผลแบบมนุษย์กับระบบทางสถิติ
อ้างอิง: Understanding R1-Zero-Like Training: A Critical Perspective
![]() |
---|
แผนภูมิแท่งนี้เปรียบเทียบประสิทธิภาพของโมเดลต่างๆ ผ่านเกณฑ์มาตรฐานหลากหลาย เน้นย้ำความสำคัญของการประเมินอย่างเข้มงวดในความสามารถของ AI |