งานวิจัยเผยโมเดลพื้นฐานมีความสามารถ "อ๋อ!" อยู่แล้วก่อนการเทรนแบบ R1-Zero

BigGo Editorial Team
งานวิจัยเผยโมเดลพื้นฐานมีความสามารถ "อ๋อ!" อยู่แล้วก่อนการเทรนแบบ R1-Zero

ในการพัฒนาที่น่าประหลาดใจสำหรับวงการวิจัย AI งานวิจัยใหม่ที่มีชื่อว่า Understanding R1-Zero-Like Training: A Critical Perspective ได้ท้าทายสมมติฐานที่มีอยู่เดิมเกี่ยวกับวิธีที่โมเดลภาษาขนาดใหญ่ (LLMs) พัฒนาความสามารถในการให้เหตุผล งานวิจัยนี้ชี้ให้เห็นว่าโมเดลพื้นฐานอย่าง DeepSeek-V3-Base และ Qwen2.5 มีความสามารถในการให้เหตุผลที่สำคัญอยู่แล้วก่อนที่จะผ่านการฝึกฝนด้วยการเรียนรู้แบบเสริมแรงแบบเฉพาะทาง

โมเดลพื้นฐานแสดงการให้เหตุผลขั้นสูงอยู่แล้ว

ตามงานวิจัยนี้ โมเดล DeepSeek-V3-Base แสดงให้เห็นถึงสิ่งที่นักวิจัยเรียกว่าช่วงเวลา อ๋อ! - การค้นพบที่สำคัญในความสามารถการให้เหตุผลที่หลายคนเชื่อว่าเกิดจากเทคนิคการเทรนแบบ R1-Zero ที่น่าทึ่งยิ่งกว่านั้นคือการค้นพบว่าโมเดลพื้นฐาน Qwen2.5 แสดงความสามารถในการให้เหตุผลที่แข็งแกร่งโดยไม่ต้องใช้เทมเพลตคำสั่ง โดยคะแนนเกณฑ์มาตรฐานเพิ่มขึ้นประมาณ 60% เมื่อเทียบกับวิธีการใช้คำสั่งแบบดั้งเดิม

การเปิดเผยนี้ได้จุดประกายให้เกิดการถกเถียงที่สำคัญในชุมชนเทคนิค โดยผู้เชี่ยวชาญหลายคนตั้งคำถามถึงคุณค่าที่แท้จริงที่เพิ่มขึ้นจากกระบวนการเรียนรู้แบบเสริมแรงที่ซับซ้อน

ผมขอเสนอคำอธิบายทางเลือกที่เป็นไปได้ หลังจากที่ได้เทรน LLM มาหลายตัวแล้ว โดยเฉพาะอย่างยิ่งในการยกระดับจากโมเดลที่ทำการเติมข้อความไปสู่โมเดลแบบสั่งงานได้ ผมสังเกตเห็นว่าความสามารถในการทำตามคำสั่งมักไม่สม่ำเสมอในทุกงานที่ LLM สามารถทำได้

ผลการค้นพบสำคัญจากการวิจัย

  • โมเดล DeepSeek-V3-Base แสดงความสามารถแบบ "Aha moment" ก่อนที่จะมีการฝึกฝนแบบเฉพาะทาง
  • โมเดลพื้นฐาน Qwen2.5 แสดงการปรับปรุงคะแนนเกณฑ์มาตรฐานประมาณ 60% โดยไม่ต้องใช้เทมเพลตคำสั่ง
  • อัลกอริทึม GRPO นำไปสู่การปรับแต่งที่มีอคติ ซึ่งได้รับการแก้ไขด้วยวิธีแก้ปัญหาที่เสนอชื่อ "Dr. GRPO"
  • สูตร R1-Zero แบบเรียบง่ายบรรลุประสิทธิภาพระดับ SOTA ด้วยการคำนวณเพียง 27 ชั่วโมงบน GPU A100 จำนวน 8 ตัว
  • เทมเพลตและชุดคำถามทำงานร่วมกันเพื่อส่งผลต่อพลวัตของ RL
  • Llama สามารถปรับแต่งด้วย RL จากโมเดลพื้นฐานได้ โดยการฝึกฝนล่วงหน้าเฉพาะโดเมนช่วยปรับปรุงขีดความสามารถสูงสุดของ RL
ภาพนี้แสดงสถานการณ์การแก้ปัญหาทางคณิตศาสตร์ที่เกี่ยวข้องกับความสามารถในการให้เหตุผลของโมเดลพื้นฐาน
ภาพนี้แสดงสถานการณ์การแก้ปัญหาทางคณิตศาสตร์ที่เกี่ยวข้องกับความสามารถในการให้เหตุผลของโมเดลพื้นฐาน

ตั้งคำถามเกี่ยวกับบทบาทของโทเค็นในกระบวนการคิดแบบลำดับขั้น

การสนทนาในชุมชนได้เน้นย้ำความกังวลเกี่ยวกับสิ่งที่นักวิจัยเรียกว่า การสะท้อนตัวเองแบบผิวเผิน ในโมเดลเหล่านี้ ผู้ใช้หลายคนสังเกตเห็นว่าข้อสรุปในผลลัพธ์ของโมเดลไม่ได้เป็นไปตามโทเค็นความคิดที่สร้างขึ้นระหว่างกระบวนการคิดแบบลำดับขั้นเสมอไป ความไม่สอดคล้องนี้ทำให้เกิดคำถามว่าโทเค็นความคิดเหล่านี้มีบทบาทอะไรในการปรับปรุงประสิทธิภาพจริงๆ

ผู้แสดงความคิดเห็นบางคนแนะนำว่าประโยชน์ของโทเค็นเพิ่มเติมอาจเรียบง่ายกว่าที่เชื่อกันทั่วไป - โทเค็นที่มากขึ้นเพียงแค่ลดตัวเลือกสำหรับสตริงผลลัพธ์สุดท้าย แทนที่จะเป็นตัวแทนของความคิดจริงๆ คนอื่นๆ เสนอว่าแม้แต่การเพิ่มช่องว่างหรือตัวอักษรซ้ำๆ อาจปรับปรุงคุณภาพของผลลัพธ์ได้ โดยช่วยให้โมเดลเข้าสู่สถานะภายในที่แตกต่างกัน ซึ่งใช้โทเค็นเหล่านี้เป็นจุดแวะพักในการประมวลผลอย่างมีประสิทธิภาพ

การปรับปรุงประสิทธิภาพในการเทรนแบบ R1-Zero

งานวิจัยนี้แนะนำแนวทางที่มีประสิทธิภาพมากขึ้นสำหรับการเทรนแบบ R1-Zero โดยเสนอการแก้ไขอัลกอริทึม GRPO (Generalized Reinforcement Learning from Preference Optimization) ที่ปรับปรุงประสิทธิภาพของโทเค็นในขณะที่ยังคงรักษาประสิทธิภาพการให้เหตุผล แนวทางที่ปรับปรุงนี้ เรียกว่า Dr. GRPO (GRPO Done Right) ช่วยให้นักวิจัยสามารถบรรลุประสิทธิภาพระดับสูงสุดโดยการ RL-tuning Qwen2.5-Math-7B บนคำถาม MATH ระดับ 3-5 ด้วยทรัพยากรการคำนวณที่น้อยมาก - เพียง 27 ชั่วโมงบน GPU A100 จำนวน 8 ตัว

สำหรับชุมชน AI โดยเฉพาะผู้ที่ใช้โมเดลแบบเปิดเผยน้ำหนักบนฮาร์ดแวร์สำหรับผู้บริโภค การปรับปรุงประสิทธิภาพนี้สามารถลดต้นทุนในช่วงเวลาอนุมานที่เกี่ยวข้องกับกระบวนการคิดแบบลำดับขั้นที่ยาวนาน ซึ่งปัจจุบันใช้พื้นที่หน้าต่างบริบทที่มีค่าอย่างมาก

ภาพนี้แสดงสูตร Dr GRPO และการเปรียบเทียบประสิทธิภาพของโทเค็น ซึ่งเน้นให้เห็นถึงความก้าวหน้าในการฝึกฝนการเรียนรู้แบบเสริมแรง
ภาพนี้แสดงสูตร Dr GRPO และการเปรียบเทียบประสิทธิภาพของโทเค็น ซึ่งเน้นให้เห็นถึงความก้าวหน้าในการฝึกฝนการเรียนรู้แบบเสริมแรง

ความจำเป็นในการประเมินอย่างเข้มงวดและลดการโฆษณาเกินจริง

งานวิจัยนี้เกิดขึ้นในช่วงเวลาที่หลายคนในชุมชน AI กำลังเรียกร้องให้มีการประเมินความสามารถของโมเดลอย่างมีวิจารณญาณมากขึ้นและลดการโฆษณาทางการตลาดที่เกินจริง ผู้แสดงความคิดเห็นได้ชี้ให้เห็นตัวอย่างอื่นๆ ที่ผลการทดสอบเกณฑ์มาตรฐานถูกกล่าวอ้างเกินจริง เช่น เกณฑ์มาตรฐานการเขียนโค้ด SWE-verified ที่ใช้โดยผู้ขายรายใหญ่ซึ่งมีรายงานว่ามีปัญหาที่แก้ไขอย่างถูกต้องน้อยกว่า 10%

สมาชิกบางคนในชุมชนยังคงสงสัยเกี่ยวกับการอ้างสิทธิ์ในการให้เหตุผลที่แท้จริงในโมเดลเหล่านี้ โดยแนะนำว่าสิ่งที่ปรากฏเป็นการให้เหตุผลอาจเป็นเพียงการจับคู่รูปแบบทางสถิติตามข้อมูลการฝึกฝนที่มีอยู่มากมาย ความแตกต่างระหว่างทักษะการคำนวณ (ความสามารถในการคำนวณพื้นฐาน) และการให้เหตุผลทางคณิตศาสตร์ที่แท้จริงยังคงเป็นที่ถกเถียงกันอยู่

งานวิจัยนี้เป็นก้าวสำคัญสู่การประเมินความสามารถของ AI อย่างโปร่งใสและเป็นจริงมากขึ้น โดยเน้นย้ำถึงความจำเป็นในการทำความเข้าใจว่าโมเดลเหล่านี้กำลังทำอะไรอยู่จริงๆ แทนที่จะอนุมานกระบวนการให้เหตุผลแบบมนุษย์กับระบบทางสถิติ

อ้างอิง: Understanding R1-Zero-Like Training: A Critical Perspective

แผนภูมิแท่งนี้เปรียบเทียบประสิทธิภาพของโมเดลต่างๆ ผ่านเกณฑ์มาตรฐานหลากหลาย เน้นย้ำความสำคัญของการประเมินอย่างเข้มงวดในความสามารถของ AI
แผนภูมิแท่งนี้เปรียบเทียบประสิทธิภาพของโมเดลต่างๆ ผ่านเกณฑ์มาตรฐานหลากหลาย เน้นย้ำความสำคัญของการประเมินอย่างเข้มงวดในความสามารถของ AI