ไลบรารีโอเพนซอร์ส Agent Reinforcement Trainer (ART) กำลังได้รับความสนใจในชุมชน AI เมื่อนักพัฒนาแสดงให้เห็นผลลัพธ์ที่น่าประทับใจในการฝึกฝนโมเดลภาษาผ่านการเรียนรู้แบบเสริมแรง ไลบรารีนี้มีเป้าหมายเพื่อทำให้กระบวนการอันซับซ้อนของการเรียนรู้แบบเสริมแรงสำหรับโมเดลภาษาขนาดใหญ่ (LLMs) เข้าถึงได้ง่ายขึ้น ช่วยให้นักพัฒนาสามารถฝึกฝนโมเดลสำหรับงานเฉพาะทางได้โดยไม่จำเป็นต้องมีความเชี่ยวชาญด้าน ML มากนัก
การเชื่อมช่องว่างระหว่าง SFT และ RL
หนึ่งในการอภิปรายที่น่าสนใจที่สุดในชุมชนคือความแตกต่างระหว่างการปรับแต่งแบบมีผู้สอน (SFT) และวิธีการเรียนรู้แบบเสริมแรง (RL) ในขณะที่ SFT ฝึกโมเดลให้สร้างโทเค็นเอาต์พุตเฉพาะจากอินพุตที่กำหนด การเรียนรู้แบบเสริมแรงมุ่งเน้นไปที่การปรับปรุงฟังก์ชันรางวัล
RL ในทางกลับกัน หมายถึงการฝึกโมเดลไม่ให้สร้างสตริงของโทเค็นเอาต์พุตที่เฉพาะเจาะจง แต่เพื่อสร้างเอาต์พุตที่เพิ่มค่ารางวัลให้มากที่สุด (คุณเป็นผู้ตัดสินใจเรื่องรางวัล)
วิธีการนี้พิสูจน์แล้วว่ามีคุณค่าอย่างยิ่งในสถานการณ์ที่การตรวจสอบคำตอบนั้นง่ายกว่าการสร้างคำตอบ ตัวอย่างเช่น ในตัวอย่างเอเจนต์วิจัยอีเมลที่แชร์โดยทีม ART โมเดลได้รับการฝึกฝนให้ใช้การค้นหาด้วยคำสำคัญเพื่อหาอีเมลที่เกี่ยวข้องอย่างมีประสิทธิภาพ—ซึ่งเป็นกลยุทธ์ที่นักพัฒนาไม่ได้เขียนโปรแกรมไว้อย่างชัดเจน แต่โมเดลค้นพบผ่านการเรียนรู้แบบเสริมแรง
การนำไปใช้งานที่ยืดหยุ่นด้วย API ที่เข้ากันได้กับ OpenAI
ART แตกต่างจากไลบรารีอื่นด้วยวิธีการนำไปใช้งานที่ยืดหยุ่น แทนที่จะบังคับให้นักพัฒนาทำงานภายในกรอบที่เคร่งครัด ART มอบจุดเชื่อมต่อ API ที่เข้ากันได้กับ OpenAI ซึ่งทำหน้าที่เป็นตัวแทนสำหรับ API แบบกรรมสิทธิ์ การออกแบบนี้ช่วยให้นักพัฒนาสามารถผสาน ART เข้ากับโค้ดที่มีอยู่แล้วได้โดยมีการแก้ไขน้อยที่สุด
ไลบรารีนี้แบ่งฟังก์ชันการทำงานระหว่างไคลเอนต์และเซิร์ฟเวอร์ ไคลเอนต์เชื่อมต่อกับโค้ดของนักพัฒนา ขณะที่เซิร์ฟเวอร์จัดการกับส่วนการอนุมานและการฝึกฝนที่ซับซ้อนของวงจรการเรียนรู้แบบเสริมแรง การแยกส่วนนี้ช่วยลดความซับซ้อนลงอย่างมาก แต่ยังคงอนุญาตให้มีการปรับแต่งได้
งานของตัวแทนที่รองรับโดย ART
งานของตัวแทน | คำอธิบาย | โมเดลที่ใช้ |
---|---|---|
2048 | ตัวแทนเกม | Qwen 2.5 3B |
Temporal Clue | ตัวแก้ปริศนา | Qwen 2.5 7B |
Tic Tac Toe | ตัวแทนเกม | Qwen 2.5 3B |
ภาพรวมของรอบการฝึกฝน ART
-
การอนุมาน
- โค้ดใช้ไคลเอ็นต์ ART สำหรับเวิร์กโฟลว์ของตัวแทน
- คำขอถูกส่งไปยังเซิร์ฟเวอร์ ART ที่ประมวลผล LoRA ล่าสุดของโมเดลใน vLLM
- ข้อความถูกเก็บไว้ใน Trajectory
- การเสร็จสิ้นการดำเนินการทริกเกอร์การกำหนดรางวัล
-
การฝึกฝน
- Trajectories ถูกจัดกลุ่มและส่งไปยังเซิร์ฟเวอร์
- เซิร์ฟเวอร์ฝึกฝนโมเดลโดยใช้อัลกอริทึม GRPO
- LoRA ที่ฝึกฝนใหม่ถูกบันทึกและโหลดเข้าสู่ VLLM
- การอนุมานดำเนินต่อด้วยโมเดลที่ปรับปรุงแล้ว
การประยุกต์ใช้ในโลกจริงที่แสดงแนวโน้มที่ดี
สมาชิกในชุมชนได้เน้นย้ำว่าเอเจนต์อีเมลของ ART เป็นการสาธิตความสามารถของไลบรารีที่น่าสนใจ เอเจนต์นี้ได้รับการฝึกฝนให้ค้นหาอีเมลอย่างมีประสิทธิภาพโดยใช้คำสำคัญ เรียนรู้กลยุทธ์การค้นหาที่เหมาะสมผ่านการเสริมแรงแทนที่จะเป็นการเขียนโปรแกรมอย่างชัดเจน
ปัจจุบันไลบรารีนี้รองรับการฝึกฝนในงานต่างๆ รวมถึงเกมอย่าง 2048, Temporal Clue และ Tic Tac Toe โดยมีเกณฑ์เปรียบเทียบที่แสดงการปรับปรุงประสิทธิภาพ ตัวอย่างเหล่านี้ทำหน้าที่เป็นจุดเริ่มต้นสำหรับนักพัฒนาที่ต้องการเข้าใจว่า ART สามารถนำไปประยุกต์ใช้กับกรณีการใช้งานของตนเองได้อย่างไร
สถานะการพัฒนาและการมีส่วนร่วมของชุมชน
ART อยู่ในขั้นตอนอัลฟ่า โดยทีมพัฒนากำลังมองหาข้อเสนอแนะและการมีส่วนร่วมอย่างแข็งขัน จุดเชื่อมต่อ HTTP API ยังคงอาจมีการเปลี่ยนแปลง ซึ่งบ่งชี้ถึงการปรับปรุงกรอบการทำงานอย่างต่อเนื่อง ทีมยอมรับว่าพวกเขายังคงทดสอบ ART ในสภาพแวดล้อมจริงและสนับสนุนให้ผู้ใช้รายงานปัญหาผ่าน Discord หรือ GitHub
โครงการนี้พัฒนาต่อยอดจากโครงการโอเพนซอร์สที่มีชื่อเสียงหลายโครงการ รวมถึง Unsloth, VLLM, trl และ SkyPilot ซึ่งแสดงให้เห็นถึงลักษณะความร่วมมือของความก้าวหน้าในเครื่องมือ AI
เมื่อนักพัฒนามากขึ้นทดลองใช้ ART เราคาดว่าจะได้เห็นการขยายขอบเขตของการประยุกต์ใช้งานที่การเรียนรู้แบบเสริมแรงช่วยปรับปรุงประสิทธิภาพของ LLM ในงานเฉพาะทาง ซึ่งอาจช่วยให้เทคนิคการฝึกฝน AI ที่ซับซ้อนซึ่งเคยจำกัดอยู่กับองค์กรที่มีความเชี่ยวชาญและทรัพยากร ML จำนวนมากสามารถเข้าถึงได้อย่างทั่วถึงมากขึ้น
อ้างอิง: Agent Reinforcement Trainer (ART)