ไลบรารี ART ทำให้การเรียนรู้แบบเสริมแรงเข้าถึงได้สำหรับการฝึกฝน LLM

BigGo Editorial Team
ไลบรารี ART ทำให้การเรียนรู้แบบเสริมแรงเข้าถึงได้สำหรับการฝึกฝน LLM

ไลบรารีโอเพนซอร์ส Agent Reinforcement Trainer (ART) กำลังได้รับความสนใจในชุมชน AI เมื่อนักพัฒนาแสดงให้เห็นผลลัพธ์ที่น่าประทับใจในการฝึกฝนโมเดลภาษาผ่านการเรียนรู้แบบเสริมแรง ไลบรารีนี้มีเป้าหมายเพื่อทำให้กระบวนการอันซับซ้อนของการเรียนรู้แบบเสริมแรงสำหรับโมเดลภาษาขนาดใหญ่ (LLMs) เข้าถึงได้ง่ายขึ้น ช่วยให้นักพัฒนาสามารถฝึกฝนโมเดลสำหรับงานเฉพาะทางได้โดยไม่จำเป็นต้องมีความเชี่ยวชาญด้าน ML มากนัก

การเชื่อมช่องว่างระหว่าง SFT และ RL

หนึ่งในการอภิปรายที่น่าสนใจที่สุดในชุมชนคือความแตกต่างระหว่างการปรับแต่งแบบมีผู้สอน (SFT) และวิธีการเรียนรู้แบบเสริมแรง (RL) ในขณะที่ SFT ฝึกโมเดลให้สร้างโทเค็นเอาต์พุตเฉพาะจากอินพุตที่กำหนด การเรียนรู้แบบเสริมแรงมุ่งเน้นไปที่การปรับปรุงฟังก์ชันรางวัล

RL ในทางกลับกัน หมายถึงการฝึกโมเดลไม่ให้สร้างสตริงของโทเค็นเอาต์พุตที่เฉพาะเจาะจง แต่เพื่อสร้างเอาต์พุตที่เพิ่มค่ารางวัลให้มากที่สุด (คุณเป็นผู้ตัดสินใจเรื่องรางวัล)

วิธีการนี้พิสูจน์แล้วว่ามีคุณค่าอย่างยิ่งในสถานการณ์ที่การตรวจสอบคำตอบนั้นง่ายกว่าการสร้างคำตอบ ตัวอย่างเช่น ในตัวอย่างเอเจนต์วิจัยอีเมลที่แชร์โดยทีม ART โมเดลได้รับการฝึกฝนให้ใช้การค้นหาด้วยคำสำคัญเพื่อหาอีเมลที่เกี่ยวข้องอย่างมีประสิทธิภาพ—ซึ่งเป็นกลยุทธ์ที่นักพัฒนาไม่ได้เขียนโปรแกรมไว้อย่างชัดเจน แต่โมเดลค้นพบผ่านการเรียนรู้แบบเสริมแรง

การนำไปใช้งานที่ยืดหยุ่นด้วย API ที่เข้ากันได้กับ OpenAI

ART แตกต่างจากไลบรารีอื่นด้วยวิธีการนำไปใช้งานที่ยืดหยุ่น แทนที่จะบังคับให้นักพัฒนาทำงานภายในกรอบที่เคร่งครัด ART มอบจุดเชื่อมต่อ API ที่เข้ากันได้กับ OpenAI ซึ่งทำหน้าที่เป็นตัวแทนสำหรับ API แบบกรรมสิทธิ์ การออกแบบนี้ช่วยให้นักพัฒนาสามารถผสาน ART เข้ากับโค้ดที่มีอยู่แล้วได้โดยมีการแก้ไขน้อยที่สุด

ไลบรารีนี้แบ่งฟังก์ชันการทำงานระหว่างไคลเอนต์และเซิร์ฟเวอร์ ไคลเอนต์เชื่อมต่อกับโค้ดของนักพัฒนา ขณะที่เซิร์ฟเวอร์จัดการกับส่วนการอนุมานและการฝึกฝนที่ซับซ้อนของวงจรการเรียนรู้แบบเสริมแรง การแยกส่วนนี้ช่วยลดความซับซ้อนลงอย่างมาก แต่ยังคงอนุญาตให้มีการปรับแต่งได้

งานของตัวแทนที่รองรับโดย ART

งานของตัวแทน คำอธิบาย โมเดลที่ใช้
2048 ตัวแทนเกม Qwen 2.5 3B
Temporal Clue ตัวแก้ปริศนา Qwen 2.5 7B
Tic Tac Toe ตัวแทนเกม Qwen 2.5 3B

ภาพรวมของรอบการฝึกฝน ART

  1. การอนุมาน

    • โค้ดใช้ไคลเอ็นต์ ART สำหรับเวิร์กโฟลว์ของตัวแทน
    • คำขอถูกส่งไปยังเซิร์ฟเวอร์ ART ที่ประมวลผล LoRA ล่าสุดของโมเดลใน vLLM
    • ข้อความถูกเก็บไว้ใน Trajectory
    • การเสร็จสิ้นการดำเนินการทริกเกอร์การกำหนดรางวัล
  2. การฝึกฝน

    • Trajectories ถูกจัดกลุ่มและส่งไปยังเซิร์ฟเวอร์
    • เซิร์ฟเวอร์ฝึกฝนโมเดลโดยใช้อัลกอริทึม GRPO
    • LoRA ที่ฝึกฝนใหม่ถูกบันทึกและโหลดเข้าสู่ VLLM
    • การอนุมานดำเนินต่อด้วยโมเดลที่ปรับปรุงแล้ว

การประยุกต์ใช้ในโลกจริงที่แสดงแนวโน้มที่ดี

สมาชิกในชุมชนได้เน้นย้ำว่าเอเจนต์อีเมลของ ART เป็นการสาธิตความสามารถของไลบรารีที่น่าสนใจ เอเจนต์นี้ได้รับการฝึกฝนให้ค้นหาอีเมลอย่างมีประสิทธิภาพโดยใช้คำสำคัญ เรียนรู้กลยุทธ์การค้นหาที่เหมาะสมผ่านการเสริมแรงแทนที่จะเป็นการเขียนโปรแกรมอย่างชัดเจน

ปัจจุบันไลบรารีนี้รองรับการฝึกฝนในงานต่างๆ รวมถึงเกมอย่าง 2048, Temporal Clue และ Tic Tac Toe โดยมีเกณฑ์เปรียบเทียบที่แสดงการปรับปรุงประสิทธิภาพ ตัวอย่างเหล่านี้ทำหน้าที่เป็นจุดเริ่มต้นสำหรับนักพัฒนาที่ต้องการเข้าใจว่า ART สามารถนำไปประยุกต์ใช้กับกรณีการใช้งานของตนเองได้อย่างไร

สถานะการพัฒนาและการมีส่วนร่วมของชุมชน

ART อยู่ในขั้นตอนอัลฟ่า โดยทีมพัฒนากำลังมองหาข้อเสนอแนะและการมีส่วนร่วมอย่างแข็งขัน จุดเชื่อมต่อ HTTP API ยังคงอาจมีการเปลี่ยนแปลง ซึ่งบ่งชี้ถึงการปรับปรุงกรอบการทำงานอย่างต่อเนื่อง ทีมยอมรับว่าพวกเขายังคงทดสอบ ART ในสภาพแวดล้อมจริงและสนับสนุนให้ผู้ใช้รายงานปัญหาผ่าน Discord หรือ GitHub

โครงการนี้พัฒนาต่อยอดจากโครงการโอเพนซอร์สที่มีชื่อเสียงหลายโครงการ รวมถึง Unsloth, VLLM, trl และ SkyPilot ซึ่งแสดงให้เห็นถึงลักษณะความร่วมมือของความก้าวหน้าในเครื่องมือ AI

เมื่อนักพัฒนามากขึ้นทดลองใช้ ART เราคาดว่าจะได้เห็นการขยายขอบเขตของการประยุกต์ใช้งานที่การเรียนรู้แบบเสริมแรงช่วยปรับปรุงประสิทธิภาพของ LLM ในงานเฉพาะทาง ซึ่งอาจช่วยให้เทคนิคการฝึกฝน AI ที่ซับซ้อนซึ่งเคยจำกัดอยู่กับองค์กรที่มีความเชี่ยวชาญและทรัพยากร ML จำนวนมากสามารถเข้าถึงได้อย่างทั่วถึงมากขึ้น

อ้างอิง: Agent Reinforcement Trainer (ART)