การสนทนาล่าสุดในชุมชน AI ได้เน้นย้ำถึงความผิดปกติที่น่าสนใจ: GPT-3.5-turbo-instruct ของ OpenAI แสดงความสามารถในการเล่นหมากรุกที่เหนือกว่าโมเดลภาษาที่ใหม่และก้าวหน้ากว่า รวมถึง GPT-4 ความแปลกประหลาดนี้ได้จุดประเด็นการถกเถียงอย่างกว้างขวางเกี่ยวกับสาเหตุและผลกระทบต่อการพัฒนา AI
ปริศนาประสิทธิภาพการเล่นหมากรุก
ชุมชนรู้สึกประหลาดใจเป็นพิเศษกับความสามารถในการเล่นหมากรุกที่โดดเด่นของ GPT-3.5-turbo-instruct โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าเป็นหนึ่งในโมเดลที่ OpenAI ให้ความสำคัญน้อยกว่าตามมาตรฐานปัจจุบัน สิ่งที่ทำให้การค้นพบนี้น่าสนใจมากขึ้นคือโมเดลที่ใหม่และก้าวหน้ากว่า รวมถึง GPT-4 กลับแสดงผลการเล่นหมากรุกที่แย่กว่าอย่างเห็นได้ชัด ความแตกต่างนี้นำไปสู่ทฤษฎีและการคาดเดาต่างๆ ในชุมชนเทคนิค
การเรียกใช้ฟังก์ชันกับความสามารถดั้งเดิม
หนึ่งในคำอธิบายที่มีการถกเถียงมากที่สุดคือ GPT-3.5-turbo-instruct อาจแอบใช้โปรแกรมหมากรุกอยู่ อย่างไรก็ตาม ผู้เชี่ยวชาญหลายคนในชุมชนได้ให้ข้อโต้แย้งที่น่าเชื่อถือต่อทฤษฎีนี้ ดังที่ผู้แสดงความคิดเห็นคนหนึ่งระบุ:
ในฐานะนักเล่นหมากรุกระดับกลาง ผมได้ตรวจสอบชัยชนะบางส่วนของ LLM พบว่ามันไม่เก่งในการชนะด้วยการรุกจน - มันพลาดโอกาสหลายครั้งในการรุกจนแบบบังคับ แต่การรุกจนคือสิ่งที่โปรแกรมหมากรุกเก่งมาก - สามารถคำนวณได้โดยการค้นหาการเดินที่ถูกต้องทั้งหมดในตำแหน่งกระดานที่กำหนด
ข้อมูลเชิงลึกด้านการใช้งานทางเทคนิค
รายละเอียดทางเทคนิคที่สำคัญปรากฏขึ้นเกี่ยวกับวิธีที่โมเดลจัดการกับการเดินที่ถูกกฎ การใช้งานต้องใช้วิธีการที่แตกต่างกันสำหรับโมเดลแบบเปิดและปิด โดยโมเดลของ OpenAI ต้องใช้ความพยายามถึง 10 ครั้งในการสร้างการเดินที่ถูกกฎก่อนที่จะเปลี่ยนเป็นการเลือกแบบสุ่ม ที่น่าสังเกตคือ GPT-3.5-turbo-instruct แสดงการเดินผิดกฎน้อยมากเมื่อเทียบกับโมเดลอื่นๆ รวมถึง GPT-4 ซึ่งการเดินผิดกฎเป็นสาเหตุหลักของการแพ้
คุณลักษณะสำคัญของโมเดล:
- GPT-3.5-turbo-instruct: แสดงให้เห็นถึงประสิทธิภาพการเล่นหมากรุกที่เหนือกว่า
- อัตราการเดินผิดกติกา: GPT-3.5-turbo-instruct (น้อยกว่า 5 ครั้งจากการเดิน 8,205 ครั้ง), GPT-4 (มีจำนวนการเดินผิดกติกามากจนนำไปสู่การแพ้)
- วิธีการนำไปใช้: โมเดลแบบเปิดใช้ข้อจำกัดทางไวยากรณ์สำหรับการเดินที่ถูกกติกา ส่วนโมเดลแบบปิด (OpenAI) ใช้การลองใหม่สูงสุด 10 ครั้ง
ทฤษฎีเกี่ยวกับข้อมูลการฝึกและสถาปัตยกรรม
ชุมชนได้เสนอคำอธิบายหลายประการสำหรับปรากฏการณ์นี้ รวมถึงความเป็นไปได้ที่ข้อมูลการฝึกของโมเดลอาจมีเนื้อหาเกี่ยวกับหมากรุกในสัดส่วนที่สูงกว่า หรือการเลือกสถาปัตยกรรมเฉพาะที่โดยไม่ตั้งใจสร้างความสามารถในการเล่นหมากรุกที่ดีขึ้น บางคนเสนอว่านี่อาจเป็นผลมาจากวิธีการฝึกแบบทดลองที่ไม่เคยถูกทำซ้ำในโมเดลใหม่
ผลกระทบต่อการพัฒนา AI
การค้นพบนี้มีผลกระทบในวงกว้างต่อความเข้าใจของเราเกี่ยวกับความสามารถและการพัฒนา AI ชุมชนระบุว่ากรณีนี้แสดงให้เห็นว่าการปรับปรุงในโมเดล AI ไม่ได้เป็นเส้นตรงเสมอไป และโมเดลที่ใหม่และใหญ่กว่าไม่จำเป็นต้องทำงานได้ดีกว่าในงานเฉพาะกว่ารุ่นก่อนหน้า การสังเกตนี้ท้าทายข้อสันนิษฐานทั่วไปเกี่ยวกับความก้าวหน้าของ AI และชี้ให้เห็นว่าความสามารถบางอย่างอาจสูญหายหรือลดลงระหว่างการอัปเดตโมเดล
ปริศนาเกี่ยวกับความสามารถในการเล่นหมากรุกของ GPT-3.5-turbo-instruct เป็นเครื่องเตือนใจว่าการพัฒนา AI นั้นซับซ้อนและบางครั้งก็คาดเดาไม่ได้ โดยความสามารถต่างๆ อาจเกิดขึ้นและหายไปในรูปแบบที่เราไม่เข้าใจอย่างถ่องแท้ กรณีศึกษานี้อาจมีอิทธิพลต่อแนวทางในการฝึกและประเมินโมเดลในอนาคต
แหล่งอ้างอิง: Something weird is happening with LLMs and chess