แม้ว่า Large Language Models (LLMs) จะแสดงให้เห็นถึงความสามารถที่น่าทึ่งในหลากหลายด้าน แต่โจทย์หมากรุกสากลง่ายๆ ข้อหนึ่งยังคงชี้ให้เห็นถึงข้อจำกัดในการคิดเชิงกลยุทธ์และการเล่นเกมของพวกมัน การอภิปรายอย่างต่อเนื่องของชุมชนเผยให้เห็นข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับสถานะปัจจุบันของ AI และวิธีที่เราประเมินมัน
โจทย์ที่ทำให้ AI สะดุด
ใจความสำคัญของการอภิปรายนี้คือโจทย์หมากรุกสากลที่ดูเรียบง่ายซึ่งมีตัวหมากเพียง 5 ตัวบนกระดาน แม้จะดูง่ายสำหรับผู้เล่นหมากรุกทั่วไป แต่ตำแหน่งตาจบนี้ต้องเข้าใจแนวคิดเฉพาะที่เรียกว่า under-promotion - ซึ่งการเลื่อนขั้นเบี้ยเป็นควีนจะนำไปสู่การแพ้ ในขณะที่การเลื่อนขั้นเป็นม้าจะทำให้เสมอได้ แม้ว่าคำตอบทั้งหมดจะอยู่ในฐานข้อมูล tablebase (ขนาดน้อยกว่า 1GB) แต่ LLMs ก็ยังคงให้คำตอบที่ถูกต้องไม่ได้อย่างสม่ำเสมอ
การเอาชนะเป็นไปไม่ได้: มีเพียงควีนเท่านั้นที่แข็งแกร่งพอจะเอาชนะบิชอปสองตัว และนั่นจะนำไปสู่การถูกรุกและเสียควีนจากบิชอปบนช่องสีดำ ดังนั้นเสมอคือผลลัพธ์ที่ดีที่สุดที่ทำได้ การเลื่อนขั้นเป็นม้า (พร้อมกับการรุก ทำให้หลีกเลี่ยงการถูกรุกจากบิชอป) เป็นวิธีเดียวที่จะเลื่อนขั้นและรักษาตัวหมากไว้ได้อีกหนึ่งตา
รายละเอียดโจทย์หมากรุกสากล:
- ตำแหน่งในรูปแบบ FEN: 8/6B1/8/8/B7/8/K1pk4/8 b - - 0 1
- จำนวนตัวหมากทั้งหมด: 5 ตัว
- แนวคิดสำคัญ: การเลื่อนขั้นเบี้ยแบบพิเศษ (Under-promotion)
- ขนาดฐานข้อมูล Tablebase สำหรับหมากไม่เกิน 5 ตัว: น้อยกว่า 1 กิกะไบต์
- ขนาดฐานข้อมูล Tablebase สำหรับหมาก 7 ตัว: ประมาณ 16 เทราไบต์
เกินกว่าหมากรุก: สิ่งที่เผยให้เห็นเกี่ยวกับ LLMs
การอภิปรายของชุมชนชี้ให้เห็นถึงการถกเถียงที่กว้างขึ้นเกี่ยวกับธรรมชาติของความสามารถของ LLM ในขณะที่โมเดลเหล่านี้เก่งในงานด้านภาษา แต่การดิ้นรนกับหมากรุกแสดงให้เห็นถึงความแตกต่างระหว่างการจับคู่รูปแบบในภาษาและการคิดวิเคราะห์อย่างแท้จริง ผู้ใช้หลายคนชี้ให้เห็นว่าข้อจำกัดนี้ไม่น่าแปลกใจ - LLMs เป็นโมเดลภาษาโดยพื้นฐาน ไม่ใช่ระบบที่เชี่ยวชาญในการเล่นเกม
ความท้าทายของข้อมูลฝึกฝน
ประเด็นที่น่าสนใจที่ชุมชนยกขึ้นมาคือ กรณีทดสอบเช่นนี้อาจมีคุณค่าน้อยลงเมื่อเวลาผ่านไป เมื่อโจทย์เหล่านี้และคำตอบถูกรวมเข้าไปในข้อมูลฝึกฝน LLMs อาจเรียนรู้คำตอบเฉพาะโดยไม่ได้พัฒนาความสามารถในการเล่นหมากรุกอย่างแท้จริง สิ่งนี้ชี้ให้เห็นความท้าทายสำคัญในการประเมิน AI: การแยกแยะระหว่างความสามารถในการคิดอย่างแท้จริงและการจดจำรูปแบบจากข้อมูลฝึกฝน
นัยสำคัญในอนาคต
การอภิปรายชี้ให้เห็นว่าระบบ AI ในอนาคตอาจต้องมีความเป็นโมดูลมากขึ้น โดยมีส่วนประกอบเฉพาะสำหรับการคิดแบบต่างๆ ในขณะที่ LLMs ปัจจุบันแสดงความสามารถด้านภาษาที่น่าประทับใจ แต่การดิ้นรนกับหมากรุกและงานวิเคราะห์ที่คล้ายกันบ่งชี้ว่าเส้นทางสู่ปัญญาประดิษฐ์ที่มีความสามารถทั่วไปมากขึ้นอาจต้องการวิธีการที่แตกต่างจากการสร้างโมเดลภาษาล้วนๆ
หมายเหตุทางเทคนิค: Tablebase คือฐานข้อมูลที่ครอบคลุมตำแหน่งที่เป็นไปได้ทั้งหมดและการเดินที่ดีที่สุดสำหรับตาจบของหมากรุกที่มีจำนวนตัวหมากจำกัด Under-promotion หมายถึงการเลื่อนขั้นเบี้ยเป็นตัวหมากอื่นที่ไม่ใช่ควีน ซึ่งโดยทั่วไปถือว่าเป็นตัวหมากที่แข็งแกร่งที่สุด