การทดลองล่าสุดกับ Large Language Models (LLMs) ในการเล่นเกมไพ่ Set ได้เผยให้เห็นข้อจำกัดที่น่าสนใจในความสามารถด้านการใช้เหตุผล ซึ่งจุดประเด็นการถกเถียงเกี่ยวกับธรรมชาติของปัญญาประดิษฐ์และกระบวนการคิดของเครื่องจักร แม้ว่าโมเดลเหล่านี้จะเก่งในการทำงานด้านการเขียนโปรแกรมที่ซับซ้อน แต่กลับแสดงจุดอ่อนที่น่าประหลาดใจในสถานการณ์การเล่นเกมที่ต้องใช้การคิดเชิงพื้นที่และตรรกะ
ความท้าทายของเกม Set
เกมไพ่ Set นำเสนอกรณีทดสอบที่น่าสนใจสำหรับปัญญาประดิษฐ์ ผู้เล่นต้องระบุชุดไพ่สามใบจากการจัดวางที่แต่ละใบมีคุณลักษณะสี่อย่าง ได้แก่ รูปร่าง สี จำนวน และลวดลาย สิ่งที่น่าสนใจเป็นพิเศษคือ ในขณะที่อัลกอริธึมแบบดั้งเดิมสามารถแก้เกมนี้ได้อย่างง่ายดาย แต่ LLM ขั้นสูงอย่าง GPT-4 กลับพบความยากลำบากในการหาชุดไพ่ที่ถูกต้องหรือให้คำตอบที่ผิดพลาดเกี่ยวกับการมีอยู่ของชุดไพ่
เกินกว่าความเชี่ยวชาญด้านการเขียนโปรแกรม
รูปแบบที่น่าสังเกตได้ปรากฏขึ้นในวิธีที่ LLM จัดการกับงานที่เกี่ยวข้องกับเกม การสนทนาในชุมชนเผยให้เห็นว่า ในขณะที่โมเดลเหล่านี้สามารถเขียนโค้ดเพื่อแก้เกมอย่าง Tic-tac-toe หรือ Set ได้อย่างง่ายดาย แต่กลับล้มเหลวในการเล่นเกมเหล่านี้จริงๆ ความไม่สอดคล้องระหว่างความสามารถในการเขียนโปรแกรมและประสิทธิภาพในการเล่นเกมนี้ ก่อให้เกิดคำถามสำคัญเกี่ยวกับธรรมชาติของการใช้เหตุผลของ AI
ผมเคยพูดเสมอว่าการเพิ่มคำว่า use python ในคำสั่งของคุณ เป็นเหมือนวลีวิเศษที่ทำให้ 4o มีประสิทธิภาพอย่างน่าทึ่งในงานหลากหลายประเภท
การถกเถียงเรื่องเครื่องจักรที่คิดได้
การปรากฏตัวของโมเดลการใช้เหตุผลใหม่ๆ อย่าง DeepThink-R1 และ o3-mini ซึ่งสามารถแก้ปริศนา Set ได้สำเร็จ ได้จุดประเด็นการถกเถียงใหม่เกี่ยวกับจิตสำนึกของเครื่องจักร สมาชิกในชุมชนสังเกตว่า แม้โมเดลเหล่านี้จะแสดงความสามารถในการใช้เหตุผลที่ดีขึ้น แต่คำถามพื้นฐานยังคงอยู่ว่านี่ถือเป็นการคิดในความหมายที่แท้จริงหรือไม่ บางคนเสนอว่าการคิดของมนุษย์อาจจะไม่ได้วิเศษอย่างที่เคยเข้าใจ มากกว่าที่จะเป็นเครื่องจักรที่บรรลุความสามารถในการคิดที่วิเศษจริงๆ
ผลการทดสอบประสิทธิภาพของโมเดลในการเล่นเกม Set:
- GPT-4o : แนะนำชุดคำตอบที่ไม่ถูกต้อง ไม่ผ่านการตรวจสอบ
- Sonnet-3.5 : ล้มเหลวแต่ยอมรับความผิดพลาด
- Mistral : ประสบความสำเร็จโดยใช้โค้ด Python
- o3-mini : ค้นพบ 3 ชุดคำตอบใน 1 นาที 12 วินาที
- DeepThink-R1 : ค้นพบ 3 ชุดคำตอบใน 10 นาที
ข้อจำกัดด้านสถาปัตยกรรม
ประเด็นทางเทคนิคที่สำคัญที่ถูกหยิบยกในการสนทนาคือปัญหาการสูญเสียความต่อเนื่อง (decoherence) ในสถาปัตยกรรม LLM ปัจจุบัน ต่างจากจิตสำนึกของมนุษย์ที่รักษาความต่อเนื่องของความคิดได้ LLM ในปัจจุบันทำงานเป็นรอบการตอบสนองแยกกัน และมีปัญหาในการรักษาสถานะอย่างต่อเนื่อง ข้อจำกัดด้านสถาปัตยกรรมนี้อาจอธิบายความยากลำบากบางอย่างของพวกมันในเกมที่ต้องการการใช้เหตุผลอย่างต่อเนื่องและการติดตามสถานะ
การสำรวจความสามารถของ LLM ในสภาพแวดล้อมของเกมยังคงให้ข้อมูลเชิงลึกที่มีคุณค่าทั้งในด้านจุดแข็งและข้อจำกัดของเทคโนโลยี AI ในปัจจุบัน พร้อมทั้งท้าทายความเข้าใจของเราเกี่ยวกับสิ่งที่ถือเป็นปัญญาและการใช้เหตุผลที่แท้จริง
อ้างอิง: Let Them Play Set!
![]() |
---|
หน้าที่เก็บข้อมูลบน GitHub ในหัวข้อ "When AI Fails" แสดงให้เห็นถึงการอภิปรายและข้อค้นพบที่กำลังดำเนินอยู่เกี่ยวกับข้อจำกัดของ AI ในงานด้านการให้เหตุผล |