LLM แสดงข้อจำกัดในการเล่นเกม Set สะท้อนคำถามเกี่ยวกับการคิดเชิงเหตุผลของ AI

BigGo Editorial Team

LLM แสดงข้อจำกัดในการเล่นเกม Set สะท้อนคำถามเกี่ยวกับการคิดเชิงเหตุผลของ AI

การทดลองล่าสุดกับ Large Language Models (LLMs) ในการเล่นเกมไพ่ Set ได้เผยให้เห็นข้อจำกัดที่น่าสนใจในความสามารถด้านการใช้เหตุผล ซึ่งจุดประเด็นการถกเถียงเกี่ยวกับธรรมชาติของปัญญาประดิษฐ์และกระบวนการคิดของเครื่องจักร แม้ว่าโมเดลเหล่านี้จะเก่งในการทำงานด้านการเขียนโปรแกรมที่ซับซ้อน แต่กลับแสดงจุดอ่อนที่น่าประหลาดใจในสถานการณ์การเล่นเกมที่ต้องใช้การคิดเชิงพื้นที่และตรรกะ

ความท้าทายของเกม Set

เกมไพ่ Set นำเสนอกรณีทดสอบที่น่าสนใจสำหรับปัญญาประดิษฐ์ ผู้เล่นต้องระบุชุดไพ่สามใบจากการจัดวางที่แต่ละใบมีคุณลักษณะสี่อย่าง ได้แก่ รูปร่าง สี จำนวน และลวดลาย สิ่งที่น่าสนใจเป็นพิเศษคือ ในขณะที่อัลกอริธึมแบบดั้งเดิมสามารถแก้เกมนี้ได้อย่างง่ายดาย แต่ LLM ขั้นสูงอย่าง GPT-4 กลับพบความยากลำบากในการหาชุดไพ่ที่ถูกต้องหรือให้คำตอบที่ผิดพลาดเกี่ยวกับการมีอยู่ของชุดไพ่

เกินกว่าความเชี่ยวชาญด้านการเขียนโปรแกรม

รูปแบบที่น่าสังเกตได้ปรากฏขึ้นในวิธีที่ LLM จัดการกับงานที่เกี่ยวข้องกับเกม การสนทนาในชุมชนเผยให้เห็นว่า ในขณะที่โมเดลเหล่านี้สามารถเขียนโค้ดเพื่อแก้เกมอย่าง Tic-tac-toe หรือ Set ได้อย่างง่ายดาย แต่กลับล้มเหลวในการเล่นเกมเหล่านี้จริงๆ ความไม่สอดคล้องระหว่างความสามารถในการเขียนโปรแกรมและประสิทธิภาพในการเล่นเกมนี้ ก่อให้เกิดคำถามสำคัญเกี่ยวกับธรรมชาติของการใช้เหตุผลของ AI

ผมเคยพูดเสมอว่าการเพิ่มคำว่า use python ในคำสั่งของคุณ เป็นเหมือนวลีวิเศษที่ทำให้ 4o มีประสิทธิภาพอย่างน่าทึ่งในงานหลากหลายประเภท

การถกเถียงเรื่องเครื่องจักรที่คิดได้

การปรากฏตัวของโมเดลการใช้เหตุผลใหม่ๆ อย่าง DeepThink-R1 และ o3-mini ซึ่งสามารถแก้ปริศนา Set ได้สำเร็จ ได้จุดประเด็นการถกเถียงใหม่เกี่ยวกับจิตสำนึกของเครื่องจักร สมาชิกในชุมชนสังเกตว่า แม้โมเดลเหล่านี้จะแสดงความสามารถในการใช้เหตุผลที่ดีขึ้น แต่คำถามพื้นฐานยังคงอยู่ว่านี่ถือเป็นการคิดในความหมายที่แท้จริงหรือไม่ บางคนเสนอว่าการคิดของมนุษย์อาจจะไม่ได้วิเศษอย่างที่เคยเข้าใจ มากกว่าที่จะเป็นเครื่องจักรที่บรรลุความสามารถในการคิดที่วิเศษจริงๆ

ผลการทดสอบประสิทธิภาพของโมเดลในการเล่นเกม Set:

GPT-4o : แนะนำชุดคำตอบที่ไม่ถูกต้อง ไม่ผ่านการตรวจสอบ
Sonnet-3.5 : ล้มเหลวแต่ยอมรับความผิดพลาด
Mistral : ประสบความสำเร็จโดยใช้โค้ด Python
o3-mini : ค้นพบ 3 ชุดคำตอบใน 1 นาที 12 วินาที
DeepThink-R1 : ค้นพบ 3 ชุดคำตอบใน 10 นาที

ข้อจำกัดด้านสถาปัตยกรรม

ประเด็นทางเทคนิคที่สำคัญที่ถูกหยิบยกในการสนทนาคือปัญหาการสูญเสียความต่อเนื่อง (decoherence) ในสถาปัตยกรรม LLM ปัจจุบัน ต่างจากจิตสำนึกของมนุษย์ที่รักษาความต่อเนื่องของความคิดได้ LLM ในปัจจุบันทำงานเป็นรอบการตอบสนองแยกกัน และมีปัญหาในการรักษาสถานะอย่างต่อเนื่อง ข้อจำกัดด้านสถาปัตยกรรมนี้อาจอธิบายความยากลำบากบางอย่างของพวกมันในเกมที่ต้องการการใช้เหตุผลอย่างต่อเนื่องและการติดตามสถานะ

การสำรวจความสามารถของ LLM ในสภาพแวดล้อมของเกมยังคงให้ข้อมูลเชิงลึกที่มีคุณค่าทั้งในด้านจุดแข็งและข้อจำกัดของเทคโนโลยี AI ในปัจจุบัน พร้อมทั้งท้าทายความเข้าใจของเราเกี่ยวกับสิ่งที่ถือเป็นปัญญาและการใช้เหตุผลที่แท้จริง

อ้างอิง: Let Them Play Set!


หน้าที่เก็บข้อมูลบน GitHub ในหัวข้อ "When AI Fails" แสดงให้เห็นถึงการอภิปรายและข้อค้นพบที่กำลังดำเนินอยู่เกี่ยวกับข้อจำกัดของ AI ในงานด้านการให้เหตุผล

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌