การศึกษาใหม่จากนักวิจัยของ Apple ได้สร้างความสงสัยเกี่ยวกับความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่ (LLMs) เช่น ChatGPT โดยชี้ให้เห็นถึงข้อจำกัดที่อาจเกิดขึ้นในการใช้งานสำหรับการแก้ปัญหาที่ซับซ้อนและงานตัดสินใจ
การวิจัยนี้นำโดยทีม AI และการเรียนรู้ของเครื่องจักรของ Apple ได้แนะนำเกณฑ์มาตรฐานใหม่ที่เรียกว่า GSM-Symbolic เพื่อประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ LLMs ผลการวิจัยของพวกเขาชี้ให้เห็นว่าโมเดล AI ในปัจจุบันยังมีปัญหาในการให้เหตุผลเชิงตรรกะอย่างแท้จริง โดยเฉพาะอย่างยิ่งเมื่อปัญหามีความซับซ้อนมากขึ้น
ประเด็นสำคัญจากการศึกษานี้ ได้แก่:
- LLMs พึ่งพาการจับคู่รูปแบบจากข้อมูลการฝึกฝนมากกว่าการให้เหตุผลที่แท้จริง
- ความแม่นยำลดลงอย่างมีนัยสำคัญ (จาก 80-90% เหลือประมาณ 40%) เมื่อความซับซ้อนของปัญหาเพิ่มขึ้น
- เกณฑ์มาตรฐานที่มีอยู่เช่น GSM8K อาจประเมินประสิทธิภาพของ AI สูงเกินไปเนื่องจากอาจมีการปนเปื้อนของข้อมูล
- แม้แต่โมเดลขั้นสูงอย่าง Gemma2-9B ของ Google ก็แสดงให้เห็นถึงการลดลงของความแม่นยำ 15% เมื่อทดสอบด้วย GSM-Symbolic
ผลลัพธ์เหล่านี้มีนัยสำคัญสำหรับธุรกิจและบุคคลที่กำลังพิจารณาการนำ AI มาใช้:
- เครื่องมือ AI เช่น ChatGPT สามารถช่วยในงานบางอย่างได้ แต่ไม่ควรพึ่งพาสำหรับการตัดสินใจที่ซับซ้อนหรือการดำเนินงานที่สำคัญ
- การกำกับดูแลและความเชี่ยวชาญของมนุษย์ยังคงมีความสำคัญ โดยเฉพาะในด้านที่ต้องการการให้เหตุผลเชิงลึกหรือความรู้เฉพาะทาง
- องค์กรควรลงทุนใน AI อย่างระมัดระวัง โดยมุ่งเน้นไปที่ด้านที่แสดงให้เห็นถึงความเป็นเลิศอย่างชัดเจน แทนที่จะสันนิษฐานว่าสามารถแก้ปัญหาได้ทุกอย่าง
- ทีมงานต้องได้รับการศึกษาเกี่ยวกับทั้งความสามารถและข้อจำกัดของ AI เพื่อป้องกันการพึ่งพามากเกินไปหรือความประมาท
แม้ว่าการวิจัยของ Apple อาจดูขัดแย้งกับการตลาดของ Apple Intelligence แต่ก็แสดงให้เห็นถึงความโปร่งใสที่น่าชื่นชมเกี่ยวกับสถานะปัจจุบันของเทคโนโลยี AI ในขณะที่ AI ยังคงพัฒนาต่อไป การเข้าใจจุดแข็งและจุดอ่อนของมันจะมีความสำคัญอย่างยิ่งสำหรับการนำไปใช้อย่างรับผิดชอบในทุกอุตสาหกรรม
ในตอนนี้ ข้อความนั้นชัดเจน: AI เป็นเครื่องมือที่ทรงพลัง แต่ยังไม่พร้อมที่จะแทนที่การให้เหตุผลและการตัดสินใจของมนุษย์ในสถานการณ์ที่ซับซ้อน ในขณะที่เราก้าวเข้าสู่การปฏิวัติด้าน AI วิธีการที่สมดุลซึ่งใช้ประโยชน์จากทั้งปัญญาประดิษฐ์และปัญญามนุษย์น่าจะให้ผลลัพธ์ที่ดีที่สุด