วงการปัญญาประดิษฐ์กำลังเผชิญกับความขัดแย้งหลังจากมีการเปิดเผยเกี่ยวกับการเข้าถึงข้อสอบมาตรฐาน FrontierMath ของ OpenAI ซึ่งสร้างความกังวลอย่างมากเกี่ยวกับความน่าเชื่อถือของผลการทดสอบโมเดล O3 รุ่นล่าสุด เหตุการณ์นี้ได้จุดประเด็นการถกเถียงอย่างรุนแรงเกี่ยวกับความโปร่งใสและความเป็นธรรมในการประเมินผลโมเดล AI
ภาพนี้แสดงให้เห็นการอภิปรายเกี่ยวกับการเข้าถึงเอกสารการทดสอบของ FrontierMath ที่เป็นประเด็นขัดแย้งของ OpenAI โดยเน้นย้ำถึงความกังวลของชุมชนเกี่ยวกับความโปร่งใสในการประเมินผล AI |
ข้อถกเถียงเกี่ยวกับ FrontierMath
การเปิดเผยข้อมูลสำคัญจากผู้รับเหมาของ Epoch AI บนฟอรัม LessWrong ระบุว่า OpenAI ไม่เพียงแต่ให้ทุนสนับสนุนการพัฒนาการทดสอบ FrontierMath แต่ยังได้รับสิทธิพิเศษในการเข้าถึงคลังข้อสอบด้วย ข้อมูลนี้ถูกปิดบังมาจนกระทั่งมีการเปิดตัว O3 เมื่อวันที่ 20 ธันวาคม 2567 ซึ่งทำให้เกิดข้อสงสัยเกี่ยวกับอัตราความแม่นยำ 25.2% ที่รายงาน ซึ่งสูงกว่าคู่แข่งที่ทำได้ต่ำกว่า 2% อย่างมาก
การเปรียบเทียบประสิทธิภาพของโมเดล:
- OpenAI O3 มีความแม่นยำ 25.2% ใน FrontierMath
- GPT-4 และ Gemini มีความแม่นยำน้อยกว่า 2%
ความสำคัญของการทดสอบมาตรฐาน
FrontierMath เป็นเครื่องมือประเมินผลที่สำคัญในด้านการให้เหตุผลทางคณิตศาสตร์ขั้นสูง พัฒนาขึ้นโดยความร่วมมือระหว่าง Epoch AI และนักคณิตศาสตร์ชั้นนำกว่า 60 คน รวมถึงผู้ได้รับรางวัล Fields Medal และผู้ออกโจทย์การแข่งขันคณิตศาสตร์โอลิมปิกระดับนานาชาติ การทดสอบประกอบด้วยโจทย์ปัญหาต้นฉบับที่ท้าทายหลายร้อยข้อจากหลากหลายสาขาคณิตศาสตร์ โดยมีความซับซ้อนถึงขนาดที่แม้แต่ผู้เชี่ยวชาญอาจต้องใช้เวลาหลายวันในการแก้โจทย์
ขอบเขตของ FrontierMath Benchmark:
- สาขาคณิตศาสตร์: ทฤษฎีจำนวน, การวิเคราะห์เชิงจริง, เรขาคณิตเชิงพีชคณิต, ทฤษฎีหมวดหมู่
- ผู้มีส่วนร่วม: นักคณิตศาสตร์ชั้นนำมากกว่า 60 คน รวมถึงผู้ได้รับรางวัล Fields Medal
- ระดับความยากของโจทย์: ต้องใช้เวลาตั้งแต่หลายชั่วโมงจนถึงหลายวันสำหรับผู้เชี่ยวชาญในการแก้ปัญหา
การตอบสนองและการวิพากษ์วิจารณ์จากแวดวงวิชาการ
Carina Hong นักศึกษาปริญญาเอกคณิตศาสตร์จากมหาวิทยาลัย Stanford ได้นำเสนอคำให้การจากนักคณิตศาสตร์ชั้นนำ 6 คนที่มีส่วนร่วมใน FrontierMath เผยว่าพวกเขาไม่ทราบเรื่องสิทธิพิเศษที่มอบให้ OpenAI โดยส่วนใหญ่ระบุว่าอาจปฏิเสธการมีส่วนร่วมหากทราบเรื่องข้อตกลงเหล่านี้ล่วงหน้า
การตอบสนองจาก Epoch AI
Tamay Besiroglu รองผู้อำนวยการและผู้ร่วมก่อตั้ง Epoch AI ยอมรับถึงการขาดความโปร่งใส โดยอธิบายว่าข้อผูกมัดตามสัญญาทำให้ไม่สามารถเปิดเผยข้อมูลก่อนหน้านี้ได้ แม้จะยืนยันว่าเงินทุนจาก OpenAI จำกัดอยู่เพียงการพัฒนาโดยไม่มีอิทธิพลต่อเนื้อหาการทดสอบ แต่ก็ยืนยันว่า OpenAI สามารถเข้าถึงโจทย์และเฉลยส่วนใหญ่ได้ ยกเว้นชุดทดสอบที่สำรองไว้สำหรับการตรวจสอบอิสระ
การวิพากษ์วิจารณ์จากผู้เชี่ยวชาญ
Gary Marcus ผู้เชี่ยวชาญด้าน AI ที่มีชื่อเสียงได้วิพากษ์วิจารณ์สถานการณ์นี้อย่างรุนแรง โดยระบุว่าการสาธิต O3 ของ OpenAI นั้นทำให้เข้าใจผิดและไม่เป็นไปตามหลักวิทยาศาสตร์ ข้อถกเถียงมุ่งเน้นไปที่การไม่เปิดเผยว่าโจทย์ใดปรากฏในข้อมูลการฝึกฝนและการขาดบันทึกกระบวนการให้เหตุผลโดยละเอียด
ผลกระทบในอนาคต
ขณะที่ความขัดแย้งนี้กำลังดำเนินอยู่ OpenAI ได้ประกาศความก้าวหน้าในโครงการ Operator โดย CEO Altman มีกำหนดการประชุมลับกับรัฐบาลสหรัฐฯ ในวันที่ 30 มกราคม 2568 จังหวะเวลานี้นำไปสู่การคาดการณ์เกี่ยวกับกลยุทธ์การจัดการวิกฤตและผลกระทบในวงกว้างต่อแนวปฏิบัติในอุตสาหกรรม AI