OpenAI โมเดล O3 ถูกวิพากษ์วิจารณ์กรณีได้รับสิทธิพิเศษในการเข้าถึงข้อสอบ FrontierMath

BigGo Editorial Team
OpenAI โมเดล O3 ถูกวิพากษ์วิจารณ์กรณีได้รับสิทธิพิเศษในการเข้าถึงข้อสอบ FrontierMath

วงการปัญญาประดิษฐ์กำลังเผชิญกับความขัดแย้งหลังจากมีการเปิดเผยเกี่ยวกับการเข้าถึงข้อสอบมาตรฐาน FrontierMath ของ OpenAI ซึ่งสร้างความกังวลอย่างมากเกี่ยวกับความน่าเชื่อถือของผลการทดสอบโมเดล O3 รุ่นล่าสุด เหตุการณ์นี้ได้จุดประเด็นการถกเถียงอย่างรุนแรงเกี่ยวกับความโปร่งใสและความเป็นธรรมในการประเมินผลโมเดล AI

ภาพนี้แสดงให้เห็นการอภิปรายเกี่ยวกับการเข้าถึงเอกสารการทดสอบของ FrontierMath ที่เป็นประเด็นขัดแย้งของ OpenAI โดยเน้นย้ำถึงความกังวลของชุมชนเกี่ยวกับความโปร่งใสในการประเมินผล AI
ภาพนี้แสดงให้เห็นการอภิปรายเกี่ยวกับการเข้าถึงเอกสารการทดสอบของ FrontierMath ที่เป็นประเด็นขัดแย้งของ OpenAI โดยเน้นย้ำถึงความกังวลของชุมชนเกี่ยวกับความโปร่งใสในการประเมินผล AI

ข้อถกเถียงเกี่ยวกับ FrontierMath

การเปิดเผยข้อมูลสำคัญจากผู้รับเหมาของ Epoch AI บนฟอรัม LessWrong ระบุว่า OpenAI ไม่เพียงแต่ให้ทุนสนับสนุนการพัฒนาการทดสอบ FrontierMath แต่ยังได้รับสิทธิพิเศษในการเข้าถึงคลังข้อสอบด้วย ข้อมูลนี้ถูกปิดบังมาจนกระทั่งมีการเปิดตัว O3 เมื่อวันที่ 20 ธันวาคม 2567 ซึ่งทำให้เกิดข้อสงสัยเกี่ยวกับอัตราความแม่นยำ 25.2% ที่รายงาน ซึ่งสูงกว่าคู่แข่งที่ทำได้ต่ำกว่า 2% อย่างมาก

การเปรียบเทียบประสิทธิภาพของโมเดล:

  • OpenAI O3 มีความแม่นยำ 25.2% ใน FrontierMath
  • GPT-4 และ Gemini มีความแม่นยำน้อยกว่า 2%

ความสำคัญของการทดสอบมาตรฐาน

FrontierMath เป็นเครื่องมือประเมินผลที่สำคัญในด้านการให้เหตุผลทางคณิตศาสตร์ขั้นสูง พัฒนาขึ้นโดยความร่วมมือระหว่าง Epoch AI และนักคณิตศาสตร์ชั้นนำกว่า 60 คน รวมถึงผู้ได้รับรางวัล Fields Medal และผู้ออกโจทย์การแข่งขันคณิตศาสตร์โอลิมปิกระดับนานาชาติ การทดสอบประกอบด้วยโจทย์ปัญหาต้นฉบับที่ท้าทายหลายร้อยข้อจากหลากหลายสาขาคณิตศาสตร์ โดยมีความซับซ้อนถึงขนาดที่แม้แต่ผู้เชี่ยวชาญอาจต้องใช้เวลาหลายวันในการแก้โจทย์

ขอบเขตของ FrontierMath Benchmark:

  • สาขาคณิตศาสตร์: ทฤษฎีจำนวน, การวิเคราะห์เชิงจริง, เรขาคณิตเชิงพีชคณิต, ทฤษฎีหมวดหมู่
  • ผู้มีส่วนร่วม: นักคณิตศาสตร์ชั้นนำมากกว่า 60 คน รวมถึงผู้ได้รับรางวัล Fields Medal
  • ระดับความยากของโจทย์: ต้องใช้เวลาตั้งแต่หลายชั่วโมงจนถึงหลายวันสำหรับผู้เชี่ยวชาญในการแก้ปัญหา

การตอบสนองและการวิพากษ์วิจารณ์จากแวดวงวิชาการ

Carina Hong นักศึกษาปริญญาเอกคณิตศาสตร์จากมหาวิทยาลัย Stanford ได้นำเสนอคำให้การจากนักคณิตศาสตร์ชั้นนำ 6 คนที่มีส่วนร่วมใน FrontierMath เผยว่าพวกเขาไม่ทราบเรื่องสิทธิพิเศษที่มอบให้ OpenAI โดยส่วนใหญ่ระบุว่าอาจปฏิเสธการมีส่วนร่วมหากทราบเรื่องข้อตกลงเหล่านี้ล่วงหน้า

การตอบสนองจาก Epoch AI

Tamay Besiroglu รองผู้อำนวยการและผู้ร่วมก่อตั้ง Epoch AI ยอมรับถึงการขาดความโปร่งใส โดยอธิบายว่าข้อผูกมัดตามสัญญาทำให้ไม่สามารถเปิดเผยข้อมูลก่อนหน้านี้ได้ แม้จะยืนยันว่าเงินทุนจาก OpenAI จำกัดอยู่เพียงการพัฒนาโดยไม่มีอิทธิพลต่อเนื้อหาการทดสอบ แต่ก็ยืนยันว่า OpenAI สามารถเข้าถึงโจทย์และเฉลยส่วนใหญ่ได้ ยกเว้นชุดทดสอบที่สำรองไว้สำหรับการตรวจสอบอิสระ

การวิพากษ์วิจารณ์จากผู้เชี่ยวชาญ

Gary Marcus ผู้เชี่ยวชาญด้าน AI ที่มีชื่อเสียงได้วิพากษ์วิจารณ์สถานการณ์นี้อย่างรุนแรง โดยระบุว่าการสาธิต O3 ของ OpenAI นั้นทำให้เข้าใจผิดและไม่เป็นไปตามหลักวิทยาศาสตร์ ข้อถกเถียงมุ่งเน้นไปที่การไม่เปิดเผยว่าโจทย์ใดปรากฏในข้อมูลการฝึกฝนและการขาดบันทึกกระบวนการให้เหตุผลโดยละเอียด

ผลกระทบในอนาคต

ขณะที่ความขัดแย้งนี้กำลังดำเนินอยู่ OpenAI ได้ประกาศความก้าวหน้าในโครงการ Operator โดย CEO Altman มีกำหนดการประชุมลับกับรัฐบาลสหรัฐฯ ในวันที่ 30 มกราคม 2568 จังหวะเวลานี้นำไปสู่การคาดการณ์เกี่ยวกับกลยุทธ์การจัดการวิกฤตและผลกระทบในวงกว้างต่อแนวปฏิบัติในอุตสาหกรรม AI