ปัญญาประดิษฐ์ได้มีความก้าวหน้าอย่างน่าทึ่งในช่วงหลายปีที่ผ่านมา แต่แนวโน้มที่น่ากังวลได้ปรากฏขึ้นในโมเดลภาษารุ่นล่าสุด ตามการทดสอบภายในของ OpenAI เอง ระบบ AI ที่ล้ำสมัยและซับซ้อนที่สุดของพวกเขากำลังมีแนวโน้มที่จะแต่งเรื่องขึ้นมาเองมากขึ้น ซึ่งสร้างคำถามที่สำคัญเกี่ยวกับความน่าเชื่อถือและการประยุกต์ใช้งานจริงในสถานการณ์ต่างๆ
ตัวเลขที่น่ากังวลเบื้องหลังปัญหาการหลอนของ GPT
การตรวจสอบของ OpenAI เกี่ยวกับโมเดลล่าสุดได้เผยให้เห็นถึงการถดถอยที่น่าตกใจในความถูกต้องของข้อเท็จจริง โมเดล GPT-o3 ของบริษัท ซึ่งถูกยกย่องว่าเป็นระบบที่ทรงพลังที่สุด เกิดภาวะหลอน 33 เปอร์เซ็นต์ของเวลาเมื่อตอบคำถามเกี่ยวกับบุคคลสาธารณะในการทดสอบเกณฑ์มาตรฐาน PersonQA นี่คืออัตราการหลอนที่มากกว่าสองเท่าของระบบการให้เหตุผลก่อนหน้าของ OpenAI คือ o1 ที่น่ากังวลยิ่งกว่าคือ โมเดล o4-mini ตัวใหม่ทำงานได้แย่กว่ามาก โดยมีอัตราการหลอน 48 เปอร์เซ็นต์ในการทดสอบเดียวกัน เมื่อทดสอบกับเกณฑ์มาตรฐาน SimpleQA ซึ่งมีคำถามความรู้ทั่วไปมากขึ้น ผลลัพธ์ยิ่งน่าตกใจมากขึ้น - o3 หลอน 51 เปอร์เซ็นต์ของเวลา ในขณะที่ o4-mini มีอัตราการหลอนสูงถึง 79 เปอร์เซ็นต์ เมื่อเทียบกันแล้ว โมเดล o1 ก่อนหน้านี้หลอน 44 เปอร์เซ็นต์ของเวลาในการทดสอบนี้
อัตราการสร้างข้อมูลเท็จในโมเดลของ OpenAI
โมเดล | เกณฑ์มาตรฐาน PersonQA | เกณฑ์มาตรฐาน SimpleQA |
---|---|---|
GPT-o1 | ~16.5% | 44% |
GPT-o3 | 33% | 51% |
GPT-o4-mini | 48% | 79% |
ความขัดแย้งในตัวเองของการให้เหตุผลขั้นสูง
อัตราการหลอนที่เพิ่มขึ้นแสดงให้เห็นถึงความขัดแย้งที่น่าสงสัยในการพัฒนา AI โมเดลใหม่เหล่านี้ถูกออกแบบมาเฉพาะเป็นระบบการให้เหตุผลที่สามารถแยกปัญหาที่ซับซ้อนออกเป็นขั้นตอนตามหลักตรรกะ คล้ายกับกระบวนการคิดของมนุษย์ OpenAI เคยอ้างว่า o1 สามารถทำงานได้เทียบเท่าหรือดีกว่านักศึกษาปริญญาเอกในสาขาฟิสิกส์ เคมี ชีววิทยา และคณิตศาสตร์ ความคาดหวังคือการให้เหตุผลที่ซับซ้อนมากขึ้นจะนำไปสู่ความแม่นยำที่มากขึ้น แต่สิ่งที่เกิดขึ้นกลับตรงกันข้าม ผู้สังเกตการณ์ในอุตสาหกรรมบางคนแนะนำว่ากลไกที่ช่วยให้เกิดการให้เหตุผลที่ซับซ้อนมากขึ้นอาจกำลังสร้างโอกาสเพิ่มเติมให้เกิดข้อผิดพลาดที่ทับซ้อนกัน เมื่อโมเดลเหล่านี้พยายามเชื่อมโยงข้อเท็จจริงที่แตกต่างกันและประเมินเส้นทางที่เป็นไปได้หลายเส้นทาง พวกมันดูเหมือนจะมีแนวโน้มที่จะเข้าสู่อาณาเขตเชิงคาดการณ์มากขึ้น ซึ่งเรื่องแต่งกลายเป็นสิ่งที่แยกไม่ออกจากข้อเท็จจริง
การตอบสนองของ OpenAI ต่อปัญหาที่เพิ่มขึ้น
OpenAI ได้ยอมรับปัญหานี้แต่ได้ปฏิเสธแนวคิดที่ว่าโมเดลการให้เหตุผลโดยธรรมชาติแล้วมีอัตราการหลอนที่สูงขึ้น Gaby Raila ตัวแทนของ OpenAI บอกกับ The New York Times ว่า การหลอนไม่ได้มีมากขึ้นโดยธรรมชาติในโมเดลการให้เหตุผล แม้ว่าเรากำลังทำงานอย่างแข็งขันเพื่อลดอัตราการหลอนที่สูงขึ้นที่เราเห็นใน o3 และ o4-mini บริษัทได้ระบุว่าจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อทำความเข้าใจว่าทำไมโมเดลล่าสุดจึงมีแนวโน้มที่จะสร้างข้อมูลเท็จมากขึ้น สิ่งนี้บ่งชี้ว่าสาเหตุพื้นฐานยังคงเป็นปริศนาแม้แต่กับผู้สร้างระบบเหล่านี้เอง ซึ่งเน้นย้ำถึงลักษณะกล่องดำของโมเดลภาษาขนาดใหญ่ที่ยังคงท้าทายนักวิจัย AI
ผลกระทบในทางปฏิบัติต่อการนำ AI ไปใช้
ปัญหาการหลอนที่เพิ่มขึ้นสร้างความท้าทายที่สำคัญสำหรับการประยุกต์ใช้ AI ในทางปฏิบัติ เมื่อระบบเหล่านี้ถูกนำไปใช้ในห้องเรียน สำนักงาน โรงพยาบาล และหน่วยงานรัฐบาลมากขึ้น ความเสี่ยงของการเผยแพร่ข้อมูลเท็จก็เพิ่มขึ้น ผู้เชี่ยวชาญด้านกฎหมายได้เผชิญกับผลกระทบจากการใช้ ChatGPT โดยไม่ได้ตรวจสอบการอ้างอิง และปัญหาคล้ายกันอาจเกิดขึ้นในบริบทอื่นๆ อีกมากมาย คุณค่าพื้นฐานของผู้ช่วย AI - การประหยัดเวลาและลดภาระงาน - ถูกบั่นทอนเมื่อผู้ใช้ต้องตรวจสอบข้อเท็จจริงของผลลัพธ์ทุกอย่างอย่างละเอียด สิ่งนี้สร้างสถานการณ์ที่ขัดแย้งในตัวเองที่เครื่องมือ AI ที่ทรงพลังมากขึ้นอาจต้องการการกำกับดูแลของมนุษย์มากขึ้น ไม่ใช่น้อยลง จนกว่าปัญหาการหลอนเหล่านี้จะได้รับการแก้ไข ผู้ใช้ควรเข้าถึงเนื้อหาที่สร้างโดย AI ด้วยความระมัดระวังอย่างมาก โดยเฉพาะอย่างยิ่งเมื่อความแม่นยำมีความสำคัญสูงสุด
ความกังวลหลักเกี่ยวกับการสร้างข้อมูลเท็จของ AI
- ความน่าเชื่อถือที่ลดลงในสภาพแวดล้อมการทำงานมืออาชีพ
- ผลทางกฎหมายที่อาจเกิดขึ้นจากการพึ่งพาข้อมูลที่ถูกสร้างขึ้น
- ประโยชน์ด้านการประหยัดเวลาที่ลดลงเนื่องจากความจำเป็นในการตรวจสอบข้อเท็จจริง
- ความท้าทายในการนำไปใช้ในสภาพแวดล้อมที่มีความเสี่ยงสูง เช่น การดูแลสุขภาพหรือหน่วยงานรัฐบาล
![]() |
---|
ภาพนี้แสดงให้เห็นถึงเทคโนโลยีเบื้องหลังระบบ AI ซึ่งเน้นย้ำถึงบทบาทสำคัญของข้อมูลที่ถูกต้องในการประยุกต์ใช้ในหลากหลายภาคส่วน |
อนาคตของ AI ที่น่าเชื่อถือ
เพื่อให้ระบบ AI บรรลุศักยภาพตามที่สัญญาไว้ ปัญหาการหลอนจะต้องได้รับการแก้ไข อุตสาหกรรมกำลังเผชิญกับความท้าทายที่สำคัญ: จะรักษาความสามารถในการให้เหตุผลขั้นสูงของโมเดลใหม่ไว้ในขณะที่ปรับปรุงความน่าเชื่อถือของข้อเท็จจริงได้อย่างไร OpenAI และคู่แข่งอย่าง Google และ Anthropic กำลังทำงานเพื่อแก้ปัญหานี้อย่างไม่ต้องสงสัย แต่ทางออกยังคงหาได้ยาก สถานการณ์ปัจจุบันบ่งชี้ว่าการพัฒนา AI อาจถึงจุดที่ความซับซ้อนที่เพิ่มขึ้นมาพร้อมกับต้นทุนของความน่าเชื่อถือ - อย่างน้อยก็ชั่วคราว ในขณะที่การวิจัยยังคงดำเนินต่อไป ผู้ใช้ต้องรักษามุมมองที่สมดุล ชื่นชมความสามารถที่น่าประทับใจของระบบเหล่านี้ในขณะที่ตระหนักถึงข้อจำกัดที่สำคัญของพวกมัน การแสวงหา AI ที่สามารถให้เหตุผลเหมือนมนุษย์ในขณะที่รักษาความแม่นยำแบบเครื่องจักรกับข้อเท็จจริงยังคงดำเนินต่อไป แต่ในตอนนี้ การตรวจสอบโดยมนุษย์ยังคงเป็นองค์ประกอบสำคัญของการทำงานกับระบบ AI แม้แต่ระบบที่ล้ำสมัยที่สุด