การเปิดตัวโมเดล AI รุ่นล่าสุดอย่างทะเยอทะยานของ Meta ถูกบดบังด้วยคำถามเกี่ยวกับความโปร่งใสและการอ้างประสิทธิภาพ ยักษ์ใหญ่โซเชียลมีเดียรายนี้เพิ่งเปิดตัวโมเดลภาษาขนาดใหญ่รุ่นใหม่ Llama 4 แต่การเปิดตัวกลับพัวพันกับข้อโต้แย้งเกี่ยวกับวิธีการทดสอบประสิทธิภาพที่สร้างความฉงนให้กับวงการ AI
ตระกูล Llama 4
Meta เพิ่งเปิดตัวตระกูลโมเดล multi-modal Llama 4 โดยอ้างว่ามีการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญเมื่อเทียบกับคู่แข่ง บริษัทได้แนะนำโมเดลสามรุ่นในเจเนอเรชันใหม่นี้: Llama 4 Scout, Llama 4 Maverick และ Llama 4 Behemoth ตามข้อมูลจาก Meta โมเดลที่ใหญ่ที่สุดอย่าง Behemoth มีพารามิเตอร์ทั้งหมด 2 ล้านล้าน และอ้างว่ามีประสิทธิภาพเหนือกว่าโมเดลจากผู้นำในอุตสาหกรรมอย่าง OpenAI, Anthropic และ Google ในหลายการทดสอบด้าน STEM อย่างไรก็ตาม แม้ว่า Meta จะกล่าวอ้างถึงความสามารถอันน่าประทับใจของ Behemoth แต่โมเดลเรือธงนี้ยังไม่พร้อมให้บริการแก่สาธารณะ โดยมีเพียงโมเดลขนาดเล็กกว่าอย่าง Scout และ Maverick ที่นักพัฒนาสามารถเข้าถึงได้ในขณะนี้
ตระกูลโมเดล Llama 4 ของ Meta:
- Llama 4 Scout: โมเดลขนาดเล็ก เปิดให้ใช้งานสาธารณะ
- Llama 4 Maverick: โมเดลขนาดกลาง เปิดให้ใช้งานสาธารณะ (แต่เวอร์ชันที่ใช้ในการทดสอบแตกต่างจากเวอร์ชันที่เปิดตัว)
- Llama 4 Behemoth: โมเดลขนาดใหญ่ที่สุดที่มีพารามิเตอร์ 2 ล้านล้าน ยังไม่เปิดให้ใช้งานสาธารณะ
ข้อโต้แย้งเรื่องการวัดประสิทธิภาพปรากฏขึ้น
การเปิดตัวเผชิญกับเสียงวิพากษ์วิจารณ์อย่างรวดเร็วเมื่อนักพัฒนาค้นพบความแตกต่างระหว่างสิ่งที่ Meta ใช้ในการทดสอบประสิทธิภาพกับสิ่งที่เปิดตัวให้สาธารณะจริงๆ โดยเฉพาะอย่างยิ่ง ข้อโต้แย้งมุ่งเน้นไปที่ Llama 4 Maverick ซึ่งถูกประเมินบนแพลตฟอร์ม LM Arena ที่ผู้คนเปรียบเทียบและให้คะแนนการตอบสนองของโมเดล AI TechCrunch รายงานว่า Meta ได้ทดสอบประสิทธิภาพของ Maverick ในเวอร์ชันที่ปรับแต่งอย่างละเอียดมากกว่าเวอร์ชันที่เปิดให้นักพัฒนาใช้งานจริง ซึ่งข้อเท็จจริงนี้ถูกกล่าวถึงเพียงในตัวอักษรขนาดเล็กในบล็อกโพสต์ของ Meta เอง การเปิดเผยนี้ทำให้ LM Arena ประกาศว่าจะปรับปรุงนโยบายสำหรับการประเมินโมเดลที่เป็นธรรมและสามารถทำซ้ำได้ในอนาคต
รายละเอียดเกี่ยวกับข้อขัดแย้งในการทดสอบเปรียบเทียบ:
- แพลตฟอร์ม: LM Arena
- ปัญหา: Meta ได้ทดสอบเปรียบเทียบรุ่น Llama 4 Maverick ที่มีการปรับแต่งมากกว่ารุ่นที่เผยแพร่สู่สาธารณะ
- การเปิดเผย: มีการกล่าวถึงเพียงในข้อความตัวเล็กในบล็อกโพสต์ของ Meta เท่านั้น
- ผลลัพธ์: LM Arena กำลังปรับปรุงนโยบายเพื่อให้เกิด "การประเมินที่เป็นธรรมและสามารถทำซ้ำได้"
การตอบสนองของ LM Arena
แพลตฟอร์มการทดสอบประสิทธิภาพรีบจัดการกับสถานการณ์ โดยระบุในโซเชียลมีเดียว่า: การตีความนโยบายของเราโดย Meta ไม่ตรงกับสิ่งที่เราคาดหวังจากผู้ให้บริการโมเดล ด้วยเหตุนี้ เรากำลังปรับปรุงนโยบายตารางจัดอันดับของเราเพื่อเสริมความมุ่งมั่นในการประเมินที่เป็นธรรมและสามารถทำซ้ำได้ เพื่อไม่ให้เกิดความสับสนเช่นนี้อีกในอนาคต เหตุการณ์นี้ได้สร้างคำถามสำคัญเกี่ยวกับความน่าเชื่อถือของการทดสอบประสิทธิภาพ AI และความโปร่งใสของการกล่าวอ้างเกี่ยวกับประสิทธิภาพของโมเดลโดยผู้พัฒนา AI รายใหญ่
การอ้างประสิทธิภาพถูกตรวจสอบอย่างละเอียด
Meta ได้วางตำแหน่ง Llama 4 ว่ามีประสิทธิภาพดีกว่าและคุ้มค่ากว่า GPT-4o ของ OpenAI และ Gemini 2.0 ของ Google สำหรับงานต่างๆ รวมถึงการเขียนเชิงสร้างสรรค์ การเขียนโค้ด และการสรุปเอกสาร อย่างไรก็ตาม ข้อโต้แย้งเรื่องการทดสอบประสิทธิภาพได้สร้างความสงสัยต่อข้ออ้างเหล่านี้ โดยนักวิจัย AI ได้ใช้แพลตฟอร์มโซเชียลมีเดียอย่าง X (อดีต Twitter) เพื่อเน้นย้ำถึงความแตกต่างดังกล่าว สถานการณ์นี้ตอกย้ำความกังวลที่เพิ่มขึ้นเกี่ยวกับวิธีการวัดและรายงานความสามารถของ AI ในตลาดที่มีการแข่งขันสูงขึ้นเรื่อยๆ
บริบทของการแข่งขันด้าน AI ในวงกว้าง
ข้อโต้แย้งนี้เกิดขึ้นในช่วงเวลาที่การแข่งขันในพื้นที่ AI กำลังทวีความรุนแรง Microsoft เพิ่งฉลองครบรอบ 50 ปีด้วยการเน้นย้ำนวัตกรรม AI และประกาศความสามารถใหม่สำหรับผู้ช่วย Copilot ของบริษัท ในขณะเดียวกัน อุตสาหกรรมกำลังเผชิญกับความท้าทายที่อาจเกิดขึ้นจากภาษีนำเข้าที่ประกาศใหม่โดยประธานาธิบดี Trump ซึ่งแม้จะยกเว้นเซมิคอนดักเตอร์ แต่อาจเพิ่มต้นทุนในการสร้างศูนย์ข้อมูลขนาดใหญ่ที่ใช้ในการฝึกฝนโมเดล AI
![]() |
---|
สำนักงานใหญ่ของ Microsoft ฉลองครบรอบ 50 ปี แสดงให้เห็นถึงวิวัฒนาการและนวัตกรรมของบริษัท ซึ่งสะท้อนให้เห็นถึงการแข่งขันที่เพิ่มขึ้นในภาคส่วน AI |
ผลกระทบต่อความโปร่งใสของ AI
ข้อโต้แย้งเรื่องการทดสอบประสิทธิภาพของ Llama 4 เน้นย้ำปัญหาที่กำลังเติบโตในอุตสาหกรรม AI: ความจำเป็นในการมีวิธีการประเมินที่เป็นมาตรฐานและโปร่งใส ในขณะที่บริษัทต่างๆ แข่งขันกันเพื่ออ้างประสิทธิภาพที่เหนือกว่าสำหรับโมเดลของตน เหตุการณ์นี้เป็นเครื่องเตือนใจว่าการทดสอบประสิทธิภาพไม่ใช่มาตรวัดความสามารถของ AI ที่เชื่อถือได้เสมอไป สำหรับนักพัฒนาและธุรกิจที่กำลังมองหาการนำเทคโนโลยีเหล่านี้ไปใช้ สิ่งนี้เน้นย้ำความสำคัญของการทำการประเมินอิสระแทนที่จะพึ่งพาเพียงการอ้างของผู้ขาย
อะไรคือก้าวต่อไปสำหรับกลยุทธ์ AI ของ Meta
แม้จะมีข้อโต้แย้ง Meta ยังคงวางตำแหน่งตัวเองเป็นผู้เล่นสำคัญในการเคลื่อนไหวด้าน AI แบบโอเพ่นซอร์ส กลยุทธ์ของบริษัทในการเปิดตัวโมเดลที่มีความสามารถและขนาดแตกต่างกันมีเป้าหมายเพื่อให้ตัวเลือกสำหรับกรณีการใช้งานและข้อจำกัดด้านการคำนวณที่แตกต่างกัน อย่างไรก็ตาม เหตุการณ์นี้อาจทำให้ Meta ต้องทบทวนวิธีการสื่อสารเกี่ยวกับประสิทธิภาพของโมเดลและการทดสอบในอนาคต เนื่องจากความไว้วางใจและความโปร่งใสกลายเป็นปัจจัยสำคัญมากขึ้นในภูมิทัศน์ AI ที่มีการแข่งขันสูง