โมเดล Skywork-OR1: เป็นเพียงการปรับแต่งจากโมเดลที่มีอยู่แล้ว ไม่ใช่สถาปัตยกรรมใหม่ ชุมชนชี้ประเด็น

BigGo Editorial Team
โมเดล Skywork-OR1: เป็นเพียงการปรับแต่งจากโมเดลที่มีอยู่แล้ว ไม่ใช่สถาปัตยกรรมใหม่ ชุมชนชี้ประเด็น

การเปิดตัวโมเดล Skywork-OR1 (Open Reasoner 1) เมื่อเร็วๆ นี้ได้จุดประกายให้เกิดการถกเถียงอย่างมากในชุมชน AI โดยเฉพาะอย่างยิ่งเกี่ยวกับวิธีการนำเสนอโมเดลเหล่านี้เมื่อเทียบกับแนวทางการพัฒนาที่แท้จริง แม้ว่าโมเดลเหล่านี้จะแสดงประสิทธิภาพที่น่าประทับใจในการทดสอบด้านคณิตศาสตร์และการเขียนโค้ด สมาชิกในชุมชนได้แสดงความกังวลเกี่ยวกับความโปร่งใสในวิธีการอธิบายและทำการตลาดของโมเดลเหล่านี้

การปรับแต่ง (Fine-tuning) เทียบกับสถาปัตยกรรมต้นฉบับ

ซีรีส์ Skywork-OR1 ซึ่งรวมถึง Skywork-OR1-Math-7B, Skywork-OR1-32B-Preview และ Skywork-OR1-7B-Preview ได้รับการส่งเสริมว่ามีประสิทธิภาพสูงในการทดสอบเกณฑ์มาตรฐานต่างๆ เช่น AIME24, AIME25 และ LiveCodeBench อย่างไรก็ตาม สมาชิกในชุมชนได้เน้นย้ำว่าโมเดลเหล่านี้เป็นเพียงเวอร์ชันที่ปรับแต่งจากโมเดลที่มีอยู่แล้ว ไม่ใช่สถาปัตยกรรมใหม่ทั้งหมด - ซึ่งเป็นข้อเท็จจริงที่ถูกกล่าวถึงเพียงตอนท้ายของประกาศของ Skywork เท่านั้น

ไม่ได้ต้องการลดคุณค่าของงานพวกเขา แต่สิ่งนี้ไม่ควรถูกซ่อนไว้ที่ส่วนท้ายของหน้า - มีความแตกต่างอย่างมากระหว่างโมเดลที่สร้างขึ้นใหม่ทั้งหมดกับการปรับแต่งโมเดลที่มีอยู่แล้ว

โมเดลเหล่านี้ถูกสร้างขึ้นบนพื้นฐานของ DeepSeek-R1-Distill-Qwen-7B และ DeepSeek-R1-Distill-Qwen-32B ซึ่งตัวมันเองก็เป็นเวอร์ชันที่กลั่นกรองมาจากโมเดลอื่นๆ อีกที แนวทางการพัฒนาโมเดลแบบเป็นชั้นๆ นี้ได้จุดประเด็นให้เกิดการถกเถียงเกี่ยวกับแนวทางการตั้งชื่อและความโปร่งใสในชุมชนวิจัย AI ผู้แสดงความคิดเห็นบางคนสังเกตว่าบริษัทอื่นๆ เช่น Meta กำหนดอย่างชัดเจนให้ผลงานที่พัฒนาต่อยอดต้องรวมชื่อโมเดลต้นฉบับ (เช่น Llama) ไว้ที่ต้นชื่อของโมเดลใหม่

ที่เก็บ GitHub ของโมเดล Skywork-OR1 แสดงให้เห็นโค้ดและโครงสร้างของพวกเขา ซึ่งเกี่ยวข้องกับการอภิปรายเรื่องการ fine-tuning เทียบกับสถาปัตยกรรมดั้งเดิม
ที่เก็บ GitHub ของโมเดล Skywork-OR1 แสดงให้เห็นโค้ดและโครงสร้างของพวกเขา ซึ่งเกี่ยวข้องกับการอภิปรายเรื่องการ fine-tuning เทียบกับสถาปัตยกรรมดั้งเดิม

การตั้งคำถามเกี่ยวกับความเกี่ยวข้องของเกณฑ์การทดสอบ

อีกประเด็นหนึ่งที่มีการโต้แย้งในการสนทนาของชุมชนคือเกี่ยวกับเกณฑ์การทดสอบที่ใช้ประเมินโมเดล ผู้ใช้บางรายตั้งคำถามถึงความเกี่ยวข้องของการใช้คะแนน AIME24 เมื่อโมเดลน่าจะได้รับการฝึกฝนด้วยชุดข้อมูลเดียวกันนั้น ผู้แสดงความคิดเห็นคนหนึ่งชี้ให้เห็นว่านี่เป็นปัญหาทั่วไปในการประเมินโมเดล AI เนื่องจากชุดข้อมูลทดสอบส่วนใหญ่มักจะถูกนำไปใช้เป็นข้อมูลฝึกฝนในที่สุด

การลดลงอย่างมีนัยสำคัญของประสิทธิภาพระหว่างคะแนน AIME24 และ AIME25 (ตัวอย่างเช่น Skywork-OR1-Math-7B ได้คะแนน 69.8 ใน AIME24 แต่ได้เพียง 52.3 ใน AIME25) ดูเหมือนจะยืนยันความกังวลนี้ ซึ่งบ่งชี้ว่าโมเดลทำงานได้ดีกว่ากับข้อมูลที่มันน่าจะเคยเห็นระหว่างการฝึกฝน

การเปรียบเทียบประสิทธิภาพของโมเดล (Avg@32)

โมเดล AIME24 AIME25 LiveCodeBench (Avg@4)
DeepSeek-R1-Distill-Qwen-7B 55.5 39.2 37.6
Light-R1-7B-DS 59.1 44.3 39.5
Skywork-OR1-Math-7B 69.8 52.3 43.6
Skywork-OR1-7B-Preview 63.6 45.8 43.9
DeepSeek-R1-Distill-Qwen-32B 72.9 59.0 57.2
Skywork-OR1-32B-Preview 79.7 69.0 63.9
DeepSeek-R1 (671B) 79.8 70.0 65.9
กราฟเส้นที่แสดงประสิทธิภาพของ Skywork-OR1-Math-7B บนชุดข้อมูล AIME24 แสดงให้เห็นถึงความกังวลเกี่ยวกับความเกี่ยวข้องของเกณฑ์มาตรฐานที่ยกขึ้นมาในการอภิปราย
กราฟเส้นที่แสดงประสิทธิภาพของ Skywork-OR1-Math-7B บนชุดข้อมูล AIME24 แสดงให้เห็นถึงความกังวลเกี่ยวกับความเกี่ยวข้องของเกณฑ์มาตรฐานที่ยกขึ้นมาในการอภิปราย

การแลกเปลี่ยนประสิทธิภาพของโมเดลแบบติดตั้งในเครื่อง

การสนทนายังเกี่ยวข้องกับหัวข้อที่กว้างขึ้นเกี่ยวกับการรันโมเดล AI ในเครื่องเทียบกับการใช้บริการบนคลาวด์ สมาชิกในชุมชนได้แบ่งปันประสบการณ์ของพวกเขากับโมเดลในเครื่องต่างๆ โดยสังเกตว่าแม้ว่าพวกมันจะเร็วกว่าสำหรับงานบางอย่าง แต่มักมีการแลกเปลี่ยนระหว่างความเร็ว ความแม่นยำ และความหลากหลายในการใช้งาน

สำหรับผู้ใช้ที่มีข้อจำกัดด้านฮาร์ดแวร์ เช่น หน่วยความจำ GPU ที่จำกัด การเลือกโมเดลที่เหมาะสมจึงมีความสำคัญอย่างยิ่ง ผู้แสดงความคิดเห็นหลายคนกล่าวว่าแม้จะไม่มีโมเดลในเครื่องที่ทำทุกอย่างได้ดีพอๆ กับโมเดลบนคลาวด์อย่าง ChatGPT หรือ Gemini แต่โมเดลเฉพาะทางสามารถทำงานได้ดีเยี่ยมในงานเฉพาะด้าน เช่น การเขียนโค้ด (โดยมีการแนะนำโมเดลอย่าง qwen 2.5 coder 32b)

ความมุ่งมั่นในการเป็นโอเพนซอร์ส

แม้จะมีข้อกังวลที่ถูกหยิบยก ชุมชนได้ตอบรับในเชิงบวกต่อความมุ่งมั่นของ Skywork ในการเปิดเผยผลงานของพวกเขาเป็นโอเพนซอร์ส บริษัทได้สัญญาว่าจะเปิดเผยทั้งค่าน้ำหนักของโมเดล ข้อมูลการฝึกฝน และโค้ด แม้ว่า ณ เวลาที่ประกาศ ทรัพยากรบางอย่างเหล่านี้ยังคงระบุว่า กำลังจะมา (Coming Soon)

แนวทางแบบเปิดนี้อาจช่วยแก้ไขข้อกังวลบางประการเกี่ยวกับความโปร่งใสที่ชุมชนได้หยิบยกขึ้นมา โดยเปิดโอกาสให้ผู้อื่นเข้าใจวิธีการพัฒนาโมเดลเหล่านี้ได้ดีขึ้นและอาจนำไปพัฒนาต่อยอดได้

โมเดล Skywork-OR1 เป็นกรณีศึกษาที่น่าสนใจในภูมิทัศน์ที่กำลังเปลี่ยนแปลงของการพัฒนาโมเดล AI ซึ่งเส้นแบ่งระหว่างการวิจัยต้นฉบับ การกลั่นกรอง และการปรับแต่งยังคงไม่ชัดเจน เมื่อแนวปฏิบัติเหล่านี้กลายเป็นเรื่องปกติมากขึ้น ชุมชน AI ดูเหมือนจะเรียกร้องมาตรฐานที่ชัดเจนมากขึ้นเกี่ยวกับวิธีการนำเสนอและให้เครดิตผลงานดังกล่าว

อ้างอิง: Skywork-OR1 (Open Reasoner 1)