การเปิดตัวโมเดล Skywork-OR1 (Open Reasoner 1) เมื่อเร็วๆ นี้ได้จุดประกายให้เกิดการถกเถียงอย่างมากในชุมชน AI โดยเฉพาะอย่างยิ่งเกี่ยวกับวิธีการนำเสนอโมเดลเหล่านี้เมื่อเทียบกับแนวทางการพัฒนาที่แท้จริง แม้ว่าโมเดลเหล่านี้จะแสดงประสิทธิภาพที่น่าประทับใจในการทดสอบด้านคณิตศาสตร์และการเขียนโค้ด สมาชิกในชุมชนได้แสดงความกังวลเกี่ยวกับความโปร่งใสในวิธีการอธิบายและทำการตลาดของโมเดลเหล่านี้
การปรับแต่ง (Fine-tuning) เทียบกับสถาปัตยกรรมต้นฉบับ
ซีรีส์ Skywork-OR1 ซึ่งรวมถึง Skywork-OR1-Math-7B, Skywork-OR1-32B-Preview และ Skywork-OR1-7B-Preview ได้รับการส่งเสริมว่ามีประสิทธิภาพสูงในการทดสอบเกณฑ์มาตรฐานต่างๆ เช่น AIME24, AIME25 และ LiveCodeBench อย่างไรก็ตาม สมาชิกในชุมชนได้เน้นย้ำว่าโมเดลเหล่านี้เป็นเพียงเวอร์ชันที่ปรับแต่งจากโมเดลที่มีอยู่แล้ว ไม่ใช่สถาปัตยกรรมใหม่ทั้งหมด - ซึ่งเป็นข้อเท็จจริงที่ถูกกล่าวถึงเพียงตอนท้ายของประกาศของ Skywork เท่านั้น
ไม่ได้ต้องการลดคุณค่าของงานพวกเขา แต่สิ่งนี้ไม่ควรถูกซ่อนไว้ที่ส่วนท้ายของหน้า - มีความแตกต่างอย่างมากระหว่างโมเดลที่สร้างขึ้นใหม่ทั้งหมดกับการปรับแต่งโมเดลที่มีอยู่แล้ว
โมเดลเหล่านี้ถูกสร้างขึ้นบนพื้นฐานของ DeepSeek-R1-Distill-Qwen-7B และ DeepSeek-R1-Distill-Qwen-32B ซึ่งตัวมันเองก็เป็นเวอร์ชันที่กลั่นกรองมาจากโมเดลอื่นๆ อีกที แนวทางการพัฒนาโมเดลแบบเป็นชั้นๆ นี้ได้จุดประเด็นให้เกิดการถกเถียงเกี่ยวกับแนวทางการตั้งชื่อและความโปร่งใสในชุมชนวิจัย AI ผู้แสดงความคิดเห็นบางคนสังเกตว่าบริษัทอื่นๆ เช่น Meta กำหนดอย่างชัดเจนให้ผลงานที่พัฒนาต่อยอดต้องรวมชื่อโมเดลต้นฉบับ (เช่น Llama) ไว้ที่ต้นชื่อของโมเดลใหม่
![]() |
---|
ที่เก็บ GitHub ของโมเดล Skywork-OR1 แสดงให้เห็นโค้ดและโครงสร้างของพวกเขา ซึ่งเกี่ยวข้องกับการอภิปรายเรื่องการ fine-tuning เทียบกับสถาปัตยกรรมดั้งเดิม |
การตั้งคำถามเกี่ยวกับความเกี่ยวข้องของเกณฑ์การทดสอบ
อีกประเด็นหนึ่งที่มีการโต้แย้งในการสนทนาของชุมชนคือเกี่ยวกับเกณฑ์การทดสอบที่ใช้ประเมินโมเดล ผู้ใช้บางรายตั้งคำถามถึงความเกี่ยวข้องของการใช้คะแนน AIME24 เมื่อโมเดลน่าจะได้รับการฝึกฝนด้วยชุดข้อมูลเดียวกันนั้น ผู้แสดงความคิดเห็นคนหนึ่งชี้ให้เห็นว่านี่เป็นปัญหาทั่วไปในการประเมินโมเดล AI เนื่องจากชุดข้อมูลทดสอบส่วนใหญ่มักจะถูกนำไปใช้เป็นข้อมูลฝึกฝนในที่สุด
การลดลงอย่างมีนัยสำคัญของประสิทธิภาพระหว่างคะแนน AIME24 และ AIME25 (ตัวอย่างเช่น Skywork-OR1-Math-7B ได้คะแนน 69.8 ใน AIME24 แต่ได้เพียง 52.3 ใน AIME25) ดูเหมือนจะยืนยันความกังวลนี้ ซึ่งบ่งชี้ว่าโมเดลทำงานได้ดีกว่ากับข้อมูลที่มันน่าจะเคยเห็นระหว่างการฝึกฝน
การเปรียบเทียบประสิทธิภาพของโมเดล (Avg@32)
โมเดล | AIME24 | AIME25 | LiveCodeBench (Avg@4) |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
DeepSeek-R1 (671B) | 79.8 | 70.0 | 65.9 |
![]() |
---|
กราฟเส้นที่แสดงประสิทธิภาพของ Skywork-OR1-Math-7B บนชุดข้อมูล AIME24 แสดงให้เห็นถึงความกังวลเกี่ยวกับความเกี่ยวข้องของเกณฑ์มาตรฐานที่ยกขึ้นมาในการอภิปราย |
การแลกเปลี่ยนประสิทธิภาพของโมเดลแบบติดตั้งในเครื่อง
การสนทนายังเกี่ยวข้องกับหัวข้อที่กว้างขึ้นเกี่ยวกับการรันโมเดล AI ในเครื่องเทียบกับการใช้บริการบนคลาวด์ สมาชิกในชุมชนได้แบ่งปันประสบการณ์ของพวกเขากับโมเดลในเครื่องต่างๆ โดยสังเกตว่าแม้ว่าพวกมันจะเร็วกว่าสำหรับงานบางอย่าง แต่มักมีการแลกเปลี่ยนระหว่างความเร็ว ความแม่นยำ และความหลากหลายในการใช้งาน
สำหรับผู้ใช้ที่มีข้อจำกัดด้านฮาร์ดแวร์ เช่น หน่วยความจำ GPU ที่จำกัด การเลือกโมเดลที่เหมาะสมจึงมีความสำคัญอย่างยิ่ง ผู้แสดงความคิดเห็นหลายคนกล่าวว่าแม้จะไม่มีโมเดลในเครื่องที่ทำทุกอย่างได้ดีพอๆ กับโมเดลบนคลาวด์อย่าง ChatGPT หรือ Gemini แต่โมเดลเฉพาะทางสามารถทำงานได้ดีเยี่ยมในงานเฉพาะด้าน เช่น การเขียนโค้ด (โดยมีการแนะนำโมเดลอย่าง qwen 2.5 coder 32b)
ความมุ่งมั่นในการเป็นโอเพนซอร์ส
แม้จะมีข้อกังวลที่ถูกหยิบยก ชุมชนได้ตอบรับในเชิงบวกต่อความมุ่งมั่นของ Skywork ในการเปิดเผยผลงานของพวกเขาเป็นโอเพนซอร์ส บริษัทได้สัญญาว่าจะเปิดเผยทั้งค่าน้ำหนักของโมเดล ข้อมูลการฝึกฝน และโค้ด แม้ว่า ณ เวลาที่ประกาศ ทรัพยากรบางอย่างเหล่านี้ยังคงระบุว่า กำลังจะมา (Coming Soon)
แนวทางแบบเปิดนี้อาจช่วยแก้ไขข้อกังวลบางประการเกี่ยวกับความโปร่งใสที่ชุมชนได้หยิบยกขึ้นมา โดยเปิดโอกาสให้ผู้อื่นเข้าใจวิธีการพัฒนาโมเดลเหล่านี้ได้ดีขึ้นและอาจนำไปพัฒนาต่อยอดได้
โมเดล Skywork-OR1 เป็นกรณีศึกษาที่น่าสนใจในภูมิทัศน์ที่กำลังเปลี่ยนแปลงของการพัฒนาโมเดล AI ซึ่งเส้นแบ่งระหว่างการวิจัยต้นฉบับ การกลั่นกรอง และการปรับแต่งยังคงไม่ชัดเจน เมื่อแนวปฏิบัติเหล่านี้กลายเป็นเรื่องปกติมากขึ้น ชุมชน AI ดูเหมือนจะเรียกร้องมาตรฐานที่ชัดเจนมากขึ้นเกี่ยวกับวิธีการนำเสนอและให้เครดิตผลงานดังกล่าว
อ้างอิง: Skywork-OR1 (Open Reasoner 1)