แนวทางของ DeepSeek ในการเปิดเผยซอร์สโค้ด AI: การสร้างสมดุลระหว่างนวัตกรรมกับความท้าทายในทางปฏิบัติ

BigGo Editorial Team
แนวทางของ DeepSeek ในการเปิดเผยซอร์สโค้ด AI: การสร้างสมดุลระหว่างนวัตกรรมกับความท้าทายในทางปฏิบัติ

ในโลกของการพัฒนา AI ที่กำลังเปลี่ยนแปลงอย่างรวดเร็ว DeepSeek ได้ประกาศแนวทางในการเปิดเผยซอร์สโค้ดของส่วนประกอบในเครื่องมือประมวลผล (inference engine) ซึ่งได้จุดประกายให้เกิดการถกเถียงอย่างมากในชุมชนเทคโนโลยี แทนที่จะเปิดเผยโค้ดทั้งหมด ซึ่งเผชิญกับความท้าทายในทางปฏิบัติหลายประการ บริษัทได้เลือกที่จะมีส่วนร่วมกับระบบนิเวศโอเพนซอร์สในเชิงกลยุทธ์มากขึ้น

ช่องว่างด้านประสิทธิภาพเผยให้เห็นศักยภาพในการปรับปรุงที่สำคัญ

ชุมชนได้ระบุถึงช่องว่างด้านประสิทธิภาพที่สำคัญระหว่างเครื่องมือประมวลผลที่มีให้ใช้งานสาธารณะกับระบบภายในของ DeepSeek ตามความเห็นจากผู้ใช้ที่คุ้นเคยกับเกณฑ์การวัดประสิทธิภาพ vLLM (เครื่องมือประมวลผลโอเพนซอร์ส) สามารถประมวลผลได้ประมาณ 5,000 โทเค็นต่อวินาทีกับชุดข้อมูล sharegpt และ 12,000 โทเค็นต่อวินาทีกับการกำหนดค่าแบบสุ่ม 2000/100 ภายใต้การทำงานพร้อมกันในปริมาณสูง ในทางตรงกันข้าม ระบบภายในของ DeepSeek รายงานว่าสามารถส่งมอบประมาณ 73,700 โทเค็นต่อวินาทีในระหว่างการเติมข้อมูลล่วงหน้า (prefilling) และ 14,800 โทเค็นต่อวินาทีในระหว่างการถอดรหัส (decoding) บนโหนด H800 เพียงโหนดเดียว ความแตกต่างอย่างมากนี้ชี้ให้เห็นว่ายังมีพื้นที่ในการปรับปรุงอีกมากในพื้นที่การประมวลผลโอเพนซอร์ส

การเปรียบเทียบประสิทธิภาพ: vLLM เทียบกับ DeepSeek Internal Engine

ระบบ การกำหนดค่า ประสิทธิภาพ
vLLM ชุดข้อมูล sharegpt, การทำงานพร้อมกันสูง ~5,000 โทเค็น/วินาที
vLLM สุ่ม 2000/100, การทำงานพร้อมกันสูง ~12,000 โทเค็น/วินาที
DeepSeek Internal โหนด H800, การเติมล่วงหน้า ~73,700 โทเค็น/วินาที (อินพุต)
DeepSeek Internal โหนด H800, การถอดรหัส ~14,800 โทเค็น/วินาที (เอาต์พุต)

ความท้าทายในการเปิดเผยซอร์สโค้ดของ DeepSeek

  • การแยกตัวของโค้ดเบส: อิงจากการ fork vLLM เมื่อปีที่แล้วที่มีการปรับแต่งอย่างมาก
  • การพึ่งพาโครงสร้างพื้นฐาน: เชื่อมโยงอย่างแน่นหนากับระบบภายใน
  • ข้อจำกัดในการบำรุงรักษา: ทีมวิจัยขนาดเล็กที่มุ่งเน้นการพัฒนาโมเดล

กลยุทธ์การมีส่วนร่วมของ DeepSeek

  • แยกฟีเจอร์แบบสแตนด์อโลนออกมาเป็นไลบรารีอิสระ
  • แบ่งปันเทคนิคการเพิ่มประสิทธิภาพและรายละเอียดการนำไปใช้
  • ร่วมมือกับโครงการโอเพ่นซอร์สที่มีอยู่

ความท้าทายในการดูแลรักษาโค้ดที่แยกออกมา

นักพัฒนาหลายคนในชุมชนแสดงความเห็นใจกับคำอธิบายของ DeepSeek เกี่ยวกับการแยกของโค้ด เครื่องมือประมวลผลของบริษัทอิงจากการแยก (fork) ตัวแรกๆ ของ vLLM จากกว่าหนึ่งปีที่แล้ว และได้รับการปรับแต่งอย่างมากสำหรับโมเดลเฉพาะของพวกเขา สถานการณ์นี้สอดคล้องกับวิศวกรซอฟต์แวร์หลายคนที่เคยประสบกับความท้าทายคล้ายกันในการดูแลรักษาโค้ดที่แยกออกมาซึ่งห่างไกลจากโค้ดต้นฉบับมากเกินไป หนี้ทางเทคนิคที่สะสมผ่านการปรับแต่งอย่างกว้างขวางทำให้ยากขึ้นในการรวมการปรับปรุงจากชุมชนหรือดูแลรักษาโค้ดสำหรับกรณีการใช้งานที่กว้างขึ้น

ฉันเคยอยู่ในสถานการณ์นั้น อาจจะมีพวกเราหลายคนที่เคย... แนวทางของพวกเขาในการทำงานเพื่อแยกไลบรารีย่อยที่ดูแลรักษาได้และการแบ่งปันข้อมูลโดยตรงแม้จะไม่ได้รวมเข้าด้วยกันดูเหมือนเป็นวิธีที่ดีมากในการทำงานร่วมกับชุมชน

ตรรกะเชิงพาณิชย์เบื้องหลัง AI โอเพนซอร์ส

หัวข้อที่น่าสนใจในการอภิปรายนี้คือเหตุใดบริษัท AI เชิงพาณิชย์จึงแบ่งปันการวิจัยและเทคโนโลยีของพวกเขาตั้งแต่แรก สมาชิกชุมชนหลายคนได้ให้ข้อมูลเชิงลึกเกี่ยวกับตรรกะทางธุรกิจที่ขับเคลื่อนพฤติกรรมที่ดูเหมือนจะขัดแย้งกันนี้ แรงจูงใจดูเหมือนจะมีหลายด้าน: การดึงดูดผู้มีความสามารถชั้นยอดที่ต้องการให้ผลงานของพวกเขาได้รับการเผยแพร่ การสร้างส่วนแบ่งทางความคิดในอุตสาหกรรม การวางตำแหน่งเทคโนโลยีให้เป็นมาตรฐาน และการเร่งความก้าวหน้าทั่วทั้งสาขาซึ่งในท้ายที่สุดจะเป็นประโยชน์ต่อผู้มีส่วนร่วมทั้งหมด

ผู้แสดงความคิดเห็นบางคนสังเกตว่าในสาขาที่กำลังพัฒนาอย่างรวดเร็วเช่น AI การอยู่ใกล้กับความก้าวหน้าที่เกิดขึ้นทั่วทั้งระบบนิเวศอาจมีค่ามากกว่าการเก็บนวัตกรรมไว้เป็นความลับ มุมมองนี้กำหนดกรอบการมีส่วนร่วมในโอเพนซอร์สไม่ใช่เป็นการกระทำเพื่อเสียสละ แต่เป็นการตัดสินใจทางธุรกิจเชิงกลยุทธ์ที่แสวงหาผลกำไรทางเศรษฐกิจผ่านผลประโยชน์ร่วมกันและการเติบโตของระบบนิเวศ

คุณค่าในทางปฏิบัติของการแบ่งปันความรู้เทียบกับโค้ด

มุมมองที่น่าสนใจเกิดขึ้นเกี่ยวกับคุณค่าของการแบ่งปันความรู้แม้ว่าจะไม่มีโค้ดที่สามารถทำงานได้อย่างสมบูรณ์ นักพัฒนาหลายคนชี้ให้เห็นว่าโค้ดที่ไม่สามารถทำงานได้หรือคำอธิบายทางเทคนิคสามารถมีค่าอย่างยิ่งสำหรับการทำความเข้าใจรายละเอียดการใช้งานที่เอกสารเพียงอย่างเดียวไม่สามารถถ่ายทอดได้อย่างเต็มที่ สิ่งนี้บ่งชี้ว่าแนวทางของ DeepSeek ในการแบ่งปันการปรับปรุงประสิทธิภาพและการปรับปรุงการออกแบบ แม้จะไม่อยู่ในรูปแบบของเครื่องมือประมวลผลที่สมบูรณ์ ก็ยังสามารถเป็นประโยชน์อย่างมากต่อชุมชน

โดยสรุป การตัดสินใจของ DeepSeek แสดงถึงแนวทางที่ใช้งานได้จริงในการมีส่วนร่วมกับโอเพนซอร์สที่ยอมรับทั้งคุณค่าของการแบ่งปันนวัตกรรมและความท้าทายในทางปฏิบัติของการดูแลรักษาโค้ดที่ซับซ้อน ในขณะที่การพัฒนา AI ยังคงเร่งตัวขึ้น การค้นหาโมเดลที่ยั่งยืนสำหรับการแบ่งปันความรู้ที่เป็นประโยชน์ทั้งต่อบริษัทและชุมชนที่กว้างขึ้นจะยังคงมีความสำคัญ การตอบรับในเชิงบวกต่อความโปร่งใสของ DeepSeek เกี่ยวกับความท้าทายเหล่านี้บ่งชี้ว่าชุมชนเทคโนโลยีชื่นชมการสื่อสารที่ซื่อสัตย์เกี่ยวกับความเป็นจริงของการดูแลรักษาโอเพนซอร์สเท่าๆ กับการมีส่วนร่วมเอง

อ้างอิง: The Path to Open-Sourcing the DeepSeek Inference Engine