โมเดลเสียง CSM โอเพนซอร์สของ Sesame ไม่เป็นไปตามความคาดหวังจากการสาธิต

BigGo Editorial Team
โมเดลเสียง CSM โอเพนซอร์สของ Sesame ไม่เป็นไปตามความคาดหวังจากการสาธิต

เมื่อไม่นานมานี้ Sesame AI ได้เปิดให้เป็นโอเพนซอร์สสำหรับโมเดลการสนทนาด้วยเสียง (Conversational Speech Model - CSM) แต่การเปิดตัวนี้ได้สร้างความผิดหวังให้กับชุมชนนักพัฒนาอย่างกว้างขวาง ในขณะที่บริษัทเคยแสดงการสาธิตเสียงโต้ตอบที่น่าประทับใจ ผู้ใช้หลายคนพบว่าโมเดลขนาด 1B พารามิเตอร์ที่เปิดตัวนั้นมีความสามารถน้อยกว่าที่เคยสาธิตไว้อย่างมีนัยสำคัญ

เวอร์ชันที่ถูกลดทอนความสามารถจากเทคโนโลยีที่เคยสัญญาไว้

CSM ที่เปิดเป็นโอเพนซอร์สเป็นโมเดลการสร้างเสียงที่สร้างบนพื้นฐานของ Llama พร้อมกับตัวถอดรหัสเสียงขนาดเล็กกว่าที่ผลิตรหัส Mimi audio แม้จะทำงานได้ตามหลักการ แต่ข้อเสนอแนะจากชุมชนบ่งชี้ถึงข้อจำกัดที่สำคัญเมื่อเทียบกับการสาธิตที่สมบูรณ์แบบของ Sesame ผู้แสดงความคิดเห็นหลายคนได้อธิบายการเปิดตัวนี้ว่าเป็นการหลอกลวง โดยแนะนำว่า Sesame ได้เปิดตัวเวอร์ชันของเทคโนโลยีที่ถูกทำให้ด้อยประสิทธิภาพโดยเจตนา

ปรากฏว่ามันเป็นการหลอกลวง พวกเขาเปิดซอร์สเวอร์ชันที่ด้อยประสิทธิภาพของ sesame (1B) ไม่ใช่เวอร์ชันที่พวกเขาใช้ในการสาธิตจริง

โมเดลนี้ต้องการ GPU ที่รองรับ CUDA และได้รับการทดสอบบน CUDA 12.4 และ 12.6 โดยแนะนำให้ใช้ Python 3.10 มันสามารถสร้างเสียงจากข้อความนำเข้าและทำงานได้ดีที่สุดเมื่อมีบริบทการสนทนา แต่ผู้ใช้รายงานว่าคุณภาพและประสิทธิภาพต่ำกว่าความคาดหวังอย่างมาก

ความต้องการของโมเดล CSM

  • GPU ที่รองรับ CUDA
  • ทดสอบแล้วบน CUDA 12.4 และ 12.6
  • แนะนำให้ใช้ Python 3.10
  • ต้องสามารถเข้าถึงโมเดลจาก Hugging Face:
    • Llama-3.2-1B
    • CSM-1B

ปัญหาที่รายงานจากชุมชน

  • ช้ากว่าทางเลือกเชิงพาณิชย์อย่างมีนัยสำคัญ
  • คุณภาพของผลลัพธ์ต่ำกว่าที่แสดงในการสาธิตของ Sesame
  • ไม่ใช่โซลูชันที่สมบูรณ์ (สร้างเสียงพูดเท่านั้น)
  • ต้องการส่วนประกอบเพิ่มเติมเพื่อสร้างผู้ช่วยเสียงที่สมบูรณ์
  • บางการใช้งานมีการหยุดชะงักที่ไม่เป็นธรรมชาติในการพูด

ข้อกังวลเกี่ยวกับประสิทธิภาพและความสามารถในการใช้งาน

ผู้ใช้ที่พยายามใช้งานโมเดลนี้ประสบกับปัญหาสำคัญ มีรายงานว่ากระบวนการสร้างเสียงช้ามาก และคุณภาพของผลลัพธ์ถูกอธิบายว่าไม่เหมาะสมโดยสมาชิกชุมชนที่ได้ทดสอบ ผู้ใช้คนหนึ่งได้อ้างถึงปัญหาบน GitHub (ปัญหาที่ #80) ซึ่งกำลังมีการอภิปรายข้อจำกัดเหล่านี้อย่างละเอียด

นักพัฒนาบางคนได้สร้างการใช้งานทางเลือกเพื่อปรับปรุงการเข้าถึง เช่น ไลบรารี Python สำหรับผู้ใช้ Mac อย่างไรก็ตาม แม้แต่การใช้งานเหล่านี้ก็มีรายงานถึงความผิดปกติ เช่น การแทรกช่องว่างที่น่าอึดอัดยาวหลายวินาทีในผลลัพธ์

ความเป็นส่วนตัวและการประยุกต์ใช้งานจริง

นอกเหนือจากปัญหาด้านประสิทธิภาพ ความกังวลเกี่ยวกับความเป็นส่วนตัวได้เกิดขึ้นเกี่ยวกับโซลูชันที่โฮสต์โดย Sesame ผู้ใช้คนหนึ่งสังเกตว่านโยบายของ Sesame ในการบันทึกและตรวจสอบการสนทนาทำให้บริการที่พวกเขาโฮสต์ไม่สามารถใช้งานได้เลย ซึ่งเน้นย้ำถึงคุณค่าที่อาจเกิดขึ้นของทางเลือกโอเพนซอร์สที่มีความสามารถจริงๆ ที่สามารถโฮสต์ได้เอง

ฉันทามติของชุมชนดูเหมือนจะเป็นว่าในขณะที่โมเดลเสียงแบบเปิดเผยเป็นโอกาสที่น่าตื่นเต้นในการแข่งขันกับโซลูชันแบบกรรมสิทธิ์ การเปิดตัวนี้ล้มเหลวในการส่งมอบตามที่สัญญาไว้ ตามที่ผู้แสดงความคิดเห็นคนหนึ่งสังเกต ช่องว่างระหว่างโมเดลพื้นฐานนี้กับผู้ช่วยเสียงที่มีการตอบสนองอย่างราบรื่นเช่นในการสาธิตของ Sesame แสดงให้เห็นว่า AI ด้านเสียงต้องคิดในแง่ของระบบที่สมบูรณ์มากกว่าองค์ประกอบแต่ละส่วน

ความผิดหวังที่เกิดขึ้นรอบการเปิดตัวนี้บ่งชี้ว่ายังมีโอกาสสำคัญสำหรับนักพัฒนาที่สามารถส่งมอบโมเดลเสียงโอเพนซอร์สที่มีความสามารถจริงๆ ซึ่งเทียบเท่ากับทางเลือกแบบกรรมสิทธิ์ได้ ในตอนนี้ การค้นหาโซลูชันเสียงแบบเปิดที่ส่งมอบตามสัญญาของการมีปฏิสัมพันธ์ด้วยเสียงที่เป็นธรรมชาติและตอบสนองได้ดียังคงดำเนินต่อไป

อ้างอิง: CSM (Conversational Speech Model) Documentation