เมื่อไม่นานมานี้ Sesame AI ได้เปิดให้เป็นโอเพนซอร์สสำหรับโมเดลการสนทนาด้วยเสียง (Conversational Speech Model - CSM) แต่การเปิดตัวนี้ได้สร้างความผิดหวังให้กับชุมชนนักพัฒนาอย่างกว้างขวาง ในขณะที่บริษัทเคยแสดงการสาธิตเสียงโต้ตอบที่น่าประทับใจ ผู้ใช้หลายคนพบว่าโมเดลขนาด 1B พารามิเตอร์ที่เปิดตัวนั้นมีความสามารถน้อยกว่าที่เคยสาธิตไว้อย่างมีนัยสำคัญ
เวอร์ชันที่ถูกลดทอนความสามารถจากเทคโนโลยีที่เคยสัญญาไว้
CSM ที่เปิดเป็นโอเพนซอร์สเป็นโมเดลการสร้างเสียงที่สร้างบนพื้นฐานของ Llama พร้อมกับตัวถอดรหัสเสียงขนาดเล็กกว่าที่ผลิตรหัส Mimi audio แม้จะทำงานได้ตามหลักการ แต่ข้อเสนอแนะจากชุมชนบ่งชี้ถึงข้อจำกัดที่สำคัญเมื่อเทียบกับการสาธิตที่สมบูรณ์แบบของ Sesame ผู้แสดงความคิดเห็นหลายคนได้อธิบายการเปิดตัวนี้ว่าเป็นการหลอกลวง โดยแนะนำว่า Sesame ได้เปิดตัวเวอร์ชันของเทคโนโลยีที่ถูกทำให้ด้อยประสิทธิภาพโดยเจตนา
ปรากฏว่ามันเป็นการหลอกลวง พวกเขาเปิดซอร์สเวอร์ชันที่ด้อยประสิทธิภาพของ sesame (1B) ไม่ใช่เวอร์ชันที่พวกเขาใช้ในการสาธิตจริง
โมเดลนี้ต้องการ GPU ที่รองรับ CUDA และได้รับการทดสอบบน CUDA 12.4 และ 12.6 โดยแนะนำให้ใช้ Python 3.10 มันสามารถสร้างเสียงจากข้อความนำเข้าและทำงานได้ดีที่สุดเมื่อมีบริบทการสนทนา แต่ผู้ใช้รายงานว่าคุณภาพและประสิทธิภาพต่ำกว่าความคาดหวังอย่างมาก
ความต้องการของโมเดล CSM
- GPU ที่รองรับ CUDA
- ทดสอบแล้วบน CUDA 12.4 และ 12.6
- แนะนำให้ใช้ Python 3.10
- ต้องสามารถเข้าถึงโมเดลจาก Hugging Face:
- Llama-3.2-1B
- CSM-1B
ปัญหาที่รายงานจากชุมชน
- ช้ากว่าทางเลือกเชิงพาณิชย์อย่างมีนัยสำคัญ
- คุณภาพของผลลัพธ์ต่ำกว่าที่แสดงในการสาธิตของ Sesame
- ไม่ใช่โซลูชันที่สมบูรณ์ (สร้างเสียงพูดเท่านั้น)
- ต้องการส่วนประกอบเพิ่มเติมเพื่อสร้างผู้ช่วยเสียงที่สมบูรณ์
- บางการใช้งานมีการหยุดชะงักที่ไม่เป็นธรรมชาติในการพูด
ข้อกังวลเกี่ยวกับประสิทธิภาพและความสามารถในการใช้งาน
ผู้ใช้ที่พยายามใช้งานโมเดลนี้ประสบกับปัญหาสำคัญ มีรายงานว่ากระบวนการสร้างเสียงช้ามาก และคุณภาพของผลลัพธ์ถูกอธิบายว่าไม่เหมาะสมโดยสมาชิกชุมชนที่ได้ทดสอบ ผู้ใช้คนหนึ่งได้อ้างถึงปัญหาบน GitHub (ปัญหาที่ #80) ซึ่งกำลังมีการอภิปรายข้อจำกัดเหล่านี้อย่างละเอียด
นักพัฒนาบางคนได้สร้างการใช้งานทางเลือกเพื่อปรับปรุงการเข้าถึง เช่น ไลบรารี Python สำหรับผู้ใช้ Mac อย่างไรก็ตาม แม้แต่การใช้งานเหล่านี้ก็มีรายงานถึงความผิดปกติ เช่น การแทรกช่องว่างที่น่าอึดอัดยาวหลายวินาทีในผลลัพธ์
ความเป็นส่วนตัวและการประยุกต์ใช้งานจริง
นอกเหนือจากปัญหาด้านประสิทธิภาพ ความกังวลเกี่ยวกับความเป็นส่วนตัวได้เกิดขึ้นเกี่ยวกับโซลูชันที่โฮสต์โดย Sesame ผู้ใช้คนหนึ่งสังเกตว่านโยบายของ Sesame ในการบันทึกและตรวจสอบการสนทนาทำให้บริการที่พวกเขาโฮสต์ไม่สามารถใช้งานได้เลย ซึ่งเน้นย้ำถึงคุณค่าที่อาจเกิดขึ้นของทางเลือกโอเพนซอร์สที่มีความสามารถจริงๆ ที่สามารถโฮสต์ได้เอง
ฉันทามติของชุมชนดูเหมือนจะเป็นว่าในขณะที่โมเดลเสียงแบบเปิดเผยเป็นโอกาสที่น่าตื่นเต้นในการแข่งขันกับโซลูชันแบบกรรมสิทธิ์ การเปิดตัวนี้ล้มเหลวในการส่งมอบตามที่สัญญาไว้ ตามที่ผู้แสดงความคิดเห็นคนหนึ่งสังเกต ช่องว่างระหว่างโมเดลพื้นฐานนี้กับผู้ช่วยเสียงที่มีการตอบสนองอย่างราบรื่นเช่นในการสาธิตของ Sesame แสดงให้เห็นว่า AI ด้านเสียงต้องคิดในแง่ของระบบที่สมบูรณ์มากกว่าองค์ประกอบแต่ละส่วน
ความผิดหวังที่เกิดขึ้นรอบการเปิดตัวนี้บ่งชี้ว่ายังมีโอกาสสำคัญสำหรับนักพัฒนาที่สามารถส่งมอบโมเดลเสียงโอเพนซอร์สที่มีความสามารถจริงๆ ซึ่งเทียบเท่ากับทางเลือกแบบกรรมสิทธิ์ได้ ในตอนนี้ การค้นหาโซลูชันเสียงแบบเปิดที่ส่งมอบตามสัญญาของการมีปฏิสัมพันธ์ด้วยเสียงที่เป็นธรรมชาติและตอบสนองได้ดียังคงดำเนินต่อไป