ความสามารถของระบบ AI ในการเข้าใจว่ามนุษย์พูดจบแล้วยังคงเป็นหนึ่งในความท้าทายที่ยากที่สุดของการโต้ตอบกับ AI ด้วยเสียง โครงการโอเพนซอร์สใหม่ที่เรียกว่า Smart Turn Detection มีเป้าหมายเพื่อแก้ไขปัญหานี้ และได้รับความสนใจอย่างมากจากนักพัฒนาและผู้ใช้ที่มีศักยภาพ
ความท้าทายในการไหลของการสนทนา
การตรวจจับการผลัดเปลี่ยน—การกำหนดว่าเมื่อใดที่บุคคลพูดจบและคาดหวังการตอบสนอง—ได้รับการระบุโดยสมาชิกในชุมชนว่าเป็นอุปสรรคที่ใหญ่ที่สุดในการสร้างปฏิสัมพันธ์ด้วยเสียงที่เป็นธรรมชาติกับระบบ AI การใช้งานในปัจจุบันมีตั้งแต่แย่มาก (เช่น Siri ที่มีแนวโน้มจะขัดจังหวะเมื่อมีการหยุดชั่วคราวเพียงเล็กน้อย) ไปจนถึงโซลูชันที่มีประสิทธิภาพปานกลางแต่ยังไม่สมบูรณ์แบบในระบบที่ก้าวหน้ากว่าอย่างโหมดเสียงของ ChatGPT
มีหลายสถานการณ์ที่มนุษย์รู้ว่าใครบางคนยังไม่ได้พูดความคิดจนจบ แต่ AI ยังคงมีปัญหา และข้อผิดพลาดเหล่านั้นสามารถทำลายประสิทธิภาพของการสนทนาหรือแย่กว่านั้น นำไปสู่ข้อผิดพลาดร้ายแรงในการทำงาน
ความท้าทายนี้เห็นได้ชัดเจนเป็นพิเศษเมื่อผู้ใช้หยุดพักเพื่อรวบรวมความคิดกลางประโยคหรือเมื่อพูดในภาษาที่ไม่ใช่ภาษาแม่ รูปแบบการพูดตามธรรมชาติเหล่านี้มักทำให้ระบบ AI สับสน ทำให้พวกมันขัดจังหวะก่อนเวลาอันควรหรือไม่ตอบสนองเมื่อควรจะตอบ
การนำไปใช้ทางเทคนิค
โครงการ Smart Turn Detection ใช้ Wav2Vec2-BERT ของ Meta AI เป็นพื้นฐาน—โมเดลพารามิเตอร์ 580 ล้านตัวที่ได้รับการฝึกฝนบนข้อมูลเสียงที่ไม่มีการติดป้ายกำกับ 4.5 ล้านชั่วโมงครอบคลุมมากกว่า 143 ภาษา การใช้งานในปัจจุบันเพิ่มส่วนหัวการจำแนกสองชั้นอย่างง่ายเพื่อกำหนดว่าส่วนของคำพูดนั้นสมบูรณ์หรือไม่สมบูรณ์
การสนทนาในชุมชนเผยว่าโมเดลสามารถทำการอนุมานได้เร็วถึง 100 มิลลิวินาทีโดยใช้ CoreML โดยมีการใช้งานทางเลือกที่สำรวจโมเดล LSTM ที่เล็กกว่าประมาณหนึ่งในเจ็ดของขนาดเดิม การฝึกโมเดลปัจจุบันใช้เวลาประมาณ 45 นาทีบน GPU L4 โดยทั่วไปจะเสร็จสิ้นใน 4 รอบแม้ว่าจะถูกกำหนดค่าไว้สำหรับ 10 รอบ
ชุดข้อมูลของโครงการในปัจจุบันประกอบด้วยตัวอย่างประมาณ 8,000 ตัวอย่าง—ครึ่งหนึ่งมาจากผู้พูดที่เป็นมนุษย์และอีกครึ่งหนึ่งสร้างขึ้นโดยสังเคราะห์โดยใช้ Rime ชุดข้อมูลที่ค่อนข้างเล็กนี้มุ่งเน้นไปที่คำเติมเต็มภาษาอังกฤษที่มักบ่งชี้ถึงการหยุดพักโดยไม่มีการพูดจบประโยค
ข้อมูลจำเพาะของโมเดลปัจจุบัน:
- โมเดลพื้นฐาน: Wav2Vec2-BERT (580 ล้านพารามิเตอร์)
- ข้อมูลการฝึกฝน: ประมาณ 8,000 ตัวอย่าง (4,000 จากมนุษย์, 4,000 สังเคราะห์)
- ภาษาที่รองรับ: ภาษาอังกฤษเท่านั้น
- เวลาในการฝึกฝน: ประมาณ 45 นาทีบน GPU รุ่น L4
- เป้าหมายการประมวลผล: น้อยกว่า 50 มิลลิวินาทีบน GPU, น้อยกว่า 500 มิลลิวินาทีบน CPU
ข้อจำกัดปัจจุบัน:
- รองรับเฉพาะภาษาอังกฤษเท่านั้น
- การประมวลผลค่อนข้างช้า
- ข้อมูลการฝึกฝนเน้นที่คำเติมเต็มช่วงหยุดเป็นหลัก
- จำกัดเฉพาะการจำแนกแบบไบนารี (สมบูรณ์/ไม่สมบูรณ์)
เป้าหมายการพัฒนา:
- รองรับหลายภาษา
- การประมวลผลที่เร็วขึ้น (เป้าหมาย: น้อยกว่า 50 มิลลิวินาทีบน GPU, น้อยกว่า 500 มิลลิวินาทีบน CPU)
- การจดจำรูปแบบการพูดที่กว้างขึ้น
- ระบบการสร้างข้อมูลฝึกฝนแบบสังเคราะห์
- การปรับเงื่อนไขข้อความสำหรับบริบทเฉพาะ (หมายเลขบัตรเครดิต, ที่อยู่, ฯลฯ)
การประยุกต์ใช้งานจริงและข้อจำกัด
ชุมชนได้ระบุการใช้งานจริงหลายอย่างสำหรับเทคโนโลยีนี้ รวมถึงการปรับปรุงผู้ช่วยเสียง แอปแปลภาษา และแม้แต่กรณีการใช้งานส่วนบุคคลที่เป็นไปได้ ผู้แสดงความคิดเห็นคนหนึ่งที่มีภาวะออทิสติกระดับสูงแสดงความสนใจในการใช้เทคโนโลยีดังกล่าวในหูฟัง ซึ่งแนะนำการใช้งานด้านการเข้าถึงนอกเหนือจากการใช้งานของผู้บริโภคทั่วไป
ข้อจำกัดในปัจจุบันรวมถึงการรองรับเฉพาะภาษาอังกฤษ การอนุมานที่ค่อนข้างช้าบนแพลตฟอร์มบางแห่ง และการมุ่งเน้นที่แคบเกี่ยวกับคำเติมเต็มการหยุดพัก แผนงานของโครงการรวมถึงการขยายการรองรับภาษา การปรับปรุงความเร็วในการอนุมาน (เป้าหมาย <50ms บน GPU และ <500ms บน CPU) การจับความหลากหลายของการพูดที่กว้างขึ้น และการพัฒนาไปป์ไลน์ข้อมูลการฝึกอบรมสังเคราะห์อย่างสมบูรณ์
สมาชิกบางคนในชุมชนยังคงสงสัยว่าการตรวจจับการผลัดเปลี่ยนสามารถแก้ไขได้อย่างสมบูรณ์หรือไม่โดยไม่มีปุ่มกดเพื่อพูด โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ท้าทาย เช่น ผู้พูดที่ไม่ใช่เจ้าของภาษากำลังคิดความคิดที่ซับซ้อนหรือแอปพลิเคชันการแปล พวกเขาแนะนำว่าโซลูชันที่ครอบคลุมอาจต้องรวมการตรวจจับการผลัดเปลี่ยนกับการตรวจจับการขัดจังหวะคำพูดและโมเดลภาษาบนอุปกรณ์ที่รวดเร็ว
การพัฒนาในอนาคต
โครงการกำลังมองหาผู้มีส่วนร่วมอย่างแข็งขันเพื่อช่วยในหลายด้าน: การขยายการรองรับภาษา การรวบรวมข้อมูลการฝึกอบรมที่หลากหลายมากขึ้น การทดลองกับตัวแปรของสถาปัตยกรรมโมเดล การสนับสนุนการฝึกอบรมบนแพลตฟอร์มเพิ่มเติม (รวมถึง Google Colab และ MLX ของ Apple) และการเพิ่มประสิทธิภาพผ่านการลดขนาดและรหัสการอนุมานเฉพาะทาง
เมื่อส่วนติดต่อด้วยเสียงมีความสำคัญมากขึ้นในการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การแก้ไขปัญหาการตรวจจับการผลัดเปลี่ยนสามารถปรับปรุงความเป็นธรรมชาติและประสิทธิภาพของการปฏิสัมพันธ์เหล่านี้อย่างมีนัยสำคัญ ความคิดริเริ่มโอเพนซอร์สนี้เป็นก้าวสำคัญในการทำให้ AI ด้วยเสียงรู้สึกเหมือนมนุษย์มากขึ้นและลดความหงุดหงิดในการใช้งาน
อ้างอิง: Smart turn detection