โมเดลตรวจจับการสนทนาอัจฉริยะแบบโอเพนซอร์สแก้ปัญหาสำคัญในการสนทนากับ AI ด้วยเสียง

BigGo Editorial Team
โมเดลตรวจจับการสนทนาอัจฉริยะแบบโอเพนซอร์สแก้ปัญหาสำคัญในการสนทนากับ AI ด้วยเสียง

ความสามารถของระบบ AI ในการเข้าใจว่ามนุษย์พูดจบแล้วยังคงเป็นหนึ่งในความท้าทายที่ยากที่สุดของการโต้ตอบกับ AI ด้วยเสียง โครงการโอเพนซอร์สใหม่ที่เรียกว่า Smart Turn Detection มีเป้าหมายเพื่อแก้ไขปัญหานี้ และได้รับความสนใจอย่างมากจากนักพัฒนาและผู้ใช้ที่มีศักยภาพ

ความท้าทายในการไหลของการสนทนา

การตรวจจับการผลัดเปลี่ยน—การกำหนดว่าเมื่อใดที่บุคคลพูดจบและคาดหวังการตอบสนอง—ได้รับการระบุโดยสมาชิกในชุมชนว่าเป็นอุปสรรคที่ใหญ่ที่สุดในการสร้างปฏิสัมพันธ์ด้วยเสียงที่เป็นธรรมชาติกับระบบ AI การใช้งานในปัจจุบันมีตั้งแต่แย่มาก (เช่น Siri ที่มีแนวโน้มจะขัดจังหวะเมื่อมีการหยุดชั่วคราวเพียงเล็กน้อย) ไปจนถึงโซลูชันที่มีประสิทธิภาพปานกลางแต่ยังไม่สมบูรณ์แบบในระบบที่ก้าวหน้ากว่าอย่างโหมดเสียงของ ChatGPT

มีหลายสถานการณ์ที่มนุษย์รู้ว่าใครบางคนยังไม่ได้พูดความคิดจนจบ แต่ AI ยังคงมีปัญหา และข้อผิดพลาดเหล่านั้นสามารถทำลายประสิทธิภาพของการสนทนาหรือแย่กว่านั้น นำไปสู่ข้อผิดพลาดร้ายแรงในการทำงาน

ความท้าทายนี้เห็นได้ชัดเจนเป็นพิเศษเมื่อผู้ใช้หยุดพักเพื่อรวบรวมความคิดกลางประโยคหรือเมื่อพูดในภาษาที่ไม่ใช่ภาษาแม่ รูปแบบการพูดตามธรรมชาติเหล่านี้มักทำให้ระบบ AI สับสน ทำให้พวกมันขัดจังหวะก่อนเวลาอันควรหรือไม่ตอบสนองเมื่อควรจะตอบ

การนำไปใช้ทางเทคนิค

โครงการ Smart Turn Detection ใช้ Wav2Vec2-BERT ของ Meta AI เป็นพื้นฐาน—โมเดลพารามิเตอร์ 580 ล้านตัวที่ได้รับการฝึกฝนบนข้อมูลเสียงที่ไม่มีการติดป้ายกำกับ 4.5 ล้านชั่วโมงครอบคลุมมากกว่า 143 ภาษา การใช้งานในปัจจุบันเพิ่มส่วนหัวการจำแนกสองชั้นอย่างง่ายเพื่อกำหนดว่าส่วนของคำพูดนั้นสมบูรณ์หรือไม่สมบูรณ์

การสนทนาในชุมชนเผยว่าโมเดลสามารถทำการอนุมานได้เร็วถึง 100 มิลลิวินาทีโดยใช้ CoreML โดยมีการใช้งานทางเลือกที่สำรวจโมเดล LSTM ที่เล็กกว่าประมาณหนึ่งในเจ็ดของขนาดเดิม การฝึกโมเดลปัจจุบันใช้เวลาประมาณ 45 นาทีบน GPU L4 โดยทั่วไปจะเสร็จสิ้นใน 4 รอบแม้ว่าจะถูกกำหนดค่าไว้สำหรับ 10 รอบ

ชุดข้อมูลของโครงการในปัจจุบันประกอบด้วยตัวอย่างประมาณ 8,000 ตัวอย่าง—ครึ่งหนึ่งมาจากผู้พูดที่เป็นมนุษย์และอีกครึ่งหนึ่งสร้างขึ้นโดยสังเคราะห์โดยใช้ Rime ชุดข้อมูลที่ค่อนข้างเล็กนี้มุ่งเน้นไปที่คำเติมเต็มภาษาอังกฤษที่มักบ่งชี้ถึงการหยุดพักโดยไม่มีการพูดจบประโยค

ข้อมูลจำเพาะของโมเดลปัจจุบัน:

  • โมเดลพื้นฐาน: Wav2Vec2-BERT (580 ล้านพารามิเตอร์)
  • ข้อมูลการฝึกฝน: ประมาณ 8,000 ตัวอย่าง (4,000 จากมนุษย์, 4,000 สังเคราะห์)
  • ภาษาที่รองรับ: ภาษาอังกฤษเท่านั้น
  • เวลาในการฝึกฝน: ประมาณ 45 นาทีบน GPU รุ่น L4
  • เป้าหมายการประมวลผล: น้อยกว่า 50 มิลลิวินาทีบน GPU, น้อยกว่า 500 มิลลิวินาทีบน CPU

ข้อจำกัดปัจจุบัน:

  • รองรับเฉพาะภาษาอังกฤษเท่านั้น
  • การประมวลผลค่อนข้างช้า
  • ข้อมูลการฝึกฝนเน้นที่คำเติมเต็มช่วงหยุดเป็นหลัก
  • จำกัดเฉพาะการจำแนกแบบไบนารี (สมบูรณ์/ไม่สมบูรณ์)

เป้าหมายการพัฒนา:

  • รองรับหลายภาษา
  • การประมวลผลที่เร็วขึ้น (เป้าหมาย: น้อยกว่า 50 มิลลิวินาทีบน GPU, น้อยกว่า 500 มิลลิวินาทีบน CPU)
  • การจดจำรูปแบบการพูดที่กว้างขึ้น
  • ระบบการสร้างข้อมูลฝึกฝนแบบสังเคราะห์
  • การปรับเงื่อนไขข้อความสำหรับบริบทเฉพาะ (หมายเลขบัตรเครดิต, ที่อยู่, ฯลฯ)

การประยุกต์ใช้งานจริงและข้อจำกัด

ชุมชนได้ระบุการใช้งานจริงหลายอย่างสำหรับเทคโนโลยีนี้ รวมถึงการปรับปรุงผู้ช่วยเสียง แอปแปลภาษา และแม้แต่กรณีการใช้งานส่วนบุคคลที่เป็นไปได้ ผู้แสดงความคิดเห็นคนหนึ่งที่มีภาวะออทิสติกระดับสูงแสดงความสนใจในการใช้เทคโนโลยีดังกล่าวในหูฟัง ซึ่งแนะนำการใช้งานด้านการเข้าถึงนอกเหนือจากการใช้งานของผู้บริโภคทั่วไป

ข้อจำกัดในปัจจุบันรวมถึงการรองรับเฉพาะภาษาอังกฤษ การอนุมานที่ค่อนข้างช้าบนแพลตฟอร์มบางแห่ง และการมุ่งเน้นที่แคบเกี่ยวกับคำเติมเต็มการหยุดพัก แผนงานของโครงการรวมถึงการขยายการรองรับภาษา การปรับปรุงความเร็วในการอนุมาน (เป้าหมาย <50ms บน GPU และ <500ms บน CPU) การจับความหลากหลายของการพูดที่กว้างขึ้น และการพัฒนาไปป์ไลน์ข้อมูลการฝึกอบรมสังเคราะห์อย่างสมบูรณ์

สมาชิกบางคนในชุมชนยังคงสงสัยว่าการตรวจจับการผลัดเปลี่ยนสามารถแก้ไขได้อย่างสมบูรณ์หรือไม่โดยไม่มีปุ่มกดเพื่อพูด โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ท้าทาย เช่น ผู้พูดที่ไม่ใช่เจ้าของภาษากำลังคิดความคิดที่ซับซ้อนหรือแอปพลิเคชันการแปล พวกเขาแนะนำว่าโซลูชันที่ครอบคลุมอาจต้องรวมการตรวจจับการผลัดเปลี่ยนกับการตรวจจับการขัดจังหวะคำพูดและโมเดลภาษาบนอุปกรณ์ที่รวดเร็ว

การพัฒนาในอนาคต

โครงการกำลังมองหาผู้มีส่วนร่วมอย่างแข็งขันเพื่อช่วยในหลายด้าน: การขยายการรองรับภาษา การรวบรวมข้อมูลการฝึกอบรมที่หลากหลายมากขึ้น การทดลองกับตัวแปรของสถาปัตยกรรมโมเดล การสนับสนุนการฝึกอบรมบนแพลตฟอร์มเพิ่มเติม (รวมถึง Google Colab และ MLX ของ Apple) และการเพิ่มประสิทธิภาพผ่านการลดขนาดและรหัสการอนุมานเฉพาะทาง

เมื่อส่วนติดต่อด้วยเสียงมีความสำคัญมากขึ้นในการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การแก้ไขปัญหาการตรวจจับการผลัดเปลี่ยนสามารถปรับปรุงความเป็นธรรมชาติและประสิทธิภาพของการปฏิสัมพันธ์เหล่านี้อย่างมีนัยสำคัญ ความคิดริเริ่มโอเพนซอร์สนี้เป็นก้าวสำคัญในการทำให้ AI ด้วยเสียงรู้สึกเหมือนมนุษย์มากขึ้นและลดความหงุดหงิดในการใช้งาน

อ้างอิง: Smart turn detection