ในภูมิทัศน์ของผู้ช่วยเสียง AI ที่กำลังพัฒนาอย่างรวดเร็ว นักพัฒนากำลังพยายามสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติมากขึ้น โครงการโอเพนซอร์สล่าสุดที่เรียกว่า RealtimeVoiceChat ได้จุดประกายการอภิปรายเกี่ยวกับความท้าทายพื้นฐานในการทำให้การโต้ตอบด้วยเสียง AI รู้สึกเหมือนมนุษย์จริงๆ แม้ว่าจะมีความสำเร็จทางเทคนิคที่น่าประทับใจในการลดความล่าช้า แต่ชุมชนได้ระบุพลวัตการสนทนาที่ลึกซึ้งยิ่งขึ้นที่ยังคงต้องแก้ไข
ความท้าทายเรื่องความล่าช้า
ความล่าช้า—ความล่าช้าระหว่างคำพูดของมนุษย์และการตอบสนองของ AI—ยังคงเป็นปัจจัยสำคัญในการโต้ตอบด้วยเสียง ผู้ช่วยเสียงแบบดั้งเดิมโดยทั่วไปมีความล่าช้าขั้นต่ำประมาณ 300 มิลลิวินาที เนื่องจากพวกเขาพึ่งพาการตรวจจับความเงียบเพื่อกำหนดเวลาตอบสนอง โครงการ RealtimeVoiceChat มีเป้าหมายที่จะบรรลุความล่าช้าในการตอบสนองประมาณ 500 มิลลิวินาที แม้จะใช้โมเดลในเครื่องที่ใหญ่ขึ้น ซึ่งชุมชนสังเกตว่ากำลังเข้าใกล้มาตรฐานทองคำสำหรับแอปพลิเคชันเชิงพาณิชย์ อย่างไรก็ตาม สิ่งนี้ยังไม่ตรงกับพลวัตการสนทนาของมนุษย์ ซึ่งความล่าช้าเฉลี่ยระหว่างผู้พูดคือศูนย์มิลลิวินาที—หมายความว่ามนุษย์มักจะพูดทับหรือขัดจังหวะกันเมื่อสนทนาอย่างเป็นธรรมชาติ
ความล่าช้าเฉลี่ยระหว่างผู้พูดในการสนทนาระหว่างมนุษย์กับมนุษย์คือศูนย์มิลลิวินาที กล่าวอีกนัยหนึ่ง ประมาณครึ่งหนึ่งของเวลา ผู้พูดคนหนึ่งจะขัดจังหวะอีกคนหนึ่ง ทำให้ความล่าช้าเป็นลบ
ปาราด็อกซ์ของการขัดจังหวะ
หนึ่งในคุณสมบัติที่ได้รับการพูดถึงมากที่สุดของระบบ RealtimeVoiceChat คือความสามารถในการจัดการกับการขัดจังหวะ ซึ่งอนุญาตให้ผู้ใช้แทรกขณะที่ AI กำลังพูด การใช้งานใช้การถอดความแบบเรียลไทม์ขาเข้าเป็นตัวกระตุ้นแทนการตรวจจับกิจกรรมเสียงอย่างง่าย ซึ่งให้ความแม่นยำที่ดีขึ้นแต่มีความล่าช้าเพิ่มเติมเล็กน้อย อย่างไรก็ตาม สมาชิกในชุมชนชี้ให้เห็นปาราด็อกซ์ที่ท้าทาย: ในขณะที่เราต้องการระบบ AI ที่สามารถถูกขัดจังหวะได้ แต่เราก็ไม่ต้องการให้พวกเขาขัดจังหวะเราระหว่างการหยุดพูดตามธรรมชาติในคำพูดของเรา สิ่งนี้สร้างปัญหาที่ซับซ้อนที่ระบบต้องแยกแยะระหว่างการหยุดคิดของผู้ใช้และการจบการพูดจริงๆ
ปัญหาการหยุดตามธรรมชาติ
บางทีความท้าทายที่ยังไม่ได้รับการแก้ไขที่สำคัญที่สุดที่ระบุในการอภิปรายคือการจัดการกับการหยุดตามธรรมชาติในคำพูดของมนุษย์ ระบบเสียง AI ปัจจุบันมักจะตีความความเงียบชั่วครู่ใดๆ เป็นสัญญาณการผลัดกันพูด โดยรีบเข้ามาตอบสนองก่อนที่ผู้ใช้จะคิดความคิดของพวกเขาอย่างเต็มที่ สิ่งนี้บังคับให้ผู้ใช้ใช้รูปแบบการพูดที่ไม่เป็นธรรมชาติ เช่น การใช้คำเติมเต็ม (อืมมม) เพื่อรักษาการพูดของพวกเขาหรือกดปุ่มเพื่อบ่งชี้เมื่อพวกเขาพูดเสร็จแล้ว ชุมชนแนะนำทางออกที่เป็นไปได้หลายอย่าง ตั้งแต่คำสั่งรอพิเศษไปจนถึงสตรีมอินพุตคู่ที่สามารถตรวจจับคำเติมเต็มเทียบกับการจบการพูดที่แท้จริง แต่ยังไม่มีทางออกที่สมบูรณ์แบบปรากฏขึ้น
RealtimeVoiceChat เทคนิคัลสแตค:
- แบ็คเอนด์: Python 3.x, FastAPI
- ฟรอนต์เอนด์: HTML, CSS, JavaScript (Vanilla JS, Web Audio API, AudioWorklets)
- การสื่อสาร: WebSockets
- คอนเทนเนอไรเซชัน: Docker, Docker Compose
- คอมโพเนนต์หลัก AI/ML:
- การตรวจจับกิจกรรมเสียง: Webrtcvad + SileroVAD
- การถอดความ: Whisper base.en (CTranslate2)
- การตรวจจับการผลัดเปลี่ยน: โมเดล BERT แบบกำหนดเอง (KoljaB/SentenceFinishedClassification)
- LLM: โมเดลในเครื่องผ่าน Ollama (ค่าเริ่มต้น) หรือ OpenAI (ทางเลือก)
- TTS: Coqui XTTSv2, Kokoro, หรือ Orpheus
ความต้องการด้านฮาร์ดแวร์:
- การ์ดจอ NVIDIA ที่รองรับ CUDA (ทดสอบบน RTX 4090)
- ความล่าช้าในการตอบสนองโดยประมาณ: ~500ms
การประมวลผลในเครื่องและข้อกำหนดทางเทคนิค
ระบบ RealtimeVoiceChat ทำงานทั้งหมดบนฮาร์ดแวร์ในเครื่อง โดยใช้โมเดลโอเพนซอร์สสำหรับแต่ละองค์ประกอบของไปป์ไลน์การโต้ตอบด้วยเสียง: การตรวจจับกิจกรรมเสียง การถอดความคำพูด การตรวจจับการผลัดกันพูด การประมวลผลโมเดลภาษา และการสังเคราะห์ข้อความเป็นคำพูด วิธีการนี้ให้ประโยชน์ด้านความเป็นส่วนตัวและขจัดการพึ่งพาบริการคลาวด์ แต่มาพร้อมกับข้อกำหนดด้านฮาร์ดแวร์ที่สำคัญ นักพัฒนาได้ทดสอบเฉพาะบน GPU NVIDIA RTX 4090 เท่านั้น ซึ่งเน้นว่าการโต้ตอบด้วยเสียง AI แบบเรียลไทม์เหล่านี้ยังคงใช้ทรัพยากรมาก แม้ว่าพวกเขาจะเข้าถึงได้ง่ายขึ้นสำหรับนักพัฒนาก็ตาม
การค้นหาการสนทนาด้วยเสียง AI ที่รู้สึกเป็นธรรมชาติยังคงเป็นจุดตัดที่น่าสนใจของความท้าทายทางเทคนิคและมนุษย์ ในขณะที่การลดความล่าช้าและการเปิดใช้งานการขัดจังหวะแสดงถึงความก้าวหน้าที่สำคัญ พลวัตที่ละเอียดอ่อนของการผลัดกันพูด การหยุด และการฟังอย่างกระตือรือร้นยังคงเป็นพื้นที่ที่แม้แต่ระบบที่ก้าวหน้าที่สุดก็ยังคงห่างไกลจากการโต้ตอบแบบมนุษย์ ตามที่สมาชิกชุมชนคนหนึ่งสังเกตอย่างเหมาะสม สิ่งนี้นำเสนอโอกาสที่จะทำให้การสื่อสาร AI ดีกว่าการสนทนาของมนุษย์ ซึ่งตัวมันเองก็มักจะเต็มไปด้วยการขัดจังหวะที่อึดอัดและสัญญาณทางสังคมที่อ่านผิด
อ้างอิง: Real-Time AI Voice Chat