การค้นหาการสนทนาด้วยเสียง AI ที่เป็นธรรมชาติ: ความท้าทายเรื่องความล่าช้า การขัดจังหวะ และการผลัดกันพูด

BigGo Editorial Team
การค้นหาการสนทนาด้วยเสียง AI ที่เป็นธรรมชาติ: ความท้าทายเรื่องความล่าช้า การขัดจังหวะ และการผลัดกันพูด

ในภูมิทัศน์ของผู้ช่วยเสียง AI ที่กำลังพัฒนาอย่างรวดเร็ว นักพัฒนากำลังพยายามสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติมากขึ้น โครงการโอเพนซอร์สล่าสุดที่เรียกว่า RealtimeVoiceChat ได้จุดประกายการอภิปรายเกี่ยวกับความท้าทายพื้นฐานในการทำให้การโต้ตอบด้วยเสียง AI รู้สึกเหมือนมนุษย์จริงๆ แม้ว่าจะมีความสำเร็จทางเทคนิคที่น่าประทับใจในการลดความล่าช้า แต่ชุมชนได้ระบุพลวัตการสนทนาที่ลึกซึ้งยิ่งขึ้นที่ยังคงต้องแก้ไข

ความท้าทายเรื่องความล่าช้า

ความล่าช้า—ความล่าช้าระหว่างคำพูดของมนุษย์และการตอบสนองของ AI—ยังคงเป็นปัจจัยสำคัญในการโต้ตอบด้วยเสียง ผู้ช่วยเสียงแบบดั้งเดิมโดยทั่วไปมีความล่าช้าขั้นต่ำประมาณ 300 มิลลิวินาที เนื่องจากพวกเขาพึ่งพาการตรวจจับความเงียบเพื่อกำหนดเวลาตอบสนอง โครงการ RealtimeVoiceChat มีเป้าหมายที่จะบรรลุความล่าช้าในการตอบสนองประมาณ 500 มิลลิวินาที แม้จะใช้โมเดลในเครื่องที่ใหญ่ขึ้น ซึ่งชุมชนสังเกตว่ากำลังเข้าใกล้มาตรฐานทองคำสำหรับแอปพลิเคชันเชิงพาณิชย์ อย่างไรก็ตาม สิ่งนี้ยังไม่ตรงกับพลวัตการสนทนาของมนุษย์ ซึ่งความล่าช้าเฉลี่ยระหว่างผู้พูดคือศูนย์มิลลิวินาที—หมายความว่ามนุษย์มักจะพูดทับหรือขัดจังหวะกันเมื่อสนทนาอย่างเป็นธรรมชาติ

ความล่าช้าเฉลี่ยระหว่างผู้พูดในการสนทนาระหว่างมนุษย์กับมนุษย์คือศูนย์มิลลิวินาที กล่าวอีกนัยหนึ่ง ประมาณครึ่งหนึ่งของเวลา ผู้พูดคนหนึ่งจะขัดจังหวะอีกคนหนึ่ง ทำให้ความล่าช้าเป็นลบ

ปาราด็อกซ์ของการขัดจังหวะ

หนึ่งในคุณสมบัติที่ได้รับการพูดถึงมากที่สุดของระบบ RealtimeVoiceChat คือความสามารถในการจัดการกับการขัดจังหวะ ซึ่งอนุญาตให้ผู้ใช้แทรกขณะที่ AI กำลังพูด การใช้งานใช้การถอดความแบบเรียลไทม์ขาเข้าเป็นตัวกระตุ้นแทนการตรวจจับกิจกรรมเสียงอย่างง่าย ซึ่งให้ความแม่นยำที่ดีขึ้นแต่มีความล่าช้าเพิ่มเติมเล็กน้อย อย่างไรก็ตาม สมาชิกในชุมชนชี้ให้เห็นปาราด็อกซ์ที่ท้าทาย: ในขณะที่เราต้องการระบบ AI ที่สามารถถูกขัดจังหวะได้ แต่เราก็ไม่ต้องการให้พวกเขาขัดจังหวะเราระหว่างการหยุดพูดตามธรรมชาติในคำพูดของเรา สิ่งนี้สร้างปัญหาที่ซับซ้อนที่ระบบต้องแยกแยะระหว่างการหยุดคิดของผู้ใช้และการจบการพูดจริงๆ

ปัญหาการหยุดตามธรรมชาติ

บางทีความท้าทายที่ยังไม่ได้รับการแก้ไขที่สำคัญที่สุดที่ระบุในการอภิปรายคือการจัดการกับการหยุดตามธรรมชาติในคำพูดของมนุษย์ ระบบเสียง AI ปัจจุบันมักจะตีความความเงียบชั่วครู่ใดๆ เป็นสัญญาณการผลัดกันพูด โดยรีบเข้ามาตอบสนองก่อนที่ผู้ใช้จะคิดความคิดของพวกเขาอย่างเต็มที่ สิ่งนี้บังคับให้ผู้ใช้ใช้รูปแบบการพูดที่ไม่เป็นธรรมชาติ เช่น การใช้คำเติมเต็ม (อืมมม) เพื่อรักษาการพูดของพวกเขาหรือกดปุ่มเพื่อบ่งชี้เมื่อพวกเขาพูดเสร็จแล้ว ชุมชนแนะนำทางออกที่เป็นไปได้หลายอย่าง ตั้งแต่คำสั่งรอพิเศษไปจนถึงสตรีมอินพุตคู่ที่สามารถตรวจจับคำเติมเต็มเทียบกับการจบการพูดที่แท้จริง แต่ยังไม่มีทางออกที่สมบูรณ์แบบปรากฏขึ้น

RealtimeVoiceChat เทคนิคัลสแตค:

  • แบ็คเอนด์: Python 3.x, FastAPI
  • ฟรอนต์เอนด์: HTML, CSS, JavaScript (Vanilla JS, Web Audio API, AudioWorklets)
  • การสื่อสาร: WebSockets
  • คอนเทนเนอไรเซชัน: Docker, Docker Compose
  • คอมโพเนนต์หลัก AI/ML:
    • การตรวจจับกิจกรรมเสียง: Webrtcvad + SileroVAD
    • การถอดความ: Whisper base.en (CTranslate2)
    • การตรวจจับการผลัดเปลี่ยน: โมเดล BERT แบบกำหนดเอง (KoljaB/SentenceFinishedClassification)
    • LLM: โมเดลในเครื่องผ่าน Ollama (ค่าเริ่มต้น) หรือ OpenAI (ทางเลือก)
    • TTS: Coqui XTTSv2, Kokoro, หรือ Orpheus

ความต้องการด้านฮาร์ดแวร์:

  • การ์ดจอ NVIDIA ที่รองรับ CUDA (ทดสอบบน RTX 4090)
  • ความล่าช้าในการตอบสนองโดยประมาณ: ~500ms

การประมวลผลในเครื่องและข้อกำหนดทางเทคนิค

ระบบ RealtimeVoiceChat ทำงานทั้งหมดบนฮาร์ดแวร์ในเครื่อง โดยใช้โมเดลโอเพนซอร์สสำหรับแต่ละองค์ประกอบของไปป์ไลน์การโต้ตอบด้วยเสียง: การตรวจจับกิจกรรมเสียง การถอดความคำพูด การตรวจจับการผลัดกันพูด การประมวลผลโมเดลภาษา และการสังเคราะห์ข้อความเป็นคำพูด วิธีการนี้ให้ประโยชน์ด้านความเป็นส่วนตัวและขจัดการพึ่งพาบริการคลาวด์ แต่มาพร้อมกับข้อกำหนดด้านฮาร์ดแวร์ที่สำคัญ นักพัฒนาได้ทดสอบเฉพาะบน GPU NVIDIA RTX 4090 เท่านั้น ซึ่งเน้นว่าการโต้ตอบด้วยเสียง AI แบบเรียลไทม์เหล่านี้ยังคงใช้ทรัพยากรมาก แม้ว่าพวกเขาจะเข้าถึงได้ง่ายขึ้นสำหรับนักพัฒนาก็ตาม

การค้นหาการสนทนาด้วยเสียง AI ที่รู้สึกเป็นธรรมชาติยังคงเป็นจุดตัดที่น่าสนใจของความท้าทายทางเทคนิคและมนุษย์ ในขณะที่การลดความล่าช้าและการเปิดใช้งานการขัดจังหวะแสดงถึงความก้าวหน้าที่สำคัญ พลวัตที่ละเอียดอ่อนของการผลัดกันพูด การหยุด และการฟังอย่างกระตือรือร้นยังคงเป็นพื้นที่ที่แม้แต่ระบบที่ก้าวหน้าที่สุดก็ยังคงห่างไกลจากการโต้ตอบแบบมนุษย์ ตามที่สมาชิกชุมชนคนหนึ่งสังเกตอย่างเหมาะสม สิ่งนี้นำเสนอโอกาสที่จะทำให้การสื่อสาร AI ดีกว่าการสนทนาของมนุษย์ ซึ่งตัวมันเองก็มักจะเต็มไปด้วยการขัดจังหวะที่อึดอัดและสัญญาณทางสังคมที่อ่านผิด

อ้างอิง: Real-Time AI Voice Chat