ในขณะที่ Google ยังคงผลักดันขีดจำกัดของการสังเคราะห์เสียงด้วย AI ผลตอบรับจากผู้ใช้ในระยะแรกชี้ให้เห็นว่าเทคโนโลยีนี้ยังคงต้องเผชิญกับปรากฏการณ์หุบเขาอันน่าพิศวง (uncanny valley) ซึ่งคุณภาพเสียงที่ใกล้เคียงมนุษย์มากเกินไปกลับสร้างประสบการณ์ที่ชวนอึดอัดให้กับผู้ฟัง
ความท้าทายของหุบเขาอันน่าพิศวง
ผลตอบรับจากชุมชนชี้ให้เห็นถึงความย้อนแย้งที่น่าสนใจในเทคโนโลยีการสร้างเสียงล่าสุดของ Google แม้จะมีความก้าวหน้าทางเทคนิคอย่างมากในการสร้างบทสนทนาที่ฟังดูเป็นธรรมชาติ แต่ผู้ใช้รายงานว่ารู้สึกไม่สบายใจกับบุคลิกภาพเทียมที่แฝงอยู่ในเสียงที่ถูกสร้างขึ้น ผู้ใช้คนหนึ่งระบุว่าประสบการณ์นี้สร้างความรู้สึกไม่สบายใจจนยากที่จะฟังแม้แต่การสาธิต 30 วินาที โดยผู้ฟังชอบการนำเสนอข้อมูลแบบตรงไปตรงมามากกว่าการสนทนาที่ถูกปรับแต่งให้เป็นส่วนตัวแบบเทียม
ความสำเร็จทางเทคนิค
แม้จะมีอุปสรรคทางจิตวิทยาเหล่านี้ แต่เทคโนโลยีการสังเคราะห์เสียงล่าสุดของ Google แสดงให้เห็นถึงความก้าวหน้าทางเทคนิคที่สำคัญ:
- สามารถสร้างบทสนทนายาว 2 นาทีที่มีผู้พูดหลายคน
- ความเร็วในการประมวลผลเร็วกว่าเวลาจริง 40 เท่า
- ใช้การประมวลผลครั้งเดียวด้วยชิป TPU v5e เพียงตัวเดียว
- เสร็จสิ้นภายในเวลาไม่เกิน 3 วินาที
- การบีบอัดข้อมูลที่มีประสิทธิภาพสูงที่ 600 บิตต่อวินาที
เทคโนโลยีเบื้องหลังเสียงสังเคราะห์
ระบบนี้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าซึ่งรวมถึง SoundStorm, SoundStream และ AudioLM โดยใช้:
- สถาปัตยกรรม Transformer แบบพิเศษสำหรับจัดการข้อมูลแบบลำดับชั้น
- ตัวเข้ารหัสเสียงแบบ neural สำหรับการบีบอัดที่มีประสิทธิภาพ
- การฝึกฝนด้วยข้อมูลเสียงหลายแสนชั่วโมง
- การปรับแต่งละเอียดด้วยชุดข้อมูลบทสนทนาคุณภาพสูงที่มีความไม่ราบรื่นในการพูดแบบสมจริง
ความปลอดภัยและความรับผิดชอบ
เพื่อจัดการกับความกังวลเกี่ยวกับการใช้งานในทางที่ผิด Google ได้นำเทคโนโลยีลายน้ำ SynthID มาใช้สำหรับเนื้อหาเสียงที่สร้างขึ้นด้วย AI ซึ่งสอดคล้องกับหลักการด้าน AI ของบริษัทเพื่อการใช้เทคโนโลยีอย่างรับผิดชอบ
การพัฒนาในอนาคต
Google กำลังทำงานอย่างแข็งขันเพื่อปรับปรุง:
- การแสดงออกทางน้ำเสียง
- คุณภาพทางเสียง
- การควบคุมท่วงทำนองเสียงอย่างละเอียด
- การผสานรวมกับสื่อวิดีโอ
แม้ว่าเทคโนโลยีนี้จะแสดงให้เห็นถึงศักยภาพในการประยุกต์ใช้สำหรับประสบการณ์การเรียนรู้และการเข้าถึงเนื้อหา แต่การตอบสนองจากชุมชนชี้ให้เห็นว่าการก้าวข้ามช่องว่างของหุบเขาอันน่าพิศวงยังคงเป็นความท้าทายที่สำคัญสำหรับการยอมรับการสังเคราะห์เสียงด้วย AI อย่างแพร่หลาย