เทคโนโลยีสังเคราะห์เสียงของ Google เผชิญความท้าทายจากปรากฏการณ์หุบเขาอันน่าพิศวง

BigGo Editorial Team

เทคโนโลยีสังเคราะห์เสียงของ Google เผชิญความท้าทายจากปรากฏการณ์หุบเขาอันน่าพิศวง

ในขณะที่ Google ยังคงผลักดันขีดจำกัดของการสังเคราะห์เสียงด้วย AI ผลตอบรับจากผู้ใช้ในระยะแรกชี้ให้เห็นว่าเทคโนโลยีนี้ยังคงต้องเผชิญกับปรากฏการณ์หุบเขาอันน่าพิศวง (uncanny valley) ซึ่งคุณภาพเสียงที่ใกล้เคียงมนุษย์มากเกินไปกลับสร้างประสบการณ์ที่ชวนอึดอัดให้กับผู้ฟัง

ความท้าทายของหุบเขาอันน่าพิศวง

ผลตอบรับจากชุมชนชี้ให้เห็นถึงความย้อนแย้งที่น่าสนใจในเทคโนโลยีการสร้างเสียงล่าสุดของ Google แม้จะมีความก้าวหน้าทางเทคนิคอย่างมากในการสร้างบทสนทนาที่ฟังดูเป็นธรรมชาติ แต่ผู้ใช้รายงานว่ารู้สึกไม่สบายใจกับบุคลิกภาพเทียมที่แฝงอยู่ในเสียงที่ถูกสร้างขึ้น ผู้ใช้คนหนึ่งระบุว่าประสบการณ์นี้สร้างความรู้สึกไม่สบายใจจนยากที่จะฟังแม้แต่การสาธิต 30 วินาที โดยผู้ฟังชอบการนำเสนอข้อมูลแบบตรงไปตรงมามากกว่าการสนทนาที่ถูกปรับแต่งให้เป็นส่วนตัวแบบเทียม

ความสำเร็จทางเทคนิค

แม้จะมีอุปสรรคทางจิตวิทยาเหล่านี้ แต่เทคโนโลยีการสังเคราะห์เสียงล่าสุดของ Google แสดงให้เห็นถึงความก้าวหน้าทางเทคนิคที่สำคัญ:

สามารถสร้างบทสนทนายาว 2 นาทีที่มีผู้พูดหลายคน
ความเร็วในการประมวลผลเร็วกว่าเวลาจริง 40 เท่า
ใช้การประมวลผลครั้งเดียวด้วยชิป TPU v5e เพียงตัวเดียว
เสร็จสิ้นภายในเวลาไม่เกิน 3 วินาที
การบีบอัดข้อมูลที่มีประสิทธิภาพสูงที่ 600 บิตต่อวินาที

เทคโนโลยีเบื้องหลังเสียงสังเคราะห์

ระบบนี้พัฒนาต่อยอดจากงานวิจัยก่อนหน้าซึ่งรวมถึง SoundStorm, SoundStream และ AudioLM โดยใช้:

สถาปัตยกรรม Transformer แบบพิเศษสำหรับจัดการข้อมูลแบบลำดับชั้น
ตัวเข้ารหัสเสียงแบบ neural สำหรับการบีบอัดที่มีประสิทธิภาพ
การฝึกฝนด้วยข้อมูลเสียงหลายแสนชั่วโมง
การปรับแต่งละเอียดด้วยชุดข้อมูลบทสนทนาคุณภาพสูงที่มีความไม่ราบรื่นในการพูดแบบสมจริง

ความปลอดภัยและความรับผิดชอบ

เพื่อจัดการกับความกังวลเกี่ยวกับการใช้งานในทางที่ผิด Google ได้นำเทคโนโลยีลายน้ำ SynthID มาใช้สำหรับเนื้อหาเสียงที่สร้างขึ้นด้วย AI ซึ่งสอดคล้องกับหลักการด้าน AI ของบริษัทเพื่อการใช้เทคโนโลยีอย่างรับผิดชอบ

การพัฒนาในอนาคต

Google กำลังทำงานอย่างแข็งขันเพื่อปรับปรุง:

การแสดงออกทางน้ำเสียง
คุณภาพทางเสียง
การควบคุมท่วงทำนองเสียงอย่างละเอียด
การผสานรวมกับสื่อวิดีโอ

แม้ว่าเทคโนโลยีนี้จะแสดงให้เห็นถึงศักยภาพในการประยุกต์ใช้สำหรับประสบการณ์การเรียนรู้และการเข้าถึงเนื้อหา แต่การตอบสนองจากชุมชนชี้ให้เห็นว่าการก้าวข้ามช่องว่างของหุบเขาอันน่าพิศวงยังคงเป็นความท้าทายที่สำคัญสำหรับการยอมรับการสังเคราะห์เสียงด้วย AI อย่างแพร่หลาย

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌