เครื่องมือสร้างเสียง AI Fugatto ของ NVIDIA ได้รับเสียงตอบรับที่หลากหลายจากชุมชนด้านเสียง

BigGo Editorial Team
เครื่องมือสร้างเสียง AI Fugatto ของ NVIDIA ได้รับเสียงตอบรับที่หลากหลายจากชุมชนด้านเสียง

การก้าวล่าสุดของ NVIDIA สู่การสร้างเสียงด้วย AI ได้จุดประเด็นการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี เมื่อโมเดล Fugatto ตัวใหม่ของพวกเขาอ้างว่าสามารถจัดการกับเสียงได้อย่างยืดหยุ่นไม่เคยมีมาก่อน แต่กลับเผชิญกับการตรวจสอบอย่างละเอียดในด้านประสิทธิภาพการใช้งานจริง

ความสามารถทางเทคนิคเทียบกับความเป็นจริง

ในขณะที่ NVIDIA วางตำแหน่ง Fugatto (Foundational Generative Audio Transformer Opus I) ว่าเป็นเครื่องมือปฏิวัติวงการที่สามารถจัดการเสียงดนตรี เสียงพูด และเสียงต่างๆ ผ่านคำสั่งข้อความ แต่เสียงตอบรับในระยะแรกจากชุมชนชี้ให้เห็นถึงช่องว่างที่มีนัยสำคัญระหว่างความสามารถทางทฤษฎีและผลลัพธ์ในทางปฏิบัติ ผู้เชี่ยวชาญด้านเสียงและผู้สนใจชี้ให้เห็นปัญหาด้านคุณภาพเสียง โดยเฉพาะเสียงดนตรีที่ไม่ชัดเจนและเสียงเครื่องดนตรีที่ฟังดูไม่เป็นธรรมชาติ

คุณสมบัติหลักของ Fugatto:

  • รองรับการป้อนข้อมูลทั้งข้อความและเสียง
  • ใช้เทคนิค ComposableART สำหรับการผสมผสานคำสั่ง
  • ความสามารถในการประมวลผลเสียงแบบหลากหลายงานพร้อมกัน
  • การสร้างเสียงพูด ดนตรี และเอฟเฟกต์เสียง
  • การแปลงเสียงแบบเรียลไทม์

ความกังวลของชุมชนเกี่ยวกับคุณภาพเสียงที่สร้างจาก AI

ชุมชนด้านเสียงได้แสดงความกังวลอย่างมากเกี่ยวกับคุณภาพของเนื้อหาที่สร้างจาก AI โดยเน้นย้ำถึงข้อจำกัดในปัจจุบันของการผลิตเสียงสังเคราะห์ ดังที่สมาชิกชุมชนคนหนึ่งได้แสดงความเห็นว่า:

แม้ว่านี่อาจเป็นการก้าวกระโดดทางเทคโนโลยี แต่ตัวอย่างที่แสดงให้ฟังไม่มีชิ้นไหนที่ฟังดูดีเลย ทุกแง่มุมของเสียงที่สร้างออกมาล้วนมีปัญหา ดนตรีฟังดูไม่ชัด และการมิกซ์เสียงไม่ดี

ผู้ฟังกำลังสำรวจเสียงที่สร้างขึ้นโดย AI ผ่านหูฟัง
ผู้ฟังกำลังสำรวจเสียงที่สร้างขึ้นโดย AI ผ่านหูฟัง

ผลกระทบต่ออุตสาหกรรมสร้างสรรค์

ผู้สร้างสรรค์มืออาชีพแสดงความสงสัยเกี่ยวกับวิธีการของโมเดลในการจัดการงานสร้างสรรค์ การถกเถียงมุ่งเน้นไปที่ว่าการแก้ปัญหาที่ขับเคลื่อนด้วยวิศวกรรมจะสามารถจับความละเอียดอ่อนของความคิดสร้างสรรค์ของมนุษย์ได้เพียงพอหรือไม่ แม้ว่า Fugatto จะนำเสนอฟีเจอร์อย่าง ComposableART สำหรับการผสมผสานคำสั่งเสียงต่างๆ แต่บางคนเถียงว่าความสามารถทางเทคนิคเพียงอย่างเดียวไม่ได้รับประกันผลลัพธ์ทางดนตรีที่น่าพอใจ

สภาพการแข่งขันในตลาด

ที่น่าสนใจคือ สมาชิกในชุมชนได้ชี้ให้เห็นถึงโซลูชันที่มีอยู่แล้วในตลาด เช่น Suno ซึ่งพวกเขาอ้างว่าให้ผลลัพธ์ทางดนตรีที่ดีกว่า สิ่งนี้บ่งชี้ว่าแม้แนวทางแบบครอบคลุมของ Fugatto จะเป็นนวัตกรรม แต่เครื่องมือเฉพาะทางอาจให้ผลลัพธ์ที่เหนือกว่าในงานสร้างเสียงเฉพาะด้าน

ศักยภาพในอนาคต

แม้จะมีข้อจำกัดในปัจจุบัน วิสัยทัศน์ของ NVIDIA ในการเรียนรู้แบบไม่มีผู้สอนในการสังเคราะห์เสียงถือเป็นก้าวสำคัญ ความสามารถของเทคโนโลยีในการผสมผสานองค์ประกอบเสียงต่างๆ ผ่านคำสั่งข้อความอย่างง่าย อาจปฏิวัติกระบวนการผลิตเสียงในอนาคต แม้ว่าการใช้งานในปัจจุบันจะยังไม่ถึงมาตรฐานระดับมืออาชีพก็ตาม

อ้างอิง: Now Hear This: World's Most Flexible Sound Machine Debuts