Dia 1.6B: โมเดลเปิดต้นฉบับแปลงข้อความเป็นเสียงพูดสร้างความประทับใจด้วยการสร้างบทสนทนาที่เป็นธรรมชาติและการควบคุมเสียง

BigGo Editorial Team
Dia 1.6B: โมเดลเปิดต้นฉบับแปลงข้อความเป็นเสียงพูดสร้างความประทับใจด้วยการสร้างบทสนทนาที่เป็นธรรมชาติและการควบคุมเสียง

Nari Labs ได้เปิดตัว Dia-1.6B ซึ่งเป็นโมเดลแปลงข้อความเป็นเสียงพูดแบบเปิดต้นฉบับที่กำลังสร้างกระแสในชุมชน AI ด้วยความสามารถในการสร้างบทสนทนาที่ฟังดูเป็นธรรมชาติอย่างน่าทึ่ง สิ่งที่ทำให้การเปิดตัวครั้งนี้น่าสนใจเป็นพิเศษคือมันถูกพัฒนาโดยทีมเล็กๆ เพียงสองวิศวกรในระยะเวลาสามเดือน แต่กลับให้คุณภาพที่สามารถแข่งขันกับผลิตภัณฑ์จากบริษัทใหญ่ๆ ได้

GitHub repository สำหรับโมเดลแปลงข้อความเป็นเสียง Dia แบบโอเพนซอร์สที่พัฒนาโดย Nari Labs
GitHub repository สำหรับโมเดลแปลงข้อความเป็นเสียง Dia แบบโอเพนซอร์สที่พัฒนาโดย Nari Labs

การสร้างบทสนทนาที่เป็นธรรมชาติ

ต่างจากโมเดลแปลงข้อความเป็นเสียงพูด (TTS) แบบดั้งเดิมที่สร้างบทพูดของแต่ละคนแยกกันแล้วนำมาเชื่อมต่อกัน Dia สร้างบทสนทนาทั้งหมดในครั้งเดียว วิธีการนี้ทำให้ได้บทสนทนาที่ฟังดูเป็นธรรมชาติมากขึ้น มีจังหวะ การพูดทับกัน และความต่อเนื่องทางอารมณ์ที่เหมาะสม สมาชิกในชุมชนประทับใจเป็นพิเศษกับความสามารถของโมเดลในการสร้างองค์ประกอบที่ไม่ใช่คำพูด เช่น เสียงหัวเราะ ไอ และกระแอม

นี่น่าประทับใจมาก เรากำลังเข้าใกล้ความฝันของผม: ความสามารถในการสร้างหนังสือเสียงที่เหมาะสมจากไฟล์ EPUB ไม่ใช่แค่เสียงหุ่นยนต์เสียงเดียวสำหรับทุกอย่าง แต่เป็นเสียงที่แตกต่างและคงที่สำหรับตัวละครแต่ละตัว

คุณภาพของผลลัพธ์จาก Dia ทำให้ผู้ใช้หลายคนประหลาดใจ โดยหลายคนแสดงความเห็นว่าตัวอย่างฟังดูเหมือนมนุษย์อย่างน่าทึ่ง บางคนสังเกตว่าตัวอย่างการสาธิตมีคุณภาพเหมือนละครเวที โดยผู้ใช้คนหนึ่งเปรียบเทียบสไตล์กับตัวละครจากรายการทีวี The Office การสังเกตนี้นำไปสู่การค้นพบของผู้แสดงความคิดเห็นอีกคนว่าตัวอย่างการสาธิตหนึ่งนั้นอิงจากฉากในรายการดังกล่าวจริงๆ

การควบคุมเสียงและอารมณ์

คุณสมบัติเด่นของ Dia คือการรองรับคำสั่งเสียง ซึ่งช่วยให้ผู้ใช้สามารถกำหนดเงื่อนไขผลลัพธ์ตามเสียงหรือโทนอารมณ์เฉพาะได้ ด้วยการให้คลิปเสียงตัวอย่าง ผู้ใช้สามารถให้โมเดลสร้างเสียงพูดในสไตล์เดียวกันต่อไปได้ ความสามารถนี้เปิดโอกาสสำหรับการสร้างเสียงตัวละครที่คงที่ในหนังสือเสียง พอดแคสต์ และงานสร้างสรรค์อื่นๆ

ผู้ใช้บางคนรายงานผลลัพธ์ที่หลากหลายกับคุณสมบัติการควบคุมอารมณ์ โดยคนหนึ่งกล่าวถึงข้อบกพร่องที่ไม่คาดคิด เช่น ดนตรีพื้นหลังปรากฏขึ้นเมื่อพยายามระบุโทนเสียงที่มีความสุข แม้จะมีข้อบกพร่องเหล่านี้บ้าง แต่โดยรวมแล้วความสามารถในการรักษาลักษณะเสียงที่คงที่ตลอดบทสนทนาดูเหมือนจะทำงานได้ดี

ความต้องการด้านฮาร์ดแวร์และการเข้าถึง

เวอร์ชันเต็มของ Dia ปัจจุบันต้องการ VRAM ประมาณ 10GB ในการทำงาน ซึ่งทำให้อยู่นอกเหนือการเข้าถึงของผู้ใช้ที่มีฮาร์ดแวร์ที่มีข้อจำกัดมากกว่า อย่างไรก็ตาม นักพัฒนาได้ระบุว่าพวกเขาวางแผนที่จะเปิดตัวเวอร์ชัน quantized ในอนาคตซึ่งจะลดความต้องการเหล่านี้ คล้ายกับวิธีที่โมเดล Bark ของ Suno พัฒนาจากการต้องการ VRAM 16GB เป็นการทำงานบน VRAM เพียง 4GB

สมาชิกในชุมชนได้เริ่มปรับโมเดลสำหรับการตั้งค่าฮาร์ดแวร์ที่แตกต่างกันแล้ว โดยผู้ใช้คนหนึ่งประสบความสำเร็จในการทำให้มันทำงานบน MacBook Pro M2 Pro อีกคนยืนยันว่ามันทำงานบนชิป M4 เช่นกัน นักพัฒนาได้กล่าวว่าในขณะที่ปัจจุบันต้องการการสนับสนุน GPU แต่การสนับสนุน CPU จะถูกเพิ่มในเร็วๆ นี้

คุณสมบัติทางเทคนิคของ Dia-1.6B

  • ขนาดโมเดล: 1.6 พันล้านพารามิเตอร์
  • ความต้องการด้านฮาร์ดแวร์: VRAM ประมาณ 10GB (จำเป็นต้องใช้ GPU)
  • แพลตฟอร์มที่ทดสอบแล้ว:
    • GPU ของ NVIDIA ที่ใช้ CUDA 12.6
    • MacBook Pro รุ่น M2 Pro (ผ่านการปรับแต่งโดยชุมชน)
    • Apple Silicon M4
  • ความเร็วในการสร้าง: ประมาณ 40 โทเค็น/วินาที บน GPU A4000 (86 โทเค็น = เสียง 1 วินาที)
  • คุณสมบัติหลัก:
    • สร้างบทสนทนาโดยตรง (ไม่ใช่การเย็บเสียงเดี่ยวเข้าด้วยกัน)
    • ปรับแต่งด้วยเสียงต้นแบบเพื่อควบคุมน้ำเสียง/อารมณ์
    • การสื่อสารแบบไม่ใช้คำพูด (เสียงหัวเราะ, การไอ, ฯลฯ)
    • รองรับผู้พูดหลายคน

ไทม์ไลน์การพัฒนา

  • สร้างโดยทีมวิศวกร 2 คน (1 คนทำงานเต็มเวลา, 1 คนทำงานพาร์ทไทม์)
  • พัฒนาในระยะเวลาประมาณ 3 เดือน
  • ไม่มีประสบการณ์กับโมเดลเสียงมาก่อนเริ่มโครงการนี้

การมีส่วนร่วมแบบโอเพนซอร์สและการพัฒนาในอนาคต

ในฐานะโครงการโอเพนซอร์สที่เผยแพร่ภายใต้ Apache License 2.0 Dia ได้เริ่มรับการมีส่วนร่วมจากชุมชนแล้ว ผู้ใช้ได้ส่ง pull requests เพื่อปรับปรุงความเข้ากันได้กับแพลตฟอร์มฮาร์ดแวร์ที่แตกต่างกัน และบางคนได้หารือเกี่ยวกับกลยุทธ์การใช้งาน Docker

นักพัฒนาได้กำหนดพื้นที่หลายแห่งสำหรับการปรับปรุงในอนาคต รวมถึงการสนับสนุน Docker การเพิ่มประสิทธิภาพความเร็วในการอนุมาน และการ quantization เพื่อประสิทธิภาพหน่วยความจำ พวกเขายังแสดงความสนใจในการขยายการสนับสนุนภาษานอกเหนือจากภาษาอังกฤษ ซึ่งสมาชิกในชุมชนหลายคนได้ร้องขอ

การเปิดตัว Dia แสดงถึงก้าวสำคัญอีกขั้นในการทำให้การเข้าถึงเทคโนโลยีการสังเคราะห์เสียงพูด AI ขั้นสูงเป็นประชาธิปไตยมากขึ้น โดยการเปิดให้ใช้งานโมเดลพารามิเตอร์ 1.6B อย่างเปิดเผย Nari Labs ได้มอบเครื่องมืออันทรงพลังให้กับนักวิจัยและนักพัฒนาที่สามารถสร้างบทสนทนาที่ฟังดูเหมือนมนุษย์อย่างน่าเชื่อถือโดยไม่จำเป็นต้องใช้ทรัพยากรของบริษัทเทคโนโลยีขนาดใหญ่

อ้างอิง: nari-labs/dia