Microsoft ได้ก้าวไปอีกขั้นในวงการเกมที่ขับเคลื่อนด้วย AI ด้วยโมเดลทดลองล่าสุดที่เปลี่ยนแปลงวิธีการเรนเดอร์เกมคลาสสิกในอนาคต บริษัทเทคโนโลยียักษ์ใหญ่นี้นำเสนอแนวทางใหม่ที่แสดงให้เห็นทั้งศักยภาพและข้อจำกัดในปัจจุบันของ generative AI ในความบันเทิงเชิงโต้ตอบ
WHAMM: โมเดล AI เกมใหม่ของ Microsoft
Microsoft เพิ่งเปิดตัว WHAMM (World and Human Action MaskGIT Model) ซึ่งเป็นระบบ generative AI ที่ออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันเกมแบบเรียลไทม์ โมเดลใหม่นี้แสดงถึงความก้าวหน้าที่สำคัญเมื่อเทียบกับรุ่นก่อนหน้า WHAM-1.6B ซึ่งเปิดตัวในเดือนกุมภาพันธ์ การสาธิตความสามารถของ WHAMM ที่น่าประทับใจที่สุดมาในรูปแบบของเกมคลาสสิคอายุ 28 ปีอย่าง Quake II ที่ผู้ใช้สามารถเล่นได้โดยตรงในเว็บเบราว์เซอร์ผ่าน Copilot Labs แม้ว่าเทคโนโลยีนี้ยังอยู่ในขั้นทดลอง แต่ก็แสดงให้เห็นว่า AI อาจเปลี่ยนแปลงประสบการณ์การเล่นเกมในที่สุดด้วยการสร้างเนื้อหาภาพแบบเรียลไทม์ตามการโต้ตอบของผู้เล่น
![]() |
---|
อินเทอร์เฟซ WHAMM AI สำหรับการสร้างเกมแบบเรียลไทม์ใน Quake II |
นวัตกรรมทางเทคนิคเบื้องหลัง WHAMM
นวัตกรรมทางเทคนิคที่สำคัญใน WHAMM อยู่ที่การแยกตัวออกจากโมเดล autoregressive แบบดั้งเดิม ซึ่งสร้างโทเค็นแบบลำดับ แทนที่จะเป็นเช่นนั้น WHAMM ใช้สถาปัตยกรรมแบบ MaskGIT ที่สามารถสร้างโทเค็นภาพทั้งหมดสำหรับเฟรมแบบขนาน การเปลี่ยนแปลงสถาปัตยกรรมนี้ช่วยลดจำนวนการส่งผ่านไปข้างหน้าที่จำเป็นและลดการพึ่งพาระหว่างองค์ประกอบ ทำให้สามารถแสดงผลภาพได้เร็วขึ้นจนเข้าใกล้การตอบสนองแบบเรียลไทม์ ความละเอียดยังได้รับการปรับปรุงจาก 300 x 180 พิกเซลของโมเดลก่อนหน้าเป็น 640 x 360 พิกเซลที่มีรายละเอียดมากขึ้น ให้ภาพที่ชัดเจนขึ้นในขณะที่ยังคงใช้สถาปัตยกรรม encoder-decoder เดิม
![]() |
---|
สถาปัตยกรรมทางเทคนิคของโมเดล WHAM ที่แสดงการออกแบบนวัตกรรม |
กระบวนการฝึกฝนที่เร่งความเร็ว
สิ่งที่น่าทึ่งที่สุดคือการลดเวลาในการฝึกฝนที่จำเป็นสำหรับ WHAMM อย่างมาก ในขณะที่โมเดล WHAM-1.6B ก่อนหน้านี้ต้องใช้ข้อมูลการเล่นเกมเจ็ดปีสำหรับการฝึกฝน นักพัฒนาสอน WHAMM โดยใช้เวลาเพียงกว่าหนึ่งสัปดาห์ของการเล่น Quake II ที่คัดสรรมาแล้ว ประสิทธิภาพนี้เกิดขึ้นได้โดยการใช้ข้อมูลจากผู้ทดสอบเกมมืออาชีพที่มุ่งเน้นเฉพาะด่านเดียวของเกม นี่แสดงถึงความก้าวหน้าที่สำคัญในประสิทธิภาพการฝึกฝนโมเดล AI ซึ่งอาจทำให้ระบบที่คล้ายคลึงกันมีความเป็นไปได้มากขึ้นในการพัฒนาในอนาคต
ข้อจำกัดในปัจจุบันและประสบการณ์ผู้ใช้
แม้จะมีความก้าวหน้าเหล่านี้ แต่ WHAMM ยังคงอยู่ในขั้นทดลองอย่างแน่นอน การสาธิตทำงานที่อัตราเฟรมต่ำมาก แทบจะถึงเลขหลักต่ำถึงกลางสิบ และมีความล่าช้าในการป้อนข้อมูลที่สังเกตได้ Microsoft เน้นย้ำว่าการสาธิตนี้ควรถูกมองว่าเป็นการแสดงเทคโนโลยีมากกว่าผลิตภัณฑ์เกมที่เสร็จสมบูรณ์ ผู้เล่นสามารถทำการกระทำพื้นฐานเช่น การยิง การกระโดด การหมอบ และการโต้ตอบกับศัตรู แต่ประสบการณ์ถูกขัดขวางด้วยข้อจำกัดมากมาย การโต้ตอบกับศัตรูดูเบลอ การติดตามสุขภาพและสถิติความเสียหายมักไม่ถูกต้อง และโมเดลมีความยาวบริบทที่จำกัด—ลืมวัตถุที่ออกจากมุมมองของผู้เล่นนานกว่าเก้าในสิบของวินาที นอกจากนี้ การสาธิตถูกจำกัดอยู่ที่ด่านเดียว เนื่องจากความพยายามที่จะก้าวหน้าต่อไปจะทำให้การสร้างภาพหยุดชะงักเนื่องจากขาดข้อมูลการฝึกฝนที่บันทึกไว้
ข้อมูลทางเทคนิคของ WHAMM:
- ความละเอียด: 640 x 360 พิกเซล (เพิ่มขึ้นจาก 300 x 180 ในรุ่นก่อนหน้า)
- สถาปัตยกรรม: การสร้างโทเค็นแบบขนานในรูปแบบ MaskGIT
- ข้อมูลฝึกฝน: การเล่นเกม Quake II ที่คัดสรรมาเป็นเวลาหนึ่งสัปดาห์ (ลดลงจากเจ็ดปีในรุ่นก่อนหน้า)
- ข้อจำกัดปัจจุบัน: อัตราเฟรมต่ำ (อยู่ที่ประมาณ 10 กว่า FPS), มีความหน่วงของอินพุตสูง, หน่วยความจำบริบทจำกัด (0.9 วินาที), จำกัดอยู่ในด่านเดียว
AI ในอุตสาหกรรมสร้างสรรค์: การเสริมประสิทธิภาพ vs. การแทนที่
WHAMM เกิดขึ้นท่ามกลางการอภิปรายที่กว้างขวางเกี่ยวกับบทบาทของ AI ในอุตสาหกรรมสร้างสรรค์ ข้อถกเถียงล่าสุด เช่น การสร้าง AI ที่ได้รับแรงบันดาลใจจาก Ghibli ของ OpenAI ได้เน้นย้ำถึงความสงสัยของสาธารณชนว่า AI สามารถจำลองศิลปะของมนุษย์ได้จริงหรือไม่ Microsoft วาง WHAMM ไม่ใช่เป็นการแทนที่ความคิดสร้างสรรค์ของมนุษย์ แต่เป็นเครื่องมือเพื่อเสริมประสิทธิภาพ—ปรัชญาที่คล้ายกับเทคโนโลยี ACE ของ Nvidia ซึ่งเพิ่มประสิทธิภาพ NPC ที่เหมือนจริงในเกมเช่น inZOI การนำไปใช้ในอุดมคติจะเห็น AI เสริมประสิทธิภาพมากกว่าการแทนที่งานสร้างสรรค์ เพิ่มองค์ประกอบที่ไดนามิกในขณะที่รักษาสัมผัสของมนุษย์ที่ทำให้เกมน่าสนใจ
ผลกระทบในอนาคตต่อสื่อแบบโต้ตอบ
มองไปข้างหน้า Microsoft มองว่า WHAMM และเทคโนโลยีที่คล้ายกันจะช่วยให้เกิดรูปแบบสื่อแบบโต้ตอบรูปแบบใหม่ทั้งหมด ในขณะที่เกมที่สร้างโดย AI ทั้งหมดยังคงอยู่ในอนาคตมากกว่าความเป็นจริงในทันที นวัตกรรมเช่น WHAMM บ่งชี้ว่าพวกมันอาจเกิดขึ้นภายในไม่กี่ปีข้างหน้า รุ่นในอนาคตน่าจะแก้ไขข้อบกพร่องในปัจจุบันในขณะที่เสริมพลังให้นักพัฒนาเกมสร้างเรื่องราวที่น่าดึงดูดมากขึ้นด้วยเครื่องมือที่ขับเคลื่อนด้วย AI เทคโนโลยีนี้แสดงให้เห็นถึงการมองเห็นที่น่าสนใจว่า generative AI อาจเปลี่ยนแปลงไม่เพียงแค่ลักษณะของเกม แต่รวมถึงวิธีการทำงานขั้นพื้นฐานและการตอบสนองต่อการกระทำของผู้เล่น