ในการผสมผสานอันน่าทึ่งระหว่างปัญญาประดิษฐ์และชีววิทยาทางทะเล Google ได้เริ่มโครงการอันทะเยอทะยานเพื่อถอดรหัสและอาจสื่อสารกับภาษาของโลมา โครงการนวัตกรรมนี้รวมความสามารถด้าน AI ของ Google เข้ากับฮาร์ดแวร์เฉพาะทางเพื่อช่วยให้นักวิจัยเข้าใจสิ่งมีชีวิตที่ฉลาดที่สุดชนิดหนึ่งของโลกได้ดียิ่งขึ้น
โมเดล AI DolphinGemma
Google ได้พัฒนาโมเดล AI เฉพาะทางที่เรียกว่า DolphinGemma ซึ่งออกแบบมาโดยเฉพาะเพื่อวิเคราะห์และตีความเสียงร้องของโลมา โดยอิงจากโมเดล AI Gemma ที่มีอยู่แล้วของ Google โมเดล DolphinGemma ได้รับการฝึกฝนด้วยชุดข้อมูลเสียงโลมาจำนวนมากที่รวบรวมมาเกือบสี่ทศวรรษโดย Wild Dolphin Project (WDP) โมเดลนี้ประมวลผลลำดับเสียงของโลมาเพื่อระบุรูปแบบและโครงสร้าง และในที่สุดก็ทำนายเสียงที่น่าจะตามมาในลำดับ—คล้ายกับวิธีที่โมเดลภาษาทำงานกับข้อความของมนุษย์
องค์ประกอบสำคัญของโครงการสื่อสารกับโลมา:
- โมเดล AI: DolphinGemma (400 ล้านพารามิเตอร์)
- ฮาร์ดแวร์: โทรศัพท์ Pixel (ปัจจุบันใช้ Pixel 6 และจะอัปเกรดเป็น Pixel 9 ในปี 2025)
- พาร์ทเนอร์วิจัย: Wild Dolphin Project, Georgia Institute of Technology
- เทคโนโลยี: SoundStream tokenizer, CHAT (Cetacean Hearing Augmentation Telemetry)
- แหล่งข้อมูล: การบันทึกเสียงโลมาย้อนหลัง 40 ปีจาก Wild Dolphin Project
ความซับซ้อนของภาษาโลมา
โลมาสื่อสารผ่านเสียงที่แตกต่างกันหลายแบบ รวมถึงเสียงหวีด เสียงร้อง และเสียงคลิกฟู่ เสียงแต่ละประเภทเหล่านี้สอดคล้องกับบริบทและพฤติกรรมที่แตกต่างกัน ตัวอย่างเช่น โลมาใช้เสียงหวีดเฉพาะตัวที่ทำหน้าที่คล้ายกับชื่อ ช่วยให้แม่หาลูกของพวกมันได้ เสียงคลิกฟู่มักเกิดขึ้นระหว่างการเกี้ยวพาหรือการไล่ล่าฉลาม ในขณะที่เสียงร้องแบบเป็นชุดมักเกิดขึ้นระหว่างการเผชิญหน้า โครงสร้างและรูปแบบในเสียงเหล่านี้บ่งชี้ถึงระบบการสื่อสารที่ซับซ้อนซึ่งนักวิจัยกระตือรือร้นที่จะถอดรหัส
โทรศัพท์ Pixel เป็นเครื่องมือวิจัยภาคสนาม
สิ่งที่ทำให้โครงการนี้มีนวัตกรรมเป็นพิเศษคือการใช้สมาร์ทโฟน Pixel ของ Google เป็นอุปกรณ์หลักในการบันทึกและประมวลผล นักวิจัยภาคสนามกำลังใช้โทรศัพท์ Pixel เพื่อบันทึกเสียงโลมาใต้น้ำแบบเรียลไทม์ โทรศัพท์จะประมวลผลการบันทึกผ่าน SoundStream tokenizer ของ Google ทำให้สามารถป้อนเสียงเข้าสู่โมเดล DolphinGemma ได้โดยตรงในขณะที่กำลังบันทึก ปัจจุบันนักวิจัยกำลังใช้ Pixel 6 โดยมีแผนที่จะอัปเกรดเป็น Pixel 9 สำหรับฤดูกาลวิจัยในช่วงฤดูร้อนปี 2025
ระบบ CHAT สำหรับการสื่อสารสองทาง
นอกเหนือจากการฟังและวิเคราะห์แล้ว โครงการนี้ยังมีเป้าหมายที่จะสร้างการสื่อสารสองทางขั้นพื้นฐานกับโลมา Wild Dolphin Project ได้ร่วมมือกับ Georgia Tech เพื่อพัฒนา CHAT (Cetacean Hearing Augmentation Telemetry) ซึ่งเป็นระบบที่สร้างเสียงหวีดสังเคราะห์ที่เชื่อมโยงกับวัตถุเฉพาะที่โลมาชื่นชอบ เช่น สาหร่ายทะเล หญ้าทะเล หรือผ้าพันคอที่นักวิจัยใช้ ความหวังคือโลมาจะเลียนแบบเสียงเหล่านี้เพื่อขอสิ่งของเหล่านี้ สร้างรูปแบบการสื่อสารระหว่างสปีชีส์อย่างง่าย
ประโยชน์ในทางปฏิบัติของเทคโนโลยีมือถือ
แนวทางของ Google มอบข้อได้เปรียบที่สำคัญในทางปฏิบัติสำหรับการวิจัยภาคสนาม ด้วยการปรับ DolphinGemma ให้ทำงานโดยตรงบนอุปกรณ์ Pixel โครงการนี้ลดความจำเป็นในการใช้ฮาร์ดแวร์เฉพาะทางอย่างมาก ปรับปรุงความน่าเชื่อถือของระบบ ลดการใช้พลังงาน และลดต้นทุน—ซึ่งทั้งหมดเป็นปัจจัยสำคัญสำหรับนักวิจัยที่ทำงานในสภาพแวดล้อมทางทะเลที่ห่างไกล โมเดลพารามิเตอร์ 400 ล้านตัวนี้ถูกออกแบบมาโดยเฉพาะให้ทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์มือถือที่ใช้ในภาคสนาม
แนวทางวิทยาศาสตร์แบบเปิด
ด้วยการตระหนักถึงผลกระทบในวงกว้างที่อาจเกิดขึ้นจากการวิจัยนี้ Google วางแผนที่จะแบ่งปัน DolphinGemma เป็นโมเดลแบบเปิดในช่วงฤดูร้อนนี้ แม้ว่า AI จะได้รับการฝึกฝนเป็นหลักจากเสียงของโลมาจุดแอตแลนติก Google ระบุว่ายังคงมีประโยชน์สำหรับการศึกษาสปีชีส์อื่น ๆ เช่น โลมาจมูกขวดหรือโลมาสปินเนอร์ แนวทางแบบเปิดนี้มีเป้าหมายเพื่อเร่งการวิจัยทั่วโลกและส่งเสริมความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับสัตว์เลี้ยงลูกด้วยนมทางทะเลที่มีความฉลาดสูงเหล่านี้
ทิศทางในอนาคต
เป้าหมายสูงสุดของโครงการนี้ขยายไปไกลกว่าแค่การทำความเข้าใจรูปแบบการสื่อสารของโลมา นักวิจัยหวังว่าจะสามารถสร้างเสียงที่โลมาสามารถเข้าใจและตอบสนองได้ในที่สุด ซึ่งอาจนำไปสู่การสร้างรูปแบบการสื่อสารข้ามสปีชีส์ขั้นพื้นฐาน ระบบ CHAT ที่ใช้ Pixel 9 ที่กำลังจะมาถึงจะสามารถรันทั้ง deep learning และ template matching ไปพร้อมกัน ซึ่งอาจช่วยให้เกิดการมีปฏิสัมพันธ์กับโลมาที่ราบรื่นมากขึ้นในช่วงฤดูกาลวิจัยปี 2025