ความทะเยอทะยานด้านปัญญาประดิษฐ์ของ Google กำลังขยายตัวอย่างมากขณะที่บริษัทเปิดเผยกลยุทธ์ระยะยาวสำหรับ Gemini โดยวางตำแหน่งให้พัฒนาเกินกว่าผู้ช่วย AI ธรรมดาไปสู่สิ่งที่พวกเขาเรียกว่าโมเดลจำลองโลก นี่เป็นการเปลี่ยนแปลงครั้งสำคัญในวิสัยทัศน์ของ Google เกี่ยวกับบทบาทของ AI ในชีวิตประจำวันของเรา ด้วยความสามารถที่อาจเปลี่ยนแปลงวิธีที่เราโต้ตอบกับเทคโนโลยีอย่างพื้นฐาน
ความทะเยอทะยานด้าน AI สากลของ Google
CEO ของ Google DeepMind Demis Hassabis ได้วางวิสัยทัศน์อันทะเยอทะยานสำหรับ Gemini โดยมีเป้าหมายเพื่อเปลี่ยนให้กลายเป็น AI สากลที่สามารถเข้าใจและจำลองแง่มุมต่างๆ ของโลกได้ แนวทางโมเดลจำลองโลกนี้จะช่วยให้ Gemini สามารถวางแผน จินตนาการประสบการณ์ใหม่ๆ และดำเนินการที่เหมาะสมตามบริบทแทนผู้ใช้บนอุปกรณ์หลายเครื่องได้ Hassabis เปรียบเทียบความสามารถนี้กับกระบวนการคิดของมนุษย์ โดยแนะนำว่า Gemini กำลังถูกพัฒนาให้คิดและใช้เหตุผลในรูปแบบที่ใกล้เคียงกับความฉลาดของมนุษย์มากขึ้น บริษัทรายงานว่าได้สังเกตเห็นสัญญาณเริ่มต้นของความเข้าใจโลกนี้ในการโต้ตอบของ Gemini กับสภาพแวดล้อมธรรมชาติ
การปรับปรุง Gemini 2.5 Flash และ Deep Think
หัวใจสำคัญของความก้าวหน้าด้าน AI ของ Google คือ Gemini 2.5 ซึ่งกำลังได้รับการอัพเกรดครั้งสำคัญ โมเดล 2.5 Flash ใหม่ ซึ่ง Google อธิบายว่าเป็นเวอร์ชันที่ทรงพลังที่สุดเท่าที่เคยมีมา มอบเกณฑ์มาตรฐานที่ดีขึ้นสำหรับการใช้เหตุผลและความสามารถในการทำงานกับข้อมูลหลายรูปแบบ ขณะเดียวกันก็เพิ่มประสิทธิภาพในการประมวลผลโค้ดและการจัดการบริบทยาวๆ การปรับปรุงเหล่านี้กำลังถูกนำมาให้ผู้ใช้ Gemini ทุกคนผ่านแอพ รวมถึงผู้ใช้ระดับองค์กรผ่าน Vertex AI และนักพัฒนาผ่าน Google AI Studio
นอกจากนี้ Google กำลังแนะนำโหมดการใช้เหตุผลใหม่ที่เรียกว่า Deep Think ซึ่งออกแบบมาเพื่อผลักดันให้ Gemini 2.5 Pro พิจารณาสมมติฐานหลายข้อก่อนที่จะให้คำตอบ คุณสมบัตินี้กำลังอยู่ในระหว่างการทดสอบอย่างกว้างขวาง รวมถึงการประเมินความปลอดภัยระดับสูงและการปรึกษากับผู้เชี่ยวชาญ ก่อนที่จะมีการวางแผนเปิดตัวในวงกว้าง ความสามารถในการคิดเหล่านี้กำลังมาสู่ Live API ด้วย ซึ่งช่วยปรับปรุงความสามารถของ Gemini ในการจัดการกับงานที่ซับซ้อน
การอัปเดตที่สำคัญของ Gemini 2.5:
- 2.5 Flash: การปรับปรุงความสามารถในการให้เหตุผล, การทำงานกับข้อมูลหลายรูปแบบ, การประมวลผลโค้ด และการจัดการบริบทที่ยาว
- Deep Think: โหมดการให้เหตุผลใหม่สำหรับการพิจารณาสมมติฐานหลายข้อ (อยู่ในช่วงทดสอบ)
- การควบคุมเสียงแบบดั้งเดิม: การปรับแต่งโทนเสียง, สำเนียง และรูปแบบการพูด
- คุณสมบัติเสียงทดลอง: Affective Dialogue และ Proactive Audio
- การปรับปรุงการป้องกันความปลอดภัยต่อการโจมตีแบบ prompt injection
![]() |
---|
การปรับปรุง Gemini AI แสดงบน Samsung Galaxy S25 Ultra สะท้อนให้เห็นถึงการผสานรวมคุณสมบัติขั้นสูง |
การผสานโครงการ: Mariner และ Astra
กลยุทธ์ของ Google เกี่ยวข้องกับการผสานโครงการสำคัญสองโครงการเข้ากับ Gemini เพื่อให้บรรลุวิสัยทัศน์โมเดลจำลองโลก โครงการ Mariner ซึ่งเปิดเผยครั้งแรกในเดือนธันวาคม ได้พัฒนาให้จัดการงานพร้อมกันได้ถึงสิบงาน เอเจนต์ของโครงการสามารถค้นคว้าข้อมูล จองกิจกรรม และสำรวจหัวข้อต่างๆ ได้พร้อมกัน นำความสามารถในการทำงานหลายอย่างที่ทรงพลังซึ่ง Google มองว่าจำเป็นสำหรับวิวัฒนาการของ Gemini
โครงการ Astra ซึ่งประกาศการผสานเข้ากับ Gemini ในเดือนมีนาคม มีส่วนช่วยในการเข้าใจวิดีโอ การแชร์หน้าจอ และฟังก์ชันความจำ Google ได้นำข้อเสนอแนะจากการใช้งาน Astra ใน Gemini Live มาปรับปรุงประสบการณ์ใน Gemini Live, Search และ Live API การผสมผสานระหว่างความสามารถในการทำงานหลายอย่างของ Mariner และความเข้าใจด้านภาพของ Astra ถือเป็นก้าวสำคัญสู่เป้าหมาย AI สากลของ Google
การผสานโครงการ:
- โครงการ Mariner: ความสามารถในการทำงานหลายอย่างพร้อมกัน (รองรับการทำงานพร้อมกันสูงสุด 10 งาน)
- โครงการ Astra: ความเข้าใจวิดีโอ การแชร์หน้าจอ และฟังก์ชันความจำ
- รองรับ MCP (Model Context Protocol) สำหรับการผสานเครื่องมือโอเพนซอร์สที่ง่ายขึ้น
คุณสมบัติเสียงและความปลอดภัยที่เพิ่มขึ้น
Gemini 2.5 ยังได้รับการควบคุมเอาต์พุตเสียงแบบเนทีฟ ซึ่งช่วยให้นักพัฒนาสามารถปรับแต่งวิธีการพูดของ AI โดยเปลี่ยนโทนเสียง สำเนียง และรูปแบบการพูดได้ การอัปเดตนี้นำคุณสมบัติทดลองมาใช้ รวมถึง Affective Dialogue ซึ่งช่วยให้ Gemini สามารถตรวจจับอารมณ์ในเสียงของผู้ใช้และตอบสนองได้อย่างเหมาะสม และ Proactive Audio ซึ่งช่วยให้ Gemini สามารถละเว้นเสียงพื้นหลังขณะรอเวลาที่เหมาะสมในการตอบสนอง
ในด้านความปลอดภัย Google กำลังเสริมความแข็งแกร่งให้กับ Gemini 2.5 ด้วยการป้องกันที่เพิ่มขึ้นต่อคำสั่งที่ฝังมาอย่างเป็นอันตรายและการโจมตีแบบฉีดคำสั่งทางอ้อม ซึ่งตอบสนองต่อความกังวลที่เพิ่มขึ้นเกี่ยวกับช่องโหว่ของ AI
เครื่องมือและการสนับสนุนนักพัฒนา
ด้วยการตระหนักถึงความสำคัญของระบบนิเวศนักพัฒนา Google กำลังให้บทสรุปที่มีข้อมูลเชิงลึกเพื่อช่วยให้นักพัฒนาเข้าใจกระบวนการคิดและการกระทำของ Gemini ซึ่งช่วยให้การแก้ไขข้อบกพร่องง่ายขึ้น คุณสมบัติควบคุมต้นทุนผ่านงบประมาณการคิดกำลังจะมาถึง Gemini 2.5 Pro ในอีกไม่กี่สัปดาห์ข้างหน้า พร้อมกับโมเดลที่พร้อมใช้งานทั่วไป
นอกจากนี้ Gemini 2.5 กำลังเพิ่มการสนับสนุน Model Context Protocol (MCP) ซึ่งช่วยให้การผสานเครื่องมือโอเพนซอร์สเข้ากับโครงการ Gemini ง่ายขึ้น Google ได้ระบุว่ากำลังสำรวจเซิร์ฟเวอร์ MCP และเครื่องมือโฮสต์เพิ่มเติมเพื่อสนับสนุนชุมชนนักพัฒนาต่อไป
ในขณะที่ Google ยังคงพัฒนาความสามารถของ Gemini บริษัทดูเหมือนจะกำลังสร้างความสมดุลระหว่างนวัตกรรมที่รวดเร็วกับการทดสอบอย่างรอบคอบและการประเมินความปลอดภัย โดยเฉพาะอย่างยิ่งสำหรับคุณสมบัติที่ซับซ้อนมากขึ้นเช่น Deep Think แนวทางนี้สะท้อนให้เห็นถึงความเดิมพันสูงในการแข่งขันด้าน AI ซึ่ง Google กำลังทำงานเพื่อรักษาความได้เปรียบในการแข่งขันขณะที่จัดการกับความกังวลเกี่ยวกับความปลอดภัยและความรับผิดชอบของ AI