Gemini Live ขยายขีดความสามารถด้วยการรองรับภาษาที่สองและการแชร์หน้าจอ

BigGo Editorial Team

Gemini Live ขยายขีดความสามารถด้วยการรองรับภาษาที่สองและการแชร์หน้าจอ

Google ยังคงพัฒนาความสามารถของผู้ช่วย AI อย่างต่อเนื่อง โดยนำฟีเจอร์หลายภาษาและเครื่องมือปฏิสัมพันธ์ด้านภาพมาสู่ Gemini Live การอัปเดตเหล่านี้ถือเป็นก้าวสำคัญในการทำให้ผู้ช่วย AI มีความหลากหลายและเป็นประโยชน์มากขึ้นในสถานการณ์ประจำวัน ซึ่งต่อยอดจากวิสัยทัศน์ของ Google ในการสร้างปฏิสัมพันธ์ดิจิทัลที่เป็นธรรมชาติและเข้ากับบริบทมากขึ้น

การรองรับหลายภาษากำลังมาสู่ Gemini Live

Google กำลังเตรียมเปิดตัวการรองรับภาษาที่สองใน Gemini Live ซึ่งจะช่วยให้ผู้ใช้สามารถสนทนากับผู้ช่วย AI ในหลายภาษาระหว่างเซสชันเดียวกัน ฟีเจอร์นี้ซึ่งถูกพบในแอป Google เวอร์ชันเบต้า 16.9.39.sa.arm64 สำหรับ Android จะช่วยให้สามารถสนทนาในภาษาผสม เช่น Spanglish, Hinglish และอื่นๆ ตามหน้าสนับสนุนที่อัปเดตของ Google ระบุว่า Gemini Live รองรับมากกว่า 45 ภาษาแล้ว แม้ว่าผู้ใช้จะถูกจำกัดให้เพิ่มภาษารองเพียงหนึ่งภาษาในช่วงแรก เมื่อนำมาใช้งาน ฟีเจอร์นี้จะทำงานทั้งในส่วนซ้อนทับของ Gemini ภายในแอปพลิเคชัน และระหว่างการสนทนาใน Gemini Live ทำให้ผู้ช่วยเข้าถึงได้มากขึ้นสำหรับผู้ใช้ที่พูดได้หลายภาษา

ภาษาที่รองรับ:

รองรับมากกว่า 45 ภาษา
ตัวอย่างของการรองรับภาษาผสม: Spanglish, Hinglish, อิตาเลียน, ฝรั่งเศส
ปัจจุบันจำกัดเพียงหนึ่งภาษารองเท่านั้นต่อผู้ใช้

ความสามารถด้านปฏิสัมพันธ์ทางภาพใหม่

นอกเหนือจากการพัฒนาด้านภาษา Gemini Live กำลังได้รับฟีเจอร์ด้านภาพที่ทรงพลังใหม่ซึ่งขับเคลื่อนด้วยเทคโนโลยี Project Astra ของ DeepMind ในเร็วๆ นี้ ผู้ใช้จะสามารถชี้กล้องสมาร์ทโฟนไปที่วัตถุและพูดคุยเกี่ยวกับสิ่งนั้นกับผู้ช่วยแบบเรียลไทม์ได้ ตัวอย่างเช่น ระบบสามารถช่วยในการตัดสินใจด้านการออกแบบโดยวิเคราะห์ตัวอย่างสีสำหรับแจกันเซรามิกผ่านกล้อง ในขณะที่ยังคงสนทนาอย่างเป็นธรรมชาติเกี่ยวกับตัวเลือกต่างๆ นอกจากนี้ Gemini Live กำลังเพิ่มความสามารถในการแชร์หน้าจอที่ช่วยให้ผู้ช่วยสามารถจดจำและพูดคุยเกี่ยวกับเนื้อหาที่แสดงบนหน้าจอของผู้ใช้ ทำให้สามารถสนทนาตามบริบทเกี่ยวกับสิ่งที่กำลังดูอยู่ได้

คุณสมบัติใหม่ของ Gemini Live:

รองรับภาษาที่สอง (อยู่ในช่วงทดสอบเบต้า)
การวิเคราะห์วิดีโอแบบเรียลไทม์ผ่านกล้องสมาร์ทโฟน
ความสามารถในการแชร์หน้าจอพร้อมการสนทนาตามบริบท
ขับเคลื่อนด้วยเทคโนโลยี Project Astra ของ DeepMind

อนาคตของผู้ช่วย AI

การพัฒนาเหล่านี้บ่งบอกถึงวิสัยทัศน์ที่กว้างขึ้นของ Google สำหรับผู้ช่วย AI Sameer Samat หัวหน้าฝ่าย Android ของ Google ได้ระบุว่าฟีเจอร์สมาร์ทโฟนเหล่านี้เป็นเพียงจุดเริ่มต้น ซึ่งเป็นการบ่งบอกถึงสิ่งที่อาจเป็นไปได้กับแว่นตาอัจฉริยะในอนาคต การผสานความสามารถของ Project Astra เข้ากับ Gemini ถือเป็นก้าวสำคัญสู่สิ่งที่ Google มองว่าเป็นผู้ช่วย AI สากลที่สามารถประมวลผลเสียง ภาพ และบริบทสภาพแวดล้อมพร้อมกันได้ หน้าต่างบริบทที่ขยายนี้ช่วยให้ Gemini สามารถอ้างอิงข้อมูลที่เคยเห็นมาก่อน เช่น แผนภาพจากตำราเรียน เมื่อช่วยผู้ใช้แก้ปัญหาในภายหลัง

การสร้างสมดุลระหว่างนวัตกรรมกับความไว้วางใจของผู้ใช้

ในขณะที่ Google ผลักดันการผสานเทคโนโลยี AI บริษัทตระหนักถึงความจำเป็นในการสร้างสมดุลระหว่างนวัตกรรมกับความไว้วางใจของผู้บริโภค Samat เน้นย้ำการมุ่งเน้นที่ประโยชน์ของเทคโนโลยีมากกว่าตัวเทคโนโลยีเอง โดยสังเกตว่า Google มีเป้าหมายที่จะก้าวหน้าอย่างกล้าหาญแต่มีความรับผิดชอบ โดยอาศัยบทเรียนจากยุค Google Glass บริษัทกำลังให้ความสำคัญกับความโปร่งใสในการทำงานของความสามารถใหม่เหล่านี้ โดยเฉพาะอย่างยิ่งเกี่ยวกับความกังวลด้านความเป็นส่วนตัว แนวทางที่รอบคอบนี้อาจหมายความว่า Google อาจไม่ได้เป็นรายแรกที่นำความสามารถบางอย่างออกสู่ตลาด แม้ว่าจะมีเทคโนโลยีพร้อมแล้วก็ตาม

การอยู่ร่วมกันของ AI Agent และแอป

แม้จะมีความกังวลว่า AI agent อาจจะมาแทนที่แอปแบบดั้งเดิมในที่สุด Samat ยังคงมองโลกในแง่ดีเกี่ยวกับการอยู่ร่วมกันของทั้งสองสิ่ง เขามองว่า AI agent เป็นเหมือนผู้ช่วยส่วนตัวที่ช่วยให้ผู้ใช้ใช้บริการที่มีอยู่ได้ดีขึ้น มากกว่าจะเป็นตัวแทนของบริการเหล่านั้น มุมมองนี้บ่งชี้ว่า Google มองอนาคตของการประมวลผลบนมือถือว่าเป็นความร่วมมือระหว่าง AI agent และแอปพลิเคชันของบุคคลที่สาม โดยแต่ละส่วนมีบทบาทที่เสริมกันในประสบการณ์ของผู้ใช้

มองไปข้างหน้า

Google มองว่า AI เป็นเทคโนโลยีที่เปลี่ยนแปลงโลกเทียบเท่ากับการเปลี่ยนไปสู่การประมวลผลบนมือถือและคอมพิวเตอร์ส่วนบุคคล กลยุทธ์ของบริษัทดูเหมือนจะมุ่งเน้นที่การแสดงให้เห็นถึงประโยชน์ที่จับต้องได้สำหรับผู้ใช้มากกว่าการเน้นย้ำเทคโนโลยี AI เอง ตามที่ Samat กล่าวไว้ ผู้บริโภคเพียงแค่ต้องการรู้ว่าสิ่งเหล่านี้สามารถช่วยให้พวกเขาทำงานได้จริงหรือไม่ เป้าหมายสูงสุดดูเหมือนจะเป็นการสร้างฟีเจอร์ AI ที่ผสานรวมอย่างราบรื่นจนผู้ใช้ได้รับประโยชน์โดยไม่จำเป็นต้องตระหนักถึงเทคโนโลยีเบื้องหลัง

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌