BigGo Editorial Team
วิสัยทัศน์ Phi-3-vision ของ Microsoft: AI ขนาดพกพาที่มองเห็นและเข้าใจ

Microsoft เปิดตัว Phi-3-vision: การวิเคราะห์ภาพด้วย AI สำหรับอุปกรณ์พกพา

Microsoft ได้ขยายตระกูลโมเดลภาษาขนาดเล็ก Phi-3 ด้วยสมาชิกใหม่ที่น่าตื่นเต้น: Phi-3-vision โมเดล AI นวัตกรรมนี้นำความสามารถในการวิเคราะห์ภาพอันทรงพลังมาสู่อุปกรณ์มือถือ ถือเป็นก้าวสำคัญในการทำให้ AI ขั้นสูงสามารถเข้าถึงได้บนอุปกรณ์ที่ใช้ในชีวิตประจำวัน

ความมุ่งมั่นในนวัตกรรมของ Microsoft ที่แสดงออกผ่านการเปิดตัว Phi-3-vision เครื่องมือวิเคราะห์ภาพด้วย AI สำหรับอุปกรณ์มือถือ
ความมุ่งมั่นในนวัตกรรมของ Microsoft ที่แสดงออกผ่านการเปิดตัว Phi-3-vision เครื่องมือวิเคราะห์ภาพด้วย AI สำหรับอุปกรณ์มือถือ

คุณสมบัติหลักของ Phi-3-vision:

  • ความสามารถหลายโหมด: ต่างจากรุ่นพี่ที่รองรับเฉพาะข้อความ Phi-3-vision สามารถประมวลผลทั้งข้อความและภาพ
  • ขนาดกะทัดรัด: ด้วยพารามิเตอร์ 4.2 พันล้าน ออกแบบมาเพื่อประสิทธิภาพการทำงานบนอุปกรณ์มือถือ
  • การวิเคราะห์ภาพ: เชี่ยวชาญในการวิเคราะห์ภาพ แผนภูมิ และเนื้อหาที่เป็นภาพอื่นๆ
  • การตอบคำถาม: ผู้ใช้สามารถถามคำถามเกี่ยวกับภาพและได้รับคำตอบที่ลึกซึ้ง

ตระกูล Phi-3 ที่กำลังเติบโต

Phi-3-vision เข้าร่วมกับกลุ่มโมเดลภาษาขนาดเล็กที่มีความสามารถเพิ่มขึ้นเรื่อยๆ จาก Microsoft:

  1. Phi-3-mini: 3.8 พันล้านพารามิเตอร์
  2. Phi-3-vision: 4.2 พันล้านพารามิเตอร์
  3. Phi-3-small: 7 พันล้านพารามิเตอร์
  4. Phi-3-medium: 14 พันล้านพารามิเตอร์

ทำไมโมเดลขนาดเล็กจึงสำคัญ

แนวโน้มการพัฒนาโมเดล AI ที่เล็กลงและมีประสิทธิภาพมากขึ้นกำลังได้รับความนิยมเพิ่มขึ้น โมเดลขนาดกะทัดรัดเหล่านี้มีข้อดีหลายประการ:

  • ประสิทธิภาพการใช้ทรัพยากร: ต้องการพลังการประมวลผลและหน่วยความจำน้อยกว่า
  • เป็นมิตรกับอุปกรณ์มือถือ: สามารถทำงานได้โดยตรงบนสมาร์ทโฟนและแท็บเล็ต
  • คุ้มค่า: ความต้องการด้านการคำนวณที่ต่ำกว่าส่งผลให้ต้นทุนการดำเนินงานลดลง

Microsoft ประสบความสำเร็จแล้วกับแนวทางนี้ โมเดล Orca-Math ของพวกเขา ซึ่งเป็น AI ขนาดเล็กอีกตัวหนึ่ง มีรายงานว่าสามารถแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนได้ดีกว่าคู่แข่งที่มีขนาดใหญ่กว่า

ความพร้อมใช้งาน

  • Phi-3-vision พร้อมใช้งานในรูปแบบพรีวิวแล้ว
  • สมาชิกอื่นๆ ในตระกูล Phi-3 (mini, small และ medium) สามารถเข้าถึงได้ผ่านไลบรารีโมเดลของ Azure

แม้ว่า Phi-3-vision จะไม่สามารถสร้างภาพเหมือน DALL-E หรือ Stable Diffusion แต่ความสามารถในการเข้าใจและวิเคราะห์เนื้อหาที่เป็นภาพเปิดโอกาสที่น่าตื่นเต้นสำหรับแอปพลิเคชัน AI บนมือถือ ในขณะที่ Microsoft ยังคงผลักดันขอบเขตของสิ่งที่เป็นไปได้กับโมเดล AI ขนาดกะทัดรัด เราคาดว่าจะได้เห็นความสามารถของ AI ที่ซับซ้อนมากขึ้นเรื่อยๆ ในอุปกรณ์ที่เราใช้ในชีวิตประจำวัน