โมเดล AI ล่าสุดของ OpenAI ได้แสดงความสามารถอันน่าทึ่งในการระบุตำแหน่งที่ตั้งจากภาพถ่ายด้วยเบาะแสทางภาพที่น้อยมาก สร้างทั้งความหลงใหลและความตื่นตระหนกในหมู่ผู้ใช้และนักเคลื่อนไหวด้านความเป็นส่วนตัว ความสามารถใหม่นี้แสดงถึงความก้าวหน้าอย่างมีนัยสำคัญในการวิเคราะห์ภาพของ AI แต่ยังนำมาซึ่งความเสี่ยงที่อาจเกิดขึ้นต่อความเป็นส่วนตัวในยุคดิจิทัล
เทรนด์ GeoGuessr แบบใหม่
โมเดล o3 และ o4-mini ที่เพิ่งเปิดตัวโดย OpenAI ได้จุดประกายเทรนด์ไวรัลที่ผู้ใช้ท้าทายให้ AI ระบุตำแหน่งจากภาพถ่ายที่อัปโหลด คล้ายกับเกมออนไลน์ GeoGuessr ผู้ใช้ได้อัปโหลดภาพต่าง ๆ ตั้งแต่เมนูร้านอาหารไปจนถึงชั้นหนังสือในห้องสมุด และขอให้ AI ระบุว่าภาพถ่ายเหล่านั้นถูกถ่ายที่ไหน ผลลัพธ์นั้นแม่นยำอย่างน่าตกใจ โดยโมเดลสามารถระบุสถานที่เฉพาะได้อย่างถูกต้องจากรายละเอียดที่ดูเหมือนไม่สำคัญซึ่งมนุษย์ส่วนใหญ่อาจมองข้าม
โมเดล OpenAI ที่มีความสามารถในการวิเคราะห์ภาพ:
- โมเดล o3
- โมเดล o4-mini
ความสามารถทางเทคนิคเบื้องหลังความแม่นยำ
โมเดลใหม่มีความสามารถในการวิเคราะห์ภาพที่เพิ่มขึ้น ซึ่งช่วยให้สามารถวิเคราะห์ภาพได้อย่างครอบคลุม สามารถครอป หมุน และซูมเข้าในภาพถ่าย แม้แต่ภาพที่มีคุณภาพไม่ดี ที่น่าประทับใจยิ่งกว่านั้นคือ สามารถผสานภาพเข้ากับกระบวนการคิดได้โดยตรง ทำให้สามารถคิดด้วยข้อมูลภาพแทนที่จะเพียงแค่ประมวลผล สิ่งนี้ช่วยให้เกิดการผสมผสานอย่างซับซ้อนระหว่างการวิเคราะห์ภาพและข้อความ ซึ่งช่วยให้โมเดลสามารถสังเกตเบาะแสเล็ก ๆ น้อย ๆ เกี่ยวกับตำแหน่งที่ตั้งได้
ความสามารถหลักในการวิเคราะห์ภาพ:
- ตัด หมุน และซูมเข้าในรูปภาพ
- วิเคราะห์ภาพที่มีคุณภาพต่ำ
- ผสานภาพเข้ากับกระบวนการคิดอย่างเป็นขั้นตอน
- ระบุตำแหน่งที่ตั้งจากรายละเอียดภาพที่ละเอียดอ่อน
ผลกระทบด้านความเป็นส่วนตัวและความกังวลเรื่องการเปิดเผยข้อมูลส่วนตัว
ในขณะที่ผู้ใช้หลายคนพบว่าฟังก์ชันการค้นหาตำแหน่งย้อนกลับนี้น่าสนุก แต่มันก็สร้างความกังวลด้านความเป็นส่วนตัวอย่างร้ายแรง โดยเฉพาะเกี่ยวกับการเปิดเผยข้อมูลส่วนตัว (doxxing) ซึ่งเป็นการเปิดเผยตำแหน่งที่ตั้งหรือข้อมูลส่วนตัวของบุคคลต่อสาธารณะ ความสามารถในการระบุตำแหน่งที่แม่นยำจากภาพถ่ายทั่วไปที่โพสต์บนโซเชียลมีเดียอาจถูกนำไปใช้ในทางที่ผิดเพื่อติดตามบุคคลโดยไม่ได้รับความรู้หรือความยินยอม ภาพเซลฟี่ที่มีรายละเอียดพื้นหลังเพียงเล็กน้อยหรือโพสต์โซเชียลมีเดียที่ดูไม่มีพิษภัยอาจเปิดเผยข้อมูลมากกว่าที่ผู้โพสต์ตั้งใจ
ตัวอย่างความแม่นยำในโลกจริง
ความแม่นยำของโมเดลเหล่านี้ได้รับการพิสูจน์ในหลายตัวอย่างที่แชร์ทั่วโซเชียลมีเดีย ในกรณีหนึ่ง ChatGPT สามารถระบุห้องสมุดของ University of Melbourne ได้อย่างถูกต้องจากภาพที่ถูกครอปอย่างใกล้ชิดของหนังสือบนชั้น ในอีกกรณีหนึ่ง มันสรุปได้ว่าภาพถ่ายถูกถ่ายใน Suriname จากการสังเกตว่ารถยนต์มีพวงมาลัยอยู่ทางซ้ายแต่ขับบนถนนฝั่งซ้าย—ซึ่งเป็นการผสมผสานที่พบได้ในไม่กี่ประเทศทั่วโลก โมเดลยังสามารถระบุ speakeasy เฉพาะใน Williamsburg ได้จากเพียงหัวแรดสีม่วงที่ติดตั้งอยู่ในบาร์
การตอบสนองของ OpenAI ต่อความกังวล
OpenAI ได้ยอมรับถึงปัญหาความเป็นส่วนตัวที่อาจเกิดขึ้นจากความสามารถเหล่านี้ โฆษกของบริษัทกล่าวว่า บริษัทได้นำมาตรการป้องกันมาใช้เพื่อห้ามไม่ให้โมเดลระบุตัวบุคคลในภาพ และได้ฝึกให้ปฏิเสธคำขอข้อมูลส่วนตัวหรือข้อมูลที่ละเอียดอ่อน บริษัทเน้นย้ำว่าเทคโนโลยีการวิเคราะห์ภาพมีการใช้งานที่เป็นประโยชน์ในด้านต่าง ๆ เช่น การเข้าถึง การวิจัย และการตอบสนองต่อเหตุฉุกเฉิน
มาตรการรักษาความปลอดภัยด้านความเป็นส่วนตัวที่ OpenAI กล่าวถึง:
- โมเดลถูกฝึกให้ปฏิเสธคำขอข้อมูลส่วนตัว/ข้อมูลที่ละเอียดอ่อน
- มีมาตรการป้องกันเพื่อห้ามการระบุตัวตนของบุคคลในรูปภาพ
- มีการตรวจสอบอย่างต่อเนื่องเพื่อป้องกันการละเมิดนโยบาย
ข้อจำกัดของเทคโนโลยี
แม้จะมีประสิทธิภาพที่น่าประทับใจ แต่เทคโนโลยีนี้ก็ไม่ได้สมบูรณ์แบบ บทความทั้งสองชิ้นระบุว่าโมเดลไม่ได้ทายถูกทุกครั้ง และบางครั้งโมเดล o3 อาจติดอยู่ในลูปเมื่อพยายามระบุตำแหน่งที่ตั้ง ที่น่าสนใจคือ TechCrunch รายงานว่าโมเดล GPT-4o รุ่นก่อนหน้า ซึ่งขาดความสามารถในการวิเคราะห์ภาพเฉพาะ สามารถให้คำตอบเกี่ยวกับตำแหน่งที่คล้ายกันในหลายกรณี และบางครั้งทำได้เร็วกว่า o3
ผลกระทบต่อผู้ใช้โซเชียลมีเดีย
การพัฒนานี้เป็นการเตือนอย่างชัดเจนสำหรับผู้ใช้โซเชียลมีเดียให้ระมัดระวังมากขึ้นเกี่ยวกับภาพที่พวกเขาแชร์ต่อสาธารณะ แม้แต่รายละเอียดที่ดูเหมือนไม่สำคัญในพื้นหลังของภาพถ่ายก็อาจเปิดเผยข้อมูลตำแหน่งที่ตั้งได้เมื่อถูกวิเคราะห์โดยโมเดล AI ที่มีความซับซ้อนมากขึ้นเรื่อย ๆ เหล่านี้ สำหรับผู้ที่กังวลเกี่ยวกับความเป็นส่วนตัว การจำกัดปริมาณข้อมูลภาพที่แชร์ออนไลน์อาจกลายเป็นสิ่งสำคัญมากขึ้นเรื่อย ๆ เมื่อเทคโนโลยีเหล่านี้ยังคงพัฒนาต่อไป