Apple ได้เปิดตัว CA-1M ชุดข้อมูลที่ครอบคลุมสำหรับการตรวจจับวัตถุ 3 มิติภายในอาคาร พร้อมกับ Cubify Transformer (CuTR) โมเดลที่ออกแบบมาเพื่อตรวจจับและวางกรอบสี่เหลี่ยม 3 มิติรอบวัตถุในพื้นที่ภายในอาคาร แม้ว่าเทคโนโลยีนี้จะแสดงให้เห็นถึงศักยภาพสำหรับแอปพลิเคชัน AR/VR แต่การตอบรับจากชุมชนเผยให้เห็นทั้งความตื่นเต้นเกี่ยวกับความสามารถและความกังวลเกี่ยวกับข้อจำกัดด้านการอนุญาตใช้งาน
ภาพรวมของชุดข้อมูล CA-1M และ Cubify Transformer
- ชุดข้อมูล: CA-1M - มีการทำเครื่องหมายกำกับกล่อง 3D แบบไม่ระบุประเภทอย่างครบถ้วน
- โมเดล: Cubify Transformer (CuTR) - มีให้เลือกทั้งแบบ RGB-D และแบบ RGB เท่านั้น
- โครงสร้างใบอนุญาต:
- โค้ดตัวอย่าง: ใบอนุญาตโค้ดตัวอย่างของ Apple
- ชุดข้อมูล: CC-by-NC-ND
- โมเดล: ข้อกำหนดการใช้งานโมเดลวิจัย ML ของ Apple
คุณสมบัติหลัก:
- ข้อมูลจริงของกล่อง 3D แบบต่อเฟรม
- ท่าทาง GT ที่ลงทะเบียนกับเครื่องสแกนเลเซอร์
- ความลึก GT ที่ความละเอียด 512 x 384
- เฟรมแนวตั้ง
- รองรับการทำงานบนภาพที่จับจากอุปกรณ์ของผู้ใช้ผ่านแอป NeRF Capture
![]() |
---|
พื้นที่ภายในอาคารที่สามารถได้รับประโยชน์จากเทคโนโลยีการตรวจจับวัตถุ 3 มิติขั้นสูงสำหรับการออกแบบบ้านและแอปพลิเคชัน AR |
โครงสร้างการอนุญาตใช้งานที่ซับซ้อนสร้างความสับสน
แนวทางการอนุญาตใช้งานของโครงการได้จุดประกายให้เกิดการอภิปรายอย่างมากในหมู่นักพัฒนา Apple ได้นำโครงสร้างการอนุญาตใช้งานแบบหลายระดับมาใช้: โค้ดตัวอย่างภายใต้ Apple Sample Code License ชุดข้อมูลภายใต้ CC-by-NC-ND และโมเดลภายใต้ Apple ML Research Model Terms of Use แนวทางที่แยกส่วนนี้ได้รับการวิพากษ์วิจารณ์จากชุมชนนักพัฒนา
พวกเขาทำให้มันซับซ้อนเกินไปด้วยการใช้ใบอนุญาต (ย่อย) 3-4 แบบในโครงการเดียว... ทำไมต้องทำให้มันสับสนและซับซ้อนขนาดนี้? มันไร้ประโยชน์มากสำหรับนักพัฒนาบุคคลที่สามที่จะนำไปใช้สร้างแอปและเปิดตัวบนแพลตฟอร์มของพวกเขา
การอนุญาตใช้งานแบบ Attribution-NonCommercial-NoDerivatives สำหรับชุดข้อมูลมีข้อจำกัดมากเป็นพิเศษ ซึ่งจำกัดการใช้งานเชิงพาณิชย์ที่อาจเกิดขึ้น ผู้แสดงความคิดเห็นบางคนระบุว่าความซับซ้อนของการอนุญาตใช้งานนี้อาจขัดขวางการนำไปใช้และการทดลองกับเทคโนโลยีในวงกว้าง
ประสิทธิภาพทางเทคนิคสร้างคำถาม
ข้อเสนอแนะจากชุมชนเกี่ยวกับประสิทธิภาพทางเทคนิคของ Cubify Transformer มีทั้งดีและไม่ดี ผู้ใช้บางคนได้ชี้ให้เห็นถึงปัญหาความแม่นยำในการตรวจจับกรอบสี่เหลี่ยม โดยเฉพาะกับวัตถุเช่นรูปภาพบนผนังและคานเพดาน ผู้แสดงความคิดเห็นรายหนึ่งสังเกตว่าโมเดลมักไม่ใช้ [ลูกบาศก์ที่หมุน] เมื่อควรจะใช้ ทำให้ขอบเขตเกินจริง ซึ่งบ่งชี้ว่าระบบบางครั้งมีปัญหาในการจัดตำแหน่งวัตถุอย่างเหมาะสม
ที่น่าสนใจคือ นักพัฒนาบางคนอ้างว่าได้เห็นประสิทธิภาพที่ดีกว่าจากเครือข่ายประสาทเทียมส่วนตัวที่ทำงานบน iPad โดยใช้เพียงข้อมูล RGB โดยไม่มีข้อมูลความลึก สิ่งนี้ทำให้เกิดคำถามว่าแนวทางที่ใช้ transformer เหมาะสมที่สุดสำหรับงานคอมพิวเตอร์วิชั่นนี้หรือไม่
การประยุกต์ใช้งานจริงสำหรับการออกแบบบ้าน
แม้จะมีข้อกังวลด้านเทคนิคและการอนุญาตใช้งาน แต่ผู้ใช้หลายคนเห็นศักยภาพการใช้งานที่มีคุณค่าสำหรับเทคโนโลยีนี้ หนึ่งในกรณีการใช้งานที่น่าสนใจที่สุดที่มีการอภิปรายคือการออกแบบบ้านและการจัดวางเฟอร์นิเจอร์ ผู้ใช้แสดงความสนใจในการสแกนบ้านของพวกเขาด้วยกล้องโทรศัพท์และ LiDAR เพื่อสร้างโมเดล 3 มิติที่สามารถจัดวางเฟอร์นิเจอร์เสมือนจริงได้
โซลูชันปัจจุบันเช่น Scaniverse สร้างตาข่าย (meshes) ที่สมบูรณ์แต่ไม่แยกวัตถุแต่ละชิ้น ทำให้การจัดวางใหม่เสมือนจริงทำได้ยาก แนวทางการตรวจจับวัตถุของ Cubify อาจแก้ปัญหานี้ได้โดยการระบุวัตถุแยกกันภายในพื้นที่
การบูรณาการกับเทคโนโลยีเว็บ
ชุมชนกำลังสำรวจวิธีการขยายและบูรณาการเทคโนโลยีนี้กับแพลตฟอร์มเว็บ ผู้แสดงความคิดเห็นหลายคนได้แบ่งปันทรัพยากรสำหรับการแสดงผลสแกน USDZ ใน Three.js ซึ่งเป็นไลบรารี 3D JavaScript ที่ได้รับความนิยม แสดงให้เห็นถึงระบบนิเวศที่กว้างขึ้นที่กำลังพัฒนาขึ้นรอบเทคโนโลยีการสแกน 3 มิติ
การมีเครื่องมือสำหรับการดูและการแสดงผลบ่งชี้ว่านักพัฒนากำลังทำงานอย่างแข็งขันเพื่อทำให้การตรวจจับวัตถุ 3 มิติและการแสดงผลสามารถเข้าถึงได้มากขึ้นในแพลตฟอร์มต่างๆ
การบูรณาการกับแพลตฟอร์ม Apple ในอนาคต
ผู้แสดงความคิดเห็นบางคนคาดการณ์เกี่ยวกับการบูรณาการที่อาจเกิดขึ้นกับแพลตฟอร์มของ Apple โดยเฉพาะอย่างยิ่งกับ Vision Pro ผู้ใช้คนหนึ่งแสดงความประหลาดใจที่เทคโนโลยีนี้ยังไม่เป็นส่วนหนึ่งของ CoreML ซึ่งเป็นเฟรมเวิร์กการเรียนรู้ของเครื่องของ Apple ในขณะที่อีกคนหนึ่งแนะนำว่าอาจมีการประกาศในงาน WWDC ที่กำลังจะมาถึง
เมื่อพิจารณาจากการที่ Apple ให้ความสำคัญกับประสบการณ์ความเป็นจริงเสริม (AR) มากขึ้น Cubify Transformer อาจเป็นองค์ประกอบสำคัญสำหรับแอปพลิเคชัน AR ในอนาคตบนอุปกรณ์ Apple ซึ่งอาจช่วยให้เข้าใจสภาพแวดล้อมและการโต้ตอบกับวัตถุได้ซับซ้อนยิ่งขึ้น
สรุปได้ว่า แม้ว่าชุดข้อมูล CA-1M และเทคโนโลยี Cubify Transformer ของ Apple จะแสดงให้เห็นถึงศักยภาพในการพัฒนาการตรวจจับวัตถุ 3 มิติ แต่การอนุญาตใช้งานที่มีข้อจำกัดและการวิจารณ์ประสิทธิภาพที่หลากหลายชี้ให้เห็นถึงความท้าทายที่อาจจำกัดการนำไปใช้ อย่างไรก็ตาม เทคโนโลยีนี้ถือเป็นก้าวสำคัญสู่ความเข้าใจสภาพแวดล้อมที่ซับซ้อนยิ่งขึ้นสำหรับแอปพลิเคชัน AR/VR โดยมีนัยสำคัญต่อการออกแบบบ้าน เกม และประสบการณ์ความเป็นจริงผสม
อ้างอิง: CA-1M and Cubify Anything