Apple เปิดตัวชุดข้อมูล CA-1M และ Cubify Transformer สำหรับการตรวจจับวัตถุ 3 มิติ พร้อมเสียงตอบรับที่หลากหลายจากชุมชน

BigGo Editorial Team
Apple เปิดตัวชุดข้อมูล CA-1M และ Cubify Transformer สำหรับการตรวจจับวัตถุ 3 มิติ พร้อมเสียงตอบรับที่หลากหลายจากชุมชน

Apple ได้เปิดตัว CA-1M ชุดข้อมูลที่ครอบคลุมสำหรับการตรวจจับวัตถุ 3 มิติภายในอาคาร พร้อมกับ Cubify Transformer (CuTR) โมเดลที่ออกแบบมาเพื่อตรวจจับและวางกรอบสี่เหลี่ยม 3 มิติรอบวัตถุในพื้นที่ภายในอาคาร แม้ว่าเทคโนโลยีนี้จะแสดงให้เห็นถึงศักยภาพสำหรับแอปพลิเคชัน AR/VR แต่การตอบรับจากชุมชนเผยให้เห็นทั้งความตื่นเต้นเกี่ยวกับความสามารถและความกังวลเกี่ยวกับข้อจำกัดด้านการอนุญาตใช้งาน

ภาพรวมของชุดข้อมูล CA-1M และ Cubify Transformer

  • ชุดข้อมูล: CA-1M - มีการทำเครื่องหมายกำกับกล่อง 3D แบบไม่ระบุประเภทอย่างครบถ้วน
  • โมเดล: Cubify Transformer (CuTR) - มีให้เลือกทั้งแบบ RGB-D และแบบ RGB เท่านั้น
  • โครงสร้างใบอนุญาต:
    • โค้ดตัวอย่าง: ใบอนุญาตโค้ดตัวอย่างของ Apple
    • ชุดข้อมูล: CC-by-NC-ND
    • โมเดล: ข้อกำหนดการใช้งานโมเดลวิจัย ML ของ Apple

คุณสมบัติหลัก:

  • ข้อมูลจริงของกล่อง 3D แบบต่อเฟรม
  • ท่าทาง GT ที่ลงทะเบียนกับเครื่องสแกนเลเซอร์
  • ความลึก GT ที่ความละเอียด 512 x 384
  • เฟรมแนวตั้ง
  • รองรับการทำงานบนภาพที่จับจากอุปกรณ์ของผู้ใช้ผ่านแอป NeRF Capture
พื้นที่ภายในอาคารที่สามารถได้รับประโยชน์จากเทคโนโลยีการตรวจจับวัตถุ 3 มิติขั้นสูงสำหรับการออกแบบบ้านและแอปพลิเคชัน AR
พื้นที่ภายในอาคารที่สามารถได้รับประโยชน์จากเทคโนโลยีการตรวจจับวัตถุ 3 มิติขั้นสูงสำหรับการออกแบบบ้านและแอปพลิเคชัน AR

โครงสร้างการอนุญาตใช้งานที่ซับซ้อนสร้างความสับสน

แนวทางการอนุญาตใช้งานของโครงการได้จุดประกายให้เกิดการอภิปรายอย่างมากในหมู่นักพัฒนา Apple ได้นำโครงสร้างการอนุญาตใช้งานแบบหลายระดับมาใช้: โค้ดตัวอย่างภายใต้ Apple Sample Code License ชุดข้อมูลภายใต้ CC-by-NC-ND และโมเดลภายใต้ Apple ML Research Model Terms of Use แนวทางที่แยกส่วนนี้ได้รับการวิพากษ์วิจารณ์จากชุมชนนักพัฒนา

พวกเขาทำให้มันซับซ้อนเกินไปด้วยการใช้ใบอนุญาต (ย่อย) 3-4 แบบในโครงการเดียว... ทำไมต้องทำให้มันสับสนและซับซ้อนขนาดนี้? มันไร้ประโยชน์มากสำหรับนักพัฒนาบุคคลที่สามที่จะนำไปใช้สร้างแอปและเปิดตัวบนแพลตฟอร์มของพวกเขา

การอนุญาตใช้งานแบบ Attribution-NonCommercial-NoDerivatives สำหรับชุดข้อมูลมีข้อจำกัดมากเป็นพิเศษ ซึ่งจำกัดการใช้งานเชิงพาณิชย์ที่อาจเกิดขึ้น ผู้แสดงความคิดเห็นบางคนระบุว่าความซับซ้อนของการอนุญาตใช้งานนี้อาจขัดขวางการนำไปใช้และการทดลองกับเทคโนโลยีในวงกว้าง

ประสิทธิภาพทางเทคนิคสร้างคำถาม

ข้อเสนอแนะจากชุมชนเกี่ยวกับประสิทธิภาพทางเทคนิคของ Cubify Transformer มีทั้งดีและไม่ดี ผู้ใช้บางคนได้ชี้ให้เห็นถึงปัญหาความแม่นยำในการตรวจจับกรอบสี่เหลี่ยม โดยเฉพาะกับวัตถุเช่นรูปภาพบนผนังและคานเพดาน ผู้แสดงความคิดเห็นรายหนึ่งสังเกตว่าโมเดลมักไม่ใช้ [ลูกบาศก์ที่หมุน] เมื่อควรจะใช้ ทำให้ขอบเขตเกินจริง ซึ่งบ่งชี้ว่าระบบบางครั้งมีปัญหาในการจัดตำแหน่งวัตถุอย่างเหมาะสม

ที่น่าสนใจคือ นักพัฒนาบางคนอ้างว่าได้เห็นประสิทธิภาพที่ดีกว่าจากเครือข่ายประสาทเทียมส่วนตัวที่ทำงานบน iPad โดยใช้เพียงข้อมูล RGB โดยไม่มีข้อมูลความลึก สิ่งนี้ทำให้เกิดคำถามว่าแนวทางที่ใช้ transformer เหมาะสมที่สุดสำหรับงานคอมพิวเตอร์วิชั่นนี้หรือไม่

การประยุกต์ใช้งานจริงสำหรับการออกแบบบ้าน

แม้จะมีข้อกังวลด้านเทคนิคและการอนุญาตใช้งาน แต่ผู้ใช้หลายคนเห็นศักยภาพการใช้งานที่มีคุณค่าสำหรับเทคโนโลยีนี้ หนึ่งในกรณีการใช้งานที่น่าสนใจที่สุดที่มีการอภิปรายคือการออกแบบบ้านและการจัดวางเฟอร์นิเจอร์ ผู้ใช้แสดงความสนใจในการสแกนบ้านของพวกเขาด้วยกล้องโทรศัพท์และ LiDAR เพื่อสร้างโมเดล 3 มิติที่สามารถจัดวางเฟอร์นิเจอร์เสมือนจริงได้

โซลูชันปัจจุบันเช่น Scaniverse สร้างตาข่าย (meshes) ที่สมบูรณ์แต่ไม่แยกวัตถุแต่ละชิ้น ทำให้การจัดวางใหม่เสมือนจริงทำได้ยาก แนวทางการตรวจจับวัตถุของ Cubify อาจแก้ปัญหานี้ได้โดยการระบุวัตถุแยกกันภายในพื้นที่

การบูรณาการกับเทคโนโลยีเว็บ

ชุมชนกำลังสำรวจวิธีการขยายและบูรณาการเทคโนโลยีนี้กับแพลตฟอร์มเว็บ ผู้แสดงความคิดเห็นหลายคนได้แบ่งปันทรัพยากรสำหรับการแสดงผลสแกน USDZ ใน Three.js ซึ่งเป็นไลบรารี 3D JavaScript ที่ได้รับความนิยม แสดงให้เห็นถึงระบบนิเวศที่กว้างขึ้นที่กำลังพัฒนาขึ้นรอบเทคโนโลยีการสแกน 3 มิติ

การมีเครื่องมือสำหรับการดูและการแสดงผลบ่งชี้ว่านักพัฒนากำลังทำงานอย่างแข็งขันเพื่อทำให้การตรวจจับวัตถุ 3 มิติและการแสดงผลสามารถเข้าถึงได้มากขึ้นในแพลตฟอร์มต่างๆ

การบูรณาการกับแพลตฟอร์ม Apple ในอนาคต

ผู้แสดงความคิดเห็นบางคนคาดการณ์เกี่ยวกับการบูรณาการที่อาจเกิดขึ้นกับแพลตฟอร์มของ Apple โดยเฉพาะอย่างยิ่งกับ Vision Pro ผู้ใช้คนหนึ่งแสดงความประหลาดใจที่เทคโนโลยีนี้ยังไม่เป็นส่วนหนึ่งของ CoreML ซึ่งเป็นเฟรมเวิร์กการเรียนรู้ของเครื่องของ Apple ในขณะที่อีกคนหนึ่งแนะนำว่าอาจมีการประกาศในงาน WWDC ที่กำลังจะมาถึง

เมื่อพิจารณาจากการที่ Apple ให้ความสำคัญกับประสบการณ์ความเป็นจริงเสริม (AR) มากขึ้น Cubify Transformer อาจเป็นองค์ประกอบสำคัญสำหรับแอปพลิเคชัน AR ในอนาคตบนอุปกรณ์ Apple ซึ่งอาจช่วยให้เข้าใจสภาพแวดล้อมและการโต้ตอบกับวัตถุได้ซับซ้อนยิ่งขึ้น

สรุปได้ว่า แม้ว่าชุดข้อมูล CA-1M และเทคโนโลยี Cubify Transformer ของ Apple จะแสดงให้เห็นถึงศักยภาพในการพัฒนาการตรวจจับวัตถุ 3 มิติ แต่การอนุญาตใช้งานที่มีข้อจำกัดและการวิจารณ์ประสิทธิภาพที่หลากหลายชี้ให้เห็นถึงความท้าทายที่อาจจำกัดการนำไปใช้ อย่างไรก็ตาม เทคโนโลยีนี้ถือเป็นก้าวสำคัญสู่ความเข้าใจสภาพแวดล้อมที่ซับซ้อนยิ่งขึ้นสำหรับแอปพลิเคชัน AR/VR โดยมีนัยสำคัญต่อการออกแบบบ้าน เกม และประสบการณ์ความเป็นจริงผสม

อ้างอิง: CA-1M and Cubify Anything