StringDType ตัวใหม่ของ NumPy: การเปลี่ยนแปลงครั้งสำคัญสำหรับการคำนวณเชิงวิทยาศาสตร์ด้วยประสิทธิภาพที่ดีขึ้นและรองรับค่า NaN

BigGo Editorial Team

StringDType ตัวใหม่ของ NumPy: การเปลี่ยนแปลงครั้งสำคัญสำหรับการคำนวณเชิงวิทยาศาสตร์ด้วยประสิทธิภาพที่ดีขึ้นและรองรับค่า NaN

ชุมชนการคำนวณเชิงวิทยาศาสตร์กำลังตื่นเต้นกับการพัฒนา StringDType ใหม่ใน NumPy 2.0 ซึ่งให้คำมั่นว่าจะแก้ปัญหาที่มีมายาวนานเกี่ยวกับการจัดการข้อความในการคำนวณเชิงตัวเลข จากการพูดคุยในชุมชน การพัฒนานี้ถือเป็นก้าวสำคัญในการแก้ไขข้อจำกัดด้านประสิทธิภาพและฟังก์ชันการทำงานที่เป็นปัญหามานานหลายปีในการจัดการข้อความของ NumPy

การปรับปรุงที่สำคัญและการนำไปใช้งานทางเทคนิค

StringDType ใหม่นี้มาพร้อมกับการปรับปรุงที่สำคัญหลายประการ:

การจัดการหน่วยความจำที่มีประสิทธิภาพ

ใช้วิธีการใหม่โดยใช้ตัวชี้ไปยังข้อมูลข้อความที่เก็บไว้ใน DType instance
ใช้ arena allocator เพื่อการจัดการหน่วยความจำที่ดีขึ้น
รักษาการจัดเก็บข้อมูลให้อยู่ใกล้กันขณะหลีกเลี่ยงปัญหาประสิทธิภาพของ object arrays

รองรับ NaN อย่างสมบูรณ์

รองรับข้อมูลที่หายไปโดยตรงผ่านพารามิเตอร์ 'na' object
ใช้งานร่วมกับการทำงานของ np.isnan ได้
มีประโยชน์อย่างมากสำหรับงานด้านวิทยาศาสตร์ข้อมูลที่มักพบข้อมูลข้อความที่หายไป

สถาปัตยกรรมทางเทคนิค

การพัฒนานี้แนะนำสิ่งที่ชุมชนเรียกว่า sidecar storage ซึ่งเกิดจากวิธีแก้ปัญหาที่สร้างสรรค์โดย Nathan Goldbaum และ Sebastian Berg โดยต้องการ:

hook ใหม่ใน DType API (GitHub PR #24988)
การรับรองว่า array ที่มีการจัดสรรบัฟเฟอร์ใหม่จะได้รับ DType instance ใหม่
การรักษาความถูกต้องของ view semantics สำหรับข้อมูลที่ใช้ร่วมกัน

เปรียบเทียบกับทางเลือกอื่น

เทียบกับ Object Arrays

แม้ว่าทั้งสองวิธีจะใช้ตัวชี้ แต่ StringDType ให้ประสิทธิภาพที่ดีกว่าเพราะ:

เก็บข้อความแบบต่อเนื่องในหน่วยความจำ
หลีกเลี่ยง overhead ของ Python object
ให้การจัดเก็บข้อมูลที่ใกล้กันมากขึ้น

เทียบกับ PyArrow

การพูดคุยในชุมชนชี้ให้เห็นความแตกต่างที่สำคัญ:

การพัฒนาของ NumPy รองรับ mutable ND arrays เทียบกับ immutable 1D arrays ของ PyArrow
มีการพึ่งพาไลบรารีน้อยกว่า
ผสานรวมกับระบบนิเวศของ NumPy ได้อย่างเป็นธรรมชาติ

ผลกระทบในอนาคต

ชุมชน pandas มีความสนใจในการพัฒนานี้เป็นพิเศษ โดยมีการพูดคุยอย่างต่อเนื่องเกี่ยวกับการนำ StringDType มาใช้เป็นประเภทข้อความเริ่มต้น มี pull request อยู่ระหว่างดำเนินการ แม้ว่าการที่ NumPy พัฒนาในปี 2024 แทนที่จะเป็นปี 2019 ทำให้การเปลี่ยนผ่านซับซ้อนขึ้น

รายละเอียดทางเทคนิคและการนำไปใช้สามารถดูได้ใน NEP-0055 ซึ่งให้เอกสารที่ครอบคลุมเกี่ยวกับข้อกำหนดและการออกแบบของ string dtype ใหม่

การพัฒนานี้ถือเป็นก้าวสำคัญสำหรับระบบนิเวศการคำนวณเชิงวิทยาศาสตร์ ที่อาจช่วยแก้ปัญหาทางเทคนิคที่สะสมมานานหลายปี พร้อมทั้งมอบวิธีแก้ปัญหาที่มีประสิทธิภาพและครบถ้วนมากขึ้นสำหรับการจัดการข้อความในการคำนวณเชิงตัวเลข

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌