Plexe: การสร้างโมเดล ML ด้วยภาษาธรรมชาติจุดประกายการอภิปรายในชุมชนเกี่ยวกับวิวัฒนาการของ AutoML

BigGo Editorial Team
Plexe: การสร้างโมเดล ML ด้วยภาษาธรรมชาติจุดประกายการอภิปรายในชุมชนเกี่ยวกับวิวัฒนาการของ AutoML

ในวงการการเรียนรู้ของเครื่อง (machine learning) ที่กำลังพัฒนาอย่างรวดเร็ว เครื่องมือใหม่ที่เรียกว่า Plexe ได้ปรากฏขึ้นซึ่งช่วยให้ผู้ใช้สามารถสร้างโมเดล ML โดยการอธิบายด้วยภาษาธรรมดา เครื่องมือนี้ได้จุดประกายให้เกิดการอภิปรายอย่างมากในชุมชนเทคโนโลยีเกี่ยวกับอนาคตของการเรียนรู้ของเครื่องแบบอัตโนมัติและการประยุกต์ใช้ในสถานการณ์จริง

สถาปัตยกรรมหลายตัวแทนขับเคลื่อนการสร้างโมเดลด้วยภาษาธรรมชาติ

Plexe ใช้ทีมตัวแทน AI ที่เชี่ยวชาญเฉพาะทางในการวิเคราะห์ความต้องการ วางแผนโซลูชันโมเดล สร้างโค้ด ทดสอบประสิทธิภาพ และจัดเตรียมโมเดลสำหรับการนำไปใช้งาน แนวทางแบบหลายตัวแทนนี้ช่วยให้ผู้ใช้สามารถกำหนดโมเดลโดยใช้คำอธิบายภาษาอังกฤษธรรมดา โดยระบบจะกำหนดสถาปัตยกรรมโมเดลที่เหมาะสมโดยอัตโนมัติตามคำอธิบายปัญหาและข้อมูลที่มีอยู่ เครื่องมือนี้รองรับโมเดลหลากหลายประเภทตั้งแต่อัลกอริทึมแบบดั้งเดิมเช่น gradient boosting ไปจนถึงเครือข่ายประสาทเทียมแบบลึก โดยประเมินแนวทางหลายรูปแบบเพื่อหาโซลูชันที่เหมาะสมที่สุดสำหรับข้อมูลและข้อจำกัดเฉพาะ

สมาชิกในชุมชนหลายคนแสดงความสนใจในแนวทางแบบตัวแทน (agentic approach) สำหรับการสร้างโมเดล ระบบปัจจุบันใช้ไลบรารี smolagents แม้ว่านักพัฒนาได้ระบุข้อจำกัดรวมถึงการขาดการทำงานร่วมกันของหน่วยความจำ ความยากในการปรับแต่งพรอมต์ของระบบ และการดำเนินการแบบซิงโครนัสของตัวแทนที่มีการจัดการ

ความแตกต่างจากความพยายามด้าน AutoML ก่อนหน้านี้

การอภิปรายในชุมชนส่วนใหญ่มุ่งเน้นไปที่ Plexe แตกต่างจากเครื่องมือ AutoML ก่อนหน้านี้ที่ได้รับความนิยมในช่วงปี 2018 อย่างไร ในขณะที่ผู้แสดงความคิดเห็นบางคนแสดงความสงสัยเกี่ยวกับการอ้างว่าสามารถทำให้วงจรชีวิต ML เป็นอัตโนมัติได้ นักพัฒนาได้อธิบายจุดยืนของพวกเขา:

ผมเห็นด้วยกับความคิดเห็นของคุณอย่างยิ่ง การฝึกโมเดล ML บนชุดข้อมูลที่สะอาดเป็นส่วนที่ง่ายและสนุกของงานวิศวกร ML... สำหรับตอนนี้ เป้าหมายหลักคือวิศวกรที่ไม่มีความเชี่ยวชาญด้าน ML: คนที่เข้าใจบริบททางธุรกิจ รู้วิธีสร้างไปป์ไลน์การประมวลผลข้อมูลและบริการเว็บ แต่อาจไม่รู้วิธีสร้างโมเดล

ต่างจากแนวทางบางอย่างที่ใช้โมเดลภาษาขนาดใหญ่ (LLMs) โดยตรงเป็นตัวทำนาย Plexe ใช้ประโยชน์จาก LLMs ในการทำงานด้านการสร้างโมเดล โดยมักจะสร้างโมเดลเฉพาะทางที่มีน้ำหนักเบาเช่น XGBoost regressors ซึ่งมีประสิทธิภาพมากกว่าการใช้ LLMs สำหรับการอนุมาน

แผนงานที่ขับเคลื่อนโดยชุมชนมุ่งเน้นที่ความท้าทายด้านข้อมูล

ข้อเสนอแนะที่สม่ำเสมอที่สุดจากชุมชนเกี่ยวข้องกับความท้าทายในการเตรียมข้อมูล ผู้แสดงความคิดเห็นหลายคนชี้ให้เห็นว่าส่วนที่ยากที่สุดของการเรียนรู้ของเครื่องไม่ใช่การฝึกโมเดลแต่เป็นการประเมินคุณภาพข้อมูล การสร้างคุณลักษณะ (feature engineering) และการป้องกันการรั่วไหลของข้อมูล นักพัฒนายอมรับข้อจำกัดเหล่านี้และแบ่งปันแผนการขยายความสามารถของ Plexe:

ทีมกำลังพัฒนาตัวแทนสำหรับการทำความสะอาดข้อมูลและการแปลงคุณลักษณะตามข้อเสนอแนะจากนักวิเคราะห์ข้อมูล ผู้จัดการผลิตภัณฑ์ และวิศวกร พวกเขายังทำงานเพื่อปรับปรุงความสามารถของระบบในการวิเคราะห์ข้อมูลเมื่อทำการตัดสินใจเกี่ยวกับการสร้างโมเดลและตรวจจับปัญหาเกี่ยวกับข้อมูลฝึกอบรม

คุณสมบัติอื่น ๆ ที่มีการร้องขอรวมถึงการสร้างโมเดลแบบโต้ตอบมากขึ้นโดยมีจุดตรวจสอบของผู้ใช้ระหว่างขั้นตอน การบูรณาการกับไปป์ไลน์ scikit-learn และการสนับสนุนที่ดีขึ้นสำหรับการฝึกอบรมแบบกระจายบนแพลตฟอร์มเช่น Vertex.AI ของ Google Cloud

คุณสมบัติหลักของ Plexe

  • การกำหนดโมเดลด้วยภาษาธรรมชาติ - กำหนดโมเดลโดยใช้คำอธิบายภาษาอังกฤษทั่วไป
  • สถาปัตยกรรมแบบหลายตัวแทน - ทีมของตัวแทน AI ที่เชี่ยวชาญเฉพาะด้านจัดการกับแง่มุมต่างๆ ของการสร้างโมเดล
  • การสร้างโมเดลอัตโนมัติ - สร้างโมเดลที่สมบูรณ์ด้วยการเรียกใช้เมธอดเดียว
  • การฝึกอบรมแบบกระจายด้วย Ray - รองรับการประมวลผลแบบขนานบนแกนประมวลผล CPU ที่มีอยู่
  • การสร้างข้อมูลและการอนุมานโครงสร้าง - สร้างข้อมูลสังเคราะห์หรืออนุมานโครงสร้างโดยอัตโนมัติ
  • รองรับหลายผู้ให้บริการ - ใช้งานร่วมกับโมเดลของ OpenAI, Anthropic, Ollama และ Hugging Face

ตัวเลือกการติดตั้ง

pip install plexe                   การติดตั้งมาตรฐาน
pip install plexe[lightweight]      การติดตั้งแบบมีการพึ่งพาน้อยที่สุด
pip install plexe[all]              การติดตั้งพร้อมการรองรับ deep learning

ข้อจำกัดที่ชุมชนระบุ

  • ความสามารถในการสำรวจข้อมูลที่จำกัด (กำลังได้รับการแก้ไข)
  • ขาดจุดตรวจสอบแบบโต้ตอบระหว่างกระบวนการสร้างโมเดล
  • ความท้าทายด้านความถูกต้องทางสถิติที่พบได้ทั่วไปในวิธีการอัตโนมัติ
  • ปัจจุบันเป็นการดำเนินการแบบซิงโครนัสของตัวแทนที่จัดการ
  • การปรับแต่งพรอมต์ระบบของตัวแทนมีข้อจำกัด

ความถูกต้องทางสถิติยังคงเป็นความท้าทาย

สมาชิกในชุมชนแสดงความกังวลเกี่ยวกับความถูกต้องทางสถิติของโมเดลที่สร้างขึ้นโดยอัตโนมัติ โดยสังเกตว่าทั้งมนุษย์และ LLMs มักทำข้อผิดพลาดทางสถิติ ทีม Plexe ยอมรับความท้าทายนี้ โดยอธิบายว่าพวกเขาได้นำโปรโตคอลการตรวจสอบและการป้องกันเกี่ยวกับการจัดการข้อมูลมาใช้ ในขณะที่กำลังทำงานเพื่อตรวจจับปัญหาทั่วไปเช่น overfitting และการรั่วไหลของข้อมูลได้ดีขึ้น

ในขณะที่การเรียนรู้ของเครื่องยังคงเข้าถึงได้ง่ายขึ้นผ่านเครื่องมือเช่น Plexe ความสมดุลระหว่างการทำงานอัตโนมัติและความเชี่ยวชาญยังคงเป็นประเด็นการอภิปรายที่สำคัญ แม้ว่าการทำงานอัตโนมัติสามารถทำให้ความสามารถ ML เป็นประชาธิปไตยได้ แต่ฉันทามติของชุมชนแนะนำว่าความรู้เฉพาะทางและความเข้าใจทางสถิติยังคงมีความสำคัญอย่างยิ่งสำหรับการพัฒนาโมเดลที่เชื่อถือได้และพร้อมสำหรับการผลิต

อ้างอิง: plexe