ในวงการการเรียนรู้ของเครื่อง (machine learning) ที่กำลังพัฒนาอย่างรวดเร็ว เครื่องมือใหม่ที่เรียกว่า Plexe ได้ปรากฏขึ้นซึ่งช่วยให้ผู้ใช้สามารถสร้างโมเดล ML โดยการอธิบายด้วยภาษาธรรมดา เครื่องมือนี้ได้จุดประกายให้เกิดการอภิปรายอย่างมากในชุมชนเทคโนโลยีเกี่ยวกับอนาคตของการเรียนรู้ของเครื่องแบบอัตโนมัติและการประยุกต์ใช้ในสถานการณ์จริง
สถาปัตยกรรมหลายตัวแทนขับเคลื่อนการสร้างโมเดลด้วยภาษาธรรมชาติ
Plexe ใช้ทีมตัวแทน AI ที่เชี่ยวชาญเฉพาะทางในการวิเคราะห์ความต้องการ วางแผนโซลูชันโมเดล สร้างโค้ด ทดสอบประสิทธิภาพ และจัดเตรียมโมเดลสำหรับการนำไปใช้งาน แนวทางแบบหลายตัวแทนนี้ช่วยให้ผู้ใช้สามารถกำหนดโมเดลโดยใช้คำอธิบายภาษาอังกฤษธรรมดา โดยระบบจะกำหนดสถาปัตยกรรมโมเดลที่เหมาะสมโดยอัตโนมัติตามคำอธิบายปัญหาและข้อมูลที่มีอยู่ เครื่องมือนี้รองรับโมเดลหลากหลายประเภทตั้งแต่อัลกอริทึมแบบดั้งเดิมเช่น gradient boosting ไปจนถึงเครือข่ายประสาทเทียมแบบลึก โดยประเมินแนวทางหลายรูปแบบเพื่อหาโซลูชันที่เหมาะสมที่สุดสำหรับข้อมูลและข้อจำกัดเฉพาะ
สมาชิกในชุมชนหลายคนแสดงความสนใจในแนวทางแบบตัวแทน (agentic approach) สำหรับการสร้างโมเดล ระบบปัจจุบันใช้ไลบรารี smolagents แม้ว่านักพัฒนาได้ระบุข้อจำกัดรวมถึงการขาดการทำงานร่วมกันของหน่วยความจำ ความยากในการปรับแต่งพรอมต์ของระบบ และการดำเนินการแบบซิงโครนัสของตัวแทนที่มีการจัดการ
ความแตกต่างจากความพยายามด้าน AutoML ก่อนหน้านี้
การอภิปรายในชุมชนส่วนใหญ่มุ่งเน้นไปที่ Plexe แตกต่างจากเครื่องมือ AutoML ก่อนหน้านี้ที่ได้รับความนิยมในช่วงปี 2018 อย่างไร ในขณะที่ผู้แสดงความคิดเห็นบางคนแสดงความสงสัยเกี่ยวกับการอ้างว่าสามารถทำให้วงจรชีวิต ML เป็นอัตโนมัติได้ นักพัฒนาได้อธิบายจุดยืนของพวกเขา:
ผมเห็นด้วยกับความคิดเห็นของคุณอย่างยิ่ง การฝึกโมเดล ML บนชุดข้อมูลที่สะอาดเป็นส่วนที่ง่ายและสนุกของงานวิศวกร ML... สำหรับตอนนี้ เป้าหมายหลักคือวิศวกรที่ไม่มีความเชี่ยวชาญด้าน ML: คนที่เข้าใจบริบททางธุรกิจ รู้วิธีสร้างไปป์ไลน์การประมวลผลข้อมูลและบริการเว็บ แต่อาจไม่รู้วิธีสร้างโมเดล
ต่างจากแนวทางบางอย่างที่ใช้โมเดลภาษาขนาดใหญ่ (LLMs) โดยตรงเป็นตัวทำนาย Plexe ใช้ประโยชน์จาก LLMs ในการทำงานด้านการสร้างโมเดล โดยมักจะสร้างโมเดลเฉพาะทางที่มีน้ำหนักเบาเช่น XGBoost regressors ซึ่งมีประสิทธิภาพมากกว่าการใช้ LLMs สำหรับการอนุมาน
แผนงานที่ขับเคลื่อนโดยชุมชนมุ่งเน้นที่ความท้าทายด้านข้อมูล
ข้อเสนอแนะที่สม่ำเสมอที่สุดจากชุมชนเกี่ยวข้องกับความท้าทายในการเตรียมข้อมูล ผู้แสดงความคิดเห็นหลายคนชี้ให้เห็นว่าส่วนที่ยากที่สุดของการเรียนรู้ของเครื่องไม่ใช่การฝึกโมเดลแต่เป็นการประเมินคุณภาพข้อมูล การสร้างคุณลักษณะ (feature engineering) และการป้องกันการรั่วไหลของข้อมูล นักพัฒนายอมรับข้อจำกัดเหล่านี้และแบ่งปันแผนการขยายความสามารถของ Plexe:
ทีมกำลังพัฒนาตัวแทนสำหรับการทำความสะอาดข้อมูลและการแปลงคุณลักษณะตามข้อเสนอแนะจากนักวิเคราะห์ข้อมูล ผู้จัดการผลิตภัณฑ์ และวิศวกร พวกเขายังทำงานเพื่อปรับปรุงความสามารถของระบบในการวิเคราะห์ข้อมูลเมื่อทำการตัดสินใจเกี่ยวกับการสร้างโมเดลและตรวจจับปัญหาเกี่ยวกับข้อมูลฝึกอบรม
คุณสมบัติอื่น ๆ ที่มีการร้องขอรวมถึงการสร้างโมเดลแบบโต้ตอบมากขึ้นโดยมีจุดตรวจสอบของผู้ใช้ระหว่างขั้นตอน การบูรณาการกับไปป์ไลน์ scikit-learn และการสนับสนุนที่ดีขึ้นสำหรับการฝึกอบรมแบบกระจายบนแพลตฟอร์มเช่น Vertex.AI ของ Google Cloud
คุณสมบัติหลักของ Plexe
- การกำหนดโมเดลด้วยภาษาธรรมชาติ - กำหนดโมเดลโดยใช้คำอธิบายภาษาอังกฤษทั่วไป
- สถาปัตยกรรมแบบหลายตัวแทน - ทีมของตัวแทน AI ที่เชี่ยวชาญเฉพาะด้านจัดการกับแง่มุมต่างๆ ของการสร้างโมเดล
- การสร้างโมเดลอัตโนมัติ - สร้างโมเดลที่สมบูรณ์ด้วยการเรียกใช้เมธอดเดียว
- การฝึกอบรมแบบกระจายด้วย Ray - รองรับการประมวลผลแบบขนานบนแกนประมวลผล CPU ที่มีอยู่
- การสร้างข้อมูลและการอนุมานโครงสร้าง - สร้างข้อมูลสังเคราะห์หรืออนุมานโครงสร้างโดยอัตโนมัติ
- รองรับหลายผู้ให้บริการ - ใช้งานร่วมกับโมเดลของ OpenAI, Anthropic, Ollama และ Hugging Face
ตัวเลือกการติดตั้ง
pip install plexe การติดตั้งมาตรฐาน
pip install plexe[lightweight] การติดตั้งแบบมีการพึ่งพาน้อยที่สุด
pip install plexe[all] การติดตั้งพร้อมการรองรับ deep learning
ข้อจำกัดที่ชุมชนระบุ
- ความสามารถในการสำรวจข้อมูลที่จำกัด (กำลังได้รับการแก้ไข)
- ขาดจุดตรวจสอบแบบโต้ตอบระหว่างกระบวนการสร้างโมเดล
- ความท้าทายด้านความถูกต้องทางสถิติที่พบได้ทั่วไปในวิธีการอัตโนมัติ
- ปัจจุบันเป็นการดำเนินการแบบซิงโครนัสของตัวแทนที่จัดการ
- การปรับแต่งพรอมต์ระบบของตัวแทนมีข้อจำกัด
ความถูกต้องทางสถิติยังคงเป็นความท้าทาย
สมาชิกในชุมชนแสดงความกังวลเกี่ยวกับความถูกต้องทางสถิติของโมเดลที่สร้างขึ้นโดยอัตโนมัติ โดยสังเกตว่าทั้งมนุษย์และ LLMs มักทำข้อผิดพลาดทางสถิติ ทีม Plexe ยอมรับความท้าทายนี้ โดยอธิบายว่าพวกเขาได้นำโปรโตคอลการตรวจสอบและการป้องกันเกี่ยวกับการจัดการข้อมูลมาใช้ ในขณะที่กำลังทำงานเพื่อตรวจจับปัญหาทั่วไปเช่น overfitting และการรั่วไหลของข้อมูลได้ดีขึ้น
ในขณะที่การเรียนรู้ของเครื่องยังคงเข้าถึงได้ง่ายขึ้นผ่านเครื่องมือเช่น Plexe ความสมดุลระหว่างการทำงานอัตโนมัติและความเชี่ยวชาญยังคงเป็นประเด็นการอภิปรายที่สำคัญ แม้ว่าการทำงานอัตโนมัติสามารถทำให้ความสามารถ ML เป็นประชาธิปไตยได้ แต่ฉันทามติของชุมชนแนะนำว่าความรู้เฉพาะทางและความเข้าใจทางสถิติยังคงมีความสำคัญอย่างยิ่งสำหรับการพัฒนาโมเดลที่เชื่อถือได้และพร้อมสำหรับการผลิต
อ้างอิง: plexe