นักพัฒนาซอฟต์แวร์มักมองหาวิธีที่จะทำให้ขั้นตอนการทำงานราบรื่นและลดเวลาที่ต้องเสียไปกับงานที่ซ้ำซาก หนึ่งในงานเหล่านั้นที่มักกินเวลาพัฒนาอันมีค่าคือการทดสอบเบราว์เซอร์และการดีบักด้วยตนเอง เครื่องมือใหม่จาก operative.sh มีเป้าหมายที่จะแก้ไขจุดนี้โดยการทำให้กระบวนการทดสอบเบราว์เซอร์เป็นอัตโนมัติผ่านเอเจนต์ที่ขับเคลื่อนด้วย AI
การทดสอบเบราว์เซอร์อัตโนมัติด้วยการโต้ตอบแบบมนุษย์
web-eval-agent MCP Server จาก operative.sh ช่วยให้นักพัฒนาสามารถมอบหมายงานทดสอบเบราว์เซอร์ให้กับเอเจนต์ AI ที่โต้ตอบกับเว็บแอปพลิเคชันเหมือนกับที่มนุษย์ทำ เอเจนต์สามารถนำทางผ่านเว็บไซต์ คลิกปุ่ม กรอกแบบฟอร์ม และดำเนินการตามขั้นตอนการใช้งานที่ซับซ้อนพร้อมกับเก็บข้อมูลการดีบักที่มีค่าไปด้วย สิ่งที่ทำให้เครื่องมือนี้แตกต่างคือความสามารถในการใช้การจดจำภาพเพื่อระบุองค์ประกอบ UI แม้ว่าจะไม่มีการระบุไว้อย่างชัดเจนในโค้ด ซึ่งเลียนแบบวิธีที่ผู้ทดสอบที่เป็นมนุษย์จะเข้าถึงงาน
พลังของเครื่องมือนี้คือเอเจนต์การเขียนโค้ดมีความสามารถในการทดสอบด้วยภาพเหมือนกับที่มนุษย์จะทำ ดังนั้นถ้าปุ่มไม่ปรากฏ เอเจนต์เบราว์เซอร์จะใช้การมองเห็นเพื่อตรวจจับว่ามันหายไป มันทดสอบ 'เหมือนกับที่มนุษย์จะทำ' เพื่อให้แน่ใจว่าขั้นตอนที่ถูกนำไปใช้ทำงานตามที่คาดหวังไว้
คุณสมบัติหลักของ operative.sh web-eval-agent
- การนำทางอัตโนมัติโดยใช้ BrowserUse (อ้างว่าเร็วขึ้น 2 เท่าด้วย operative backend)
- การจับและกรองข้อมูลการรับส่งทางเครือข่ายอย่างชาญฉลาด
- การเก็บรวบรวมข้อผิดพลาดและบันทึกจากคอนโซล
- ความสามารถในการทดสอบแบบ end-to-end
- การจดจำองค์ประกอบภาพ (สามารถระบุองค์ประกอบ UI เหมือนมนุษย์)
ตัวเลือกการติดตั้ง
- macOS/Linux: มีสคริปต์ติดตั้งอัตโนมัติ
- Windows: การติดตั้งด้วยตนเองผ่าน Cline โดยมีขั้นตอนเฉพาะที่ให้ไว้
- ความต้องการเบื้องต้นรวมถึง brew, npm และ jq สำหรับผู้ใช้ macOS/Linux
ข้อจำกัดปัจจุบัน
- สถานะเบราว์เซอร์ใหม่ในการเปิดใช้งานแต่ละครั้ง (ไม่มีคุกกี้/localStorage ที่ถาวร)
- ต้องทำการยืนยันตัวตนสำหรับแต่ละเซสชันการทดสอบ
- อาจมีปัญหาด้านการขยายขนาดกับแอปพลิเคชันที่ซับซ้อน
ข้อมูลการดีบักที่ครอบคลุม
MCP Server ไม่เพียงแค่ดำเนินการต่างๆ เท่านั้น แต่ยังรวบรวมและจัดระเบียบข้อมูลการดีบักที่มีค่าซึ่งช่วยให้นักพัฒนาระบุปัญหาได้อย่างรวดเร็ว การทดสอบแต่ละครั้งจะสร้างรายงานโดยละเอียดซึ่งรวมถึงขั้นตอนของเอเจนต์ บันทึกคอนโซล คำขอเครือข่าย และไทม์ไลน์ลำดับเหตุการณ์ มุมมองที่ครอบคลุมนี้ช่วยให้นักพัฒนาสามารถระบุได้อย่างแม่นยำว่าปัญหาเกิดขึ้นที่ใดโดยไม่ต้องสร้างปัญหาขึ้นมาใหม่ด้วยตนเองหรือค้นหาบันทึก
ความท้าทายในการจัดการสถานะเบราว์เซอร์
ปัจจุบัน ข้อจำกัดหนึ่งของเครื่องมือนี้คือมันเริ่มต้นด้วยสถานะเบราว์เซอร์ใหม่ทุกครั้งที่เปิดใช้งาน ทำให้ผู้ใช้ต้องยืนยันตัวตนอีกครั้งสำหรับแต่ละเซสชันการทดสอบ ทีมพัฒนารับทราบข้อจำกัดนี้และกำลังทำงานเกี่ยวกับการคงสถานะเบราว์เซอร์เพื่อให้เอเจนต์สามารถรักษาเซสชันการเข้าสู่ระบบระหว่างการทดสอบ การปรับปรุงนี้จะช่วยพัฒนาประสบการณ์การทดสอบสำหรับแอปพลิเคชันที่ต้องการการยืนยันตัวตนอย่างมีนัยสำคัญ
การพิจารณาการเปรียบเทียบประสิทธิภาพและการประเมินผล
การสนทนาในชุมชนเผยให้เห็นความสนใจในการเปรียบเทียบประสิทธิภาพเพื่อประเมินประสิทธิผลของเอเจนต์ทดสอบเบราว์เซอร์ ทีม operative.sh เริ่มต้นด้วยเทคโนโลยี browser-use เนื่องจากมีเมตริกการประเมินที่แข็งแกร่ง แต่กำลังพิจารณาย้ายไปใช้เอเจนต์เบราว์เซอร์ของ Laminar ซึ่งพวกเขาเชื่อว่าให้ประสิทธิภาพที่ดีขึ้น สิ่งนี้เน้นย้ำถึงธรรมชาติที่พัฒนาอยู่เสมอของเครื่องมือทดสอบที่ขับเคลื่อนด้วย AI และความสำคัญของวิธีการประเมินที่เป็นมาตรฐาน
สำหรับนักพัฒนาที่เบื่อกับการคลิกผ่านแอปพลิเคชันของพวกเขาเพื่อตรวจสอบฟังก์ชันการทำงาน วิธีการทดสอบอัตโนมัตินี้สัญญาว่าจะประหยัดเวลาอย่างมากในขณะที่ให้การครอบคลุมการทดสอบที่ละเอียดมากขึ้น ตามที่สมาชิกชุมชนคนหนึ่งสังเกต การกำจัดการคลิกและการตรวจสอบที่ซ้ำซากถือเป็นชัยชนะครั้งใหญ่สำหรับผลิตภาพของนักพัฒนา แม้ว่าจะยังมีคำถามเกี่ยวกับว่าระบบนี้จะขยายได้ดีแค่ไหนสำหรับแอปพลิเคชันที่ซับซ้อน แต่ทิศทางดูมีแนวโน้มที่ดีสำหรับอนาคตของขั้นตอนการพัฒนาที่ได้รับการช่วยเหลือจาก AI