เอเจนต์ประเมินเว็บใหม่ช่วยทดสอบเบราว์เซอร์อัตโนมัติสำหรับนักพัฒนา

BigGo Editorial Team
เอเจนต์ประเมินเว็บใหม่ช่วยทดสอบเบราว์เซอร์อัตโนมัติสำหรับนักพัฒนา

นักพัฒนาซอฟต์แวร์มักมองหาวิธีที่จะทำให้ขั้นตอนการทำงานราบรื่นและลดเวลาที่ต้องเสียไปกับงานที่ซ้ำซาก หนึ่งในงานเหล่านั้นที่มักกินเวลาพัฒนาอันมีค่าคือการทดสอบเบราว์เซอร์และการดีบักด้วยตนเอง เครื่องมือใหม่จาก operative.sh มีเป้าหมายที่จะแก้ไขจุดนี้โดยการทำให้กระบวนการทดสอบเบราว์เซอร์เป็นอัตโนมัติผ่านเอเจนต์ที่ขับเคลื่อนด้วย AI

การทดสอบเบราว์เซอร์อัตโนมัติด้วยการโต้ตอบแบบมนุษย์

web-eval-agent MCP Server จาก operative.sh ช่วยให้นักพัฒนาสามารถมอบหมายงานทดสอบเบราว์เซอร์ให้กับเอเจนต์ AI ที่โต้ตอบกับเว็บแอปพลิเคชันเหมือนกับที่มนุษย์ทำ เอเจนต์สามารถนำทางผ่านเว็บไซต์ คลิกปุ่ม กรอกแบบฟอร์ม และดำเนินการตามขั้นตอนการใช้งานที่ซับซ้อนพร้อมกับเก็บข้อมูลการดีบักที่มีค่าไปด้วย สิ่งที่ทำให้เครื่องมือนี้แตกต่างคือความสามารถในการใช้การจดจำภาพเพื่อระบุองค์ประกอบ UI แม้ว่าจะไม่มีการระบุไว้อย่างชัดเจนในโค้ด ซึ่งเลียนแบบวิธีที่ผู้ทดสอบที่เป็นมนุษย์จะเข้าถึงงาน

พลังของเครื่องมือนี้คือเอเจนต์การเขียนโค้ดมีความสามารถในการทดสอบด้วยภาพเหมือนกับที่มนุษย์จะทำ ดังนั้นถ้าปุ่มไม่ปรากฏ เอเจนต์เบราว์เซอร์จะใช้การมองเห็นเพื่อตรวจจับว่ามันหายไป มันทดสอบ 'เหมือนกับที่มนุษย์จะทำ' เพื่อให้แน่ใจว่าขั้นตอนที่ถูกนำไปใช้ทำงานตามที่คาดหวังไว้

คุณสมบัติหลักของ operative.sh web-eval-agent

  • การนำทางอัตโนมัติโดยใช้ BrowserUse (อ้างว่าเร็วขึ้น 2 เท่าด้วย operative backend)
  • การจับและกรองข้อมูลการรับส่งทางเครือข่ายอย่างชาญฉลาด
  • การเก็บรวบรวมข้อผิดพลาดและบันทึกจากคอนโซล
  • ความสามารถในการทดสอบแบบ end-to-end
  • การจดจำองค์ประกอบภาพ (สามารถระบุองค์ประกอบ UI เหมือนมนุษย์)

ตัวเลือกการติดตั้ง

  • macOS/Linux: มีสคริปต์ติดตั้งอัตโนมัติ
  • Windows: การติดตั้งด้วยตนเองผ่าน Cline โดยมีขั้นตอนเฉพาะที่ให้ไว้
  • ความต้องการเบื้องต้นรวมถึง brew, npm และ jq สำหรับผู้ใช้ macOS/Linux

ข้อจำกัดปัจจุบัน

  • สถานะเบราว์เซอร์ใหม่ในการเปิดใช้งานแต่ละครั้ง (ไม่มีคุกกี้/localStorage ที่ถาวร)
  • ต้องทำการยืนยันตัวตนสำหรับแต่ละเซสชันการทดสอบ
  • อาจมีปัญหาด้านการขยายขนาดกับแอปพลิเคชันที่ซับซ้อน

ข้อมูลการดีบักที่ครอบคลุม

MCP Server ไม่เพียงแค่ดำเนินการต่างๆ เท่านั้น แต่ยังรวบรวมและจัดระเบียบข้อมูลการดีบักที่มีค่าซึ่งช่วยให้นักพัฒนาระบุปัญหาได้อย่างรวดเร็ว การทดสอบแต่ละครั้งจะสร้างรายงานโดยละเอียดซึ่งรวมถึงขั้นตอนของเอเจนต์ บันทึกคอนโซล คำขอเครือข่าย และไทม์ไลน์ลำดับเหตุการณ์ มุมมองที่ครอบคลุมนี้ช่วยให้นักพัฒนาสามารถระบุได้อย่างแม่นยำว่าปัญหาเกิดขึ้นที่ใดโดยไม่ต้องสร้างปัญหาขึ้นมาใหม่ด้วยตนเองหรือค้นหาบันทึก

ความท้าทายในการจัดการสถานะเบราว์เซอร์

ปัจจุบัน ข้อจำกัดหนึ่งของเครื่องมือนี้คือมันเริ่มต้นด้วยสถานะเบราว์เซอร์ใหม่ทุกครั้งที่เปิดใช้งาน ทำให้ผู้ใช้ต้องยืนยันตัวตนอีกครั้งสำหรับแต่ละเซสชันการทดสอบ ทีมพัฒนารับทราบข้อจำกัดนี้และกำลังทำงานเกี่ยวกับการคงสถานะเบราว์เซอร์เพื่อให้เอเจนต์สามารถรักษาเซสชันการเข้าสู่ระบบระหว่างการทดสอบ การปรับปรุงนี้จะช่วยพัฒนาประสบการณ์การทดสอบสำหรับแอปพลิเคชันที่ต้องการการยืนยันตัวตนอย่างมีนัยสำคัญ

การพิจารณาการเปรียบเทียบประสิทธิภาพและการประเมินผล

การสนทนาในชุมชนเผยให้เห็นความสนใจในการเปรียบเทียบประสิทธิภาพเพื่อประเมินประสิทธิผลของเอเจนต์ทดสอบเบราว์เซอร์ ทีม operative.sh เริ่มต้นด้วยเทคโนโลยี browser-use เนื่องจากมีเมตริกการประเมินที่แข็งแกร่ง แต่กำลังพิจารณาย้ายไปใช้เอเจนต์เบราว์เซอร์ของ Laminar ซึ่งพวกเขาเชื่อว่าให้ประสิทธิภาพที่ดีขึ้น สิ่งนี้เน้นย้ำถึงธรรมชาติที่พัฒนาอยู่เสมอของเครื่องมือทดสอบที่ขับเคลื่อนด้วย AI และความสำคัญของวิธีการประเมินที่เป็นมาตรฐาน

สำหรับนักพัฒนาที่เบื่อกับการคลิกผ่านแอปพลิเคชันของพวกเขาเพื่อตรวจสอบฟังก์ชันการทำงาน วิธีการทดสอบอัตโนมัตินี้สัญญาว่าจะประหยัดเวลาอย่างมากในขณะที่ให้การครอบคลุมการทดสอบที่ละเอียดมากขึ้น ตามที่สมาชิกชุมชนคนหนึ่งสังเกต การกำจัดการคลิกและการตรวจสอบที่ซ้ำซากถือเป็นชัยชนะครั้งใหญ่สำหรับผลิตภาพของนักพัฒนา แม้ว่าจะยังมีคำถามเกี่ยวกับว่าระบบนี้จะขยายได้ดีแค่ไหนสำหรับแอปพลิเคชันที่ซับซ้อน แต่ทิศทางดูมีแนวโน้มที่ดีสำหรับอนาคตของขั้นตอนการพัฒนาที่ได้รับการช่วยเหลือจาก AI

อ้างอิง: operative.sh web-eval-agent MCP Server