Claude 3.7 Sonnet ได้คะแนนเต็มในการประเมินความปลอดภัย สร้างมาตรฐานใหม่สำหรับความปลอดภัยของ AI

BigGo Editorial Team

Claude 3.7 Sonnet ได้คะแนนเต็มในการประเมินความปลอดภัย สร้างมาตรฐานใหม่สำหรับความปลอดภัยของ AI

โมเดล AI ล่าสุดของ Anthropic อย่าง Claude 3.7 Sonnet กำลังสร้างความตื่นเต้นในวงการปัญญาประดิษฐ์ ไม่เพียงแต่ด้วยความสามารถขั้นสูง แต่ยังเพราะการสร้างมาตรฐานใหม่ในด้านความปลอดภัยของ AI ในขณะที่บริษัทและรัฐบาลต่างๆ ตรวจสอบโมเดล AI อย่างเข้มงวดเพื่อหาจุดอ่อนที่อาจเกิดขึ้น Claude 3.7 ได้ก้าวขึ้นมาเป็นโมเดลที่มีความปลอดภัยสูงสุดเท่าที่มีอยู่ ตามการประเมินอิสระล่าสุด

ผลงานด้านความปลอดภัยที่ไม่เคยมีมาก่อน

Claude 3.7 Sonnet ได้รับคะแนนเต็มในการประเมินความปลอดภัยอย่างครอบคลุมที่ดำเนินการโดยบริษัทด้านความปลอดภัย Holistic AI จากลอนดอน การตรวจสอบซึ่งแบ่งปันเฉพาะกับผู้สังเกตการณ์ในอุตสาหกรรม เปิดเผยว่า Claude 3.7 ต้านทานความพยายามในการเจาะระบบได้ 100% และให้คำตอบที่ปลอดภัย 100% ระหว่างการทดสอบโดยทีมแดง ผลงานที่สมบูรณ์แบบนี้ทำให้ Claude 3.7 แตกต่างในฐานะโมเดล AI ที่มีความปลอดภัยสูงสุดในปัจจุบัน

การประเมินได้ทดสอบ Claude 3.7 ในโหมดการคิด (Thinking Mode) ด้วยงบประมาณ 16k โทเค็น โดยใช้คำสั่ง 37 รายการที่ออกแบบมาเชิงกลยุทธ์เพื่อหลีกเลี่ยงข้อจำกัดของระบบ รวมถึงเทคนิคการโจมตีที่เป็นที่รู้จักเช่น Do Anything Now (DAN), Strive to Avoid Norms (STAN) และ Do Anything and Everything (DUDE) - ทั้งหมดออกแบบมาเพื่อผลักดันโมเดลให้ก้าวข้ามแนวทางจริยธรรมที่ถูกตั้งโปรแกรมไว้

ผลการประเมินด้านความปลอดภัย:

Claude 3.7 Sonnet: ต้านทานการ jailbreak ได้ 100%, การตอบสนองที่ไม่ปลอดภัย 0%
OpenAI o1: ต้านทานการ jailbreak ได้ 100%, การตอบสนองที่ไม่ปลอดภัย 2%
DeepSeek R1: ต้านทานการ jailbreak ได้ 32% (บล็อก 12 จาก 37 ความพยายาม), การตอบสนองที่ไม่ปลอดภัย 11%
Grok-3: ต้านทานการ jailbreak ได้ 2.7% (บล็อก 1 จาก 37 ความพยายาม), ยังไม่ได้รับการประเมินอย่างเต็มรูปแบบสำหรับการตอบสนองที่ไม่ปลอดภัย

เหนือกว่าคู่แข่ง

ในขณะที่ Claude 3.7 มีผลงานเทียบเท่ากับโมเดลการให้เหตุผล o1 ของ OpenAI ในการบล็อกความพยายามเจาะระบบ 100% แต่มันก้าวล้ำหน้าไปด้วยการไม่ให้คำตอบที่ไม่ปลอดภัยแม้แต่ครั้งเดียวในระหว่างการทดสอบโดยทีมแดงเพิ่มเติม ในทางเปรียบเทียบ o1 ของ OpenAI แสดงอัตราการตอบสนองที่ไม่ปลอดภัย 2% ในขณะที่ DeepSeek R1 มีผลงานแย่กว่าอย่างมีนัยสำคัญด้วยอัตราการตอบสนองที่ไม่ปลอดภัย 11% และบล็อกความพยายามเจาะระบบได้เพียง 32% Grok-3 มีผลงานแย่ยิ่งกว่า โดยบล็อกความพยายามเจาะระบบได้เพียงครั้งเดียว (2.7%)

ความแตกต่างอย่างชัดเจนในประสิทธิภาพด้านความปลอดภัยนี้มีผลกระทบในโลกแห่งความเป็นจริง องค์กรหลายแห่งรวมถึง NASA กองทัพเรือสหรัฐฯ และรัฐบาลออสเตรเลียได้ห้ามใช้โมเดลอย่าง DeepSeek R1 เนื่องจากความเสี่ยงด้านความปลอดภัยที่เห็นได้ชัด ในสภาพแวดล้อมปัจจุบันที่โมเดล AI อาจถูกใช้ในทางที่ผิดเพื่อการเผยแพร่ข้อมูลเท็จ แคมเปญการแฮ็ก หรือวัตถุประสงค์ที่เป็นอันตรายอื่นๆ ความสามารถในการต้านทานด้านความปลอดภัยของ Claude 3.7 ถือเป็นความก้าวหน้าที่สำคัญ

ความสามารถขั้นสูงนอกเหนือจากความปลอดภัย

นอกเหนือจากความน่าเชื่อถือด้านความปลอดภัย Claude 3.7 Sonnet ถือเป็นโมเดล AI ที่ฉลาดที่สุดของ Anthropic จนถึงปัจจุบัน เปิดตัวเมื่อสัปดาห์ที่แล้ว มันรวมแนวทางจากโมเดล GPT กับความสามารถในการให้เหตุผลแบบลูกโซ่ความคิด ทำให้มีความหลากหลายในการใช้งานอย่างยอดเยี่ยม

ผู้ใช้สามารถใช้ประโยชน์จาก Claude 3.7 สำหรับงานสร้างสรรค์เช่นการออกแบบเกมสืบสวนฆาตกรรมหรือการสร้างภาพเคลื่อนไหว การประยุกต์ใช้งานจริงเช่นการสร้างแอปเพิ่มประสิทธิภาพและเกมเบราว์เซอร์อย่างง่าย และฟังก์ชันวิเคราะห์เช่นการประมาณต้นทุน โมเดลนี้สามารถประมวลผลทั้งข้อความและภาพ ช่วยให้เกิดการโต้ตอบแบบหลายโหมดที่ขยายประโยชน์การใช้งานในบริบทต่างๆ

ความสามารถของ Claude 3.7 Sonnet:

งานสร้างสรรค์: การออกแบบเกม การสร้างภาพเคลื่อนไหว
การประยุกต์ใช้งานจริง: การสร้างแอปเพิ่มประสิทธิภาพการทำงาน เกมบนเบราว์เซอร์
ฟังก์ชันการวิเคราะห์: การประเมินต้นทุนจากภาพ
การประมวลผลหลายรูปแบบ: สามารถวิเคราะห์ได้ทั้งข้อความและรูปภาพ

ผลกระทบต่ออุตสาหกรรมและข้อกังวล

แม้ว่า Claude 3.7 จะมีประสิทธิภาพด้านความปลอดภัยที่น่าประทับใจ แต่ยังคงมีคำถามเกี่ยวกับความมุ่งมั่นโดยรวมของ Anthropic ต่อความปลอดภัยของ AI บริษัทได้ลบข้อผูกมัดด้านความปลอดภัยโดยสมัครใจหลายข้อออกจากเว็บไซต์เมื่อเร็วๆ นี้ แม้ว่าภายหลังจะชี้แจงว่ายังคงยึดมั่นในข้อผูกมัดด้าน AI โดยสมัครใจที่กำหนดขึ้นภายใต้การบริหารของประธานาธิบดีไบเดน

การพัฒนานี้เกิดขึ้นในช่วงเวลาที่บริษัท AI กำลังขยายวิธีการใช้งานโมเดลของตนมากขึ้น รวมถึงในแอปพลิเคชันที่มีความเสี่ยงสูงขึ้นเช่นการปฏิบัติการทางทหาร Scale AI เช่น เพิ่งร่วมมือกับกระทรวงกลาโหมสหรัฐฯ เพื่อใช้เอเจนต์ AI สำหรับการวางแผนและปฏิบัติการทางทหาร ซึ่งเป็นการเคลื่อนไหวที่สร้างความกังวลในหมู่องค์กรสิทธิมนุษยชนและบางส่วนในอุตสาหกรรมเทคโนโลยีเอง

การกำหนดมาตรฐานสำหรับปี 2025

เมื่อโมเดล AI มีความทรงพลังมากขึ้นและถูกผสานเข้ากับระบบสำคัญ การประเมินความปลอดภัยเช่นที่ดำเนินการกับ Claude 3.7 จะมีความสำคัญมากขึ้น รายงานของ Holistic AI แนะนำว่าการต้านทานการโจมตีที่สมบูรณ์แบบของ Claude 3.7 กำหนดมาตรฐานสำหรับความปลอดภัยของ AI ในปี 2025 เน้นย้ำถึงความสำคัญที่เพิ่มขึ้นของความปลอดภัยควบคู่ไปกับเกณฑ์ประสิทธิภาพในการประเมินระบบ AI

สำหรับผู้ใช้ที่ต้องการใช้ประโยชน์จากผู้ช่วย AI ที่ปลอดภัยที่สุด Claude 3.7 Sonnet ดูเหมือนจะเป็นตัวเลือกชั้นนำในปัจจุบัน ที่รวมความสามารถขั้นสูงกับความยืดหยุ่นด้านความปลอดภัยที่ไม่มีใครเทียบ ในขณะที่ภูมิทัศน์ของ AI ยังคงพัฒนาอย่างรวดเร็ว คะแนนความปลอดภัยที่สมบูรณ์แบบของ Claude 3.7 ถือเป็นก้าวสำคัญในความพยายามอย่างต่อเนื่องในการพัฒนาระบบ AI ที่ทั้งทรงพลังและปลอดภัย

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌