ชุมชนถกเถียงเรื่อง MILS ของ Meta: LLM สามารถ "มองเห็นและได้ยิน" โดยไม่ต้องฝึกฝนจริงหรือ?

BigGo Editorial Team
ชุมชนถกเถียงเรื่อง MILS ของ Meta: LLM สามารถ "มองเห็นและได้ยิน" โดยไม่ต้องฝึกฝนจริงหรือ?

FAIR (Facebook AI Research) ของ Meta เพิ่งเผยแพร่งานวิจัยชื่อ LLMs can see and hear without any training ซึ่งได้จุดประเด็นถกเถียงอย่างมากในชุมชน AI งานวิจัยนี้แนะนำวิธีการที่เรียกว่า MILS ซึ่งช่วยให้โมเดลภาษาสามารถทำงานแบบหลายโมดัลได้ เช่น การบรรยายภาพ เสียง และวิดีโอ โดยไม่ต้องผ่านการฝึกฝนเฉพาะสำหรับโมดัลเหล่านี้ อย่างไรก็ตาม ปฏิกิริยาจากชุมชนบ่งชี้ว่าชื่อเรื่องอาจดูน่าตื่นเต้นเกินกว่าความสำเร็จทางเทคนิคที่แท้จริง

สถาปัตยกรรม Actor-Critic ในชื่อใหม่

แก่นหลักของ MILS ใช้สิ่งที่หลายคนในชุมชนจำได้ทันทีว่าเป็นการตั้งค่าแบบ Actor-Critic แม้ว่าน่าสนใจที่คำศัพท์นี้ไม่ปรากฏในงานวิจัยเลย ระบบนี้ใช้ Generator (LLM) และ Scorer (เช่น CLIP) ในกระบวนการทำซ้ำที่ LLM สร้างคำบรรยายและรับข้อมูลป้อนกลับจากโมเดลการให้คะแนนที่ผ่านการฝึกฝนมาแล้ว

ใช่ ดูเหมือนพวกเขาได้พัฒนาชื่อใหม่: Generator และ Scorer นี่รู้สึกคล้ายกับปรากฏการณ์ Tai's Model

แนวทางนี้ถูกนำไปเปรียบเทียบกับปรากฏการณ์ Tai's Model ที่แนวคิดที่มีอยู่แล้วถูกนำมาตั้งชื่อใหม่ด้วยคำศัพท์ใหม่ ชุมชนชี้ให้เห็นว่าแม้วิธีการนี้จะฉลาด แต่การนำเสนองานวิจัยบ่งชี้ถึงความใหม่มากกว่าที่ควรจะเป็น

องค์ประกอบหลักของระบบ MILS

  • Generator: แบบจำลองภาษาขนาดใหญ่ (โดยเฉพาะแบบจำลอง Llama ขนาด 8B) ที่สร้างคำบรรยายหรือคำอธิบาย
  • Scorer: แบบจำลองที่ผ่านการฝึกฝนมาก่อนเช่น CLIP ที่ประเมินผลลัพธ์จาก Generator
  • กระบวนการทำงาน: กระบวนการทำซ้ำที่ LLM ปรับปรุงผลลัพธ์ตามข้อเสนอแนะจาก scorer

งานที่แสดงในงานวิจัย

  • การบรรยายภาพ
  • การบรรยายเสียง
  • การบรรยายวิดีโอ
  • การสร้างภาพคุณภาพสูง
  • การถ่ายทอดสไตล์
  • การคำนวณข้ามรูปแบบสื่อ

ชื่อเรื่องกับความเป็นจริง: ทำความเข้าใจกับข้อกล่าวอ้าง

ผู้แสดงความคิดเห็นหลายคนมีปัญหากับชื่อเรื่องของงานวิจัย โดยบอกว่ามันบิดเบือนสิ่งที่เกิดขึ้นจริง ระบบนี้ไม่ได้ทำให้ LLM มองเห็นและได้ยินได้อย่างที่ชื่อเรื่องบอก แต่เป็นการสร้างวงจรข้อมูลป้อนกลับที่ LLM ปรับปรุงผลลัพธ์ของตนเองซ้ำๆ ตามคะแนนจากโมเดลที่ได้รับการฝึกฝนด้านภาพหรือเสียงมาแล้ว

แนวทางนี้คล้ายกับคนตาบอดเล่นเกม Marco Polo ที่พวกเขานำทางไปสู่เป้าหมายตามข้อมูลป้อนกลับว่า ร้อนขึ้นหรือเย็นลง LLM ไม่ได้ประมวลผลข้อมูลภาพหรือเสียงโดยตรง แต่ใช้ข้อมูลป้อนกลับเป็นข้อความเกี่ยวกับการคาดเดาเพื่อหาคำอธิบายที่เหมาะสม

ความสามารถที่เกิดขึ้นเองหรือการออกแบบทางวิศวกรรมที่ฉลาด?

ผู้สนับสนุนงานวิจัยบางคนเน้นย้ำว่าแนวทางนี้แสดงให้เห็นถึงความสามารถที่เกิดขึ้นเองของ LLM เนื่องจากโมเดลภาษาไม่ได้รับการฝึกฝนอย่างชัดเจนให้ตีความข้อมูลป้อนกลับจากโมเดลภาพและปรับตัวตามนั้น ความสามารถในการทำเช่นนี้อาจถือเป็นคุณสมบัติที่เกิดขึ้นเอง LLM กำลังหาทางไปสู่คำอธิบายที่ถูกต้องโดยไม่มีตัวอย่างของงานเฉพาะนี้ในข้อมูลการฝึกฝน

อย่างไรก็ตาม นักวิจารณ์ชี้ให้เห็นว่าระบบยังคงพึ่งพาโมเดลหลายโมดัลที่ผ่านการฝึกฝนมาแล้วอย่าง CLIP ซึ่งได้รับการฝึกฝนด้วยข้อมูลภาพจำนวนมาก การถกเถียงมุ่งเน้นไปที่ว่า without any training เป็นการอธิบายที่ถูกต้องหรือไม่เมื่อระบบยังต้องพึ่งพาองค์ประกอบอื่นที่ผ่านการฝึกฝนมาแล้ว

การใช้คำเปรียบเทียบความสามารถของ AI กับมนุษย์

ประเด็นที่เกิดขึ้นซ้ำในความคิดเห็นคือความกังวลเกี่ยวกับการใช้ภาษาเปรียบเทียบ AI กับมนุษย์ ผู้แสดงความคิดเห็นบางคนเปรียบเทียบเชิงเสียดสีกับอุปกรณ์ง่ายๆ เช่น photoresistor และ thermostat ที่สามารถ เห็น ความมืดหรือ รู้สึก อุณหภูมิโดยไม่ต้องฝึกฝนหรือเขียนโค้ด

แม้ว่าการเปรียบเทียบเหล่านี้จะเกินจริงอย่างชัดเจน แต่พวกเขาเน้นย้ำความกังวลที่ชอบธรรมเกี่ยวกับวิธีการสื่อสารงานวิจัย AI การใช้คำที่เหมือนมนุษย์เช่น มองเห็น และ ได้ยิน อาจสร้างความเข้าใจผิดเกี่ยวกับสิ่งที่ระบบเหล่านี้กำลังทำและวิธีการทำงาน

ปฏิกิริยาของชุมชนต่องานวิจัยนี้สะท้อนถึงความตึงเครียดที่กว้างขึ้นในการสื่อสารงานวิจัย AI ที่แรงกดดันในการสร้างหัวข้อที่ดึงดูดความสนใจบางครั้งขัดแย้งกับคำอธิบายทางเทคนิคที่แม่นยำ เมื่อห้องปฏิบัติการวิจัยขนาดใหญ่แข่งขันเพื่อความสนใจและเงินทุน จึงมีความกังวลที่เพิ่มขึ้นเกี่ยวกับการโฆษณาชวนเชื่อที่ไม่จำเป็นในการนำเสนอความสามารถของ AI

แม้จะมีคำวิจารณ์เหล่านี้ แนวทางทางเทคนิคที่อธิบายในงานวิจัยก็ยังแสดงถึงวิธีการที่น่าสนใจในการใช้ประโยชน์จาก LLM ในงานหลายโมดัลโดยไม่ต้องปรับแต่งเฉพาะงาน แม้ว่าข้อกล่าวอ้าง without any training จะต้องมีการอธิบายเพิ่มเติมอย่างมาก

อ้างอิง: LLMs can see and hear without any training

คลังข้อมูล GitHub ของโครงการ MILS ของ Meta ที่แสดงให้เห็นถึงพื้นฐานทางเทคนิคเบื้องหลังข้อกล่าวอ้างที่เป็นที่ถกเถียงเกี่ยวกับความสามารถของ LLM
คลังข้อมูล GitHub ของโครงการ MILS ของ Meta ที่แสดงให้เห็นถึงพื้นฐานทางเทคนิคเบื้องหลังข้อกล่าวอ้างที่เป็นที่ถกเถียงเกี่ยวกับความสามารถของ LLM