FAIR (Facebook AI Research) ของ Meta เพิ่งเผยแพร่งานวิจัยชื่อ LLMs can see and hear without any training ซึ่งได้จุดประเด็นถกเถียงอย่างมากในชุมชน AI งานวิจัยนี้แนะนำวิธีการที่เรียกว่า MILS ซึ่งช่วยให้โมเดลภาษาสามารถทำงานแบบหลายโมดัลได้ เช่น การบรรยายภาพ เสียง และวิดีโอ โดยไม่ต้องผ่านการฝึกฝนเฉพาะสำหรับโมดัลเหล่านี้ อย่างไรก็ตาม ปฏิกิริยาจากชุมชนบ่งชี้ว่าชื่อเรื่องอาจดูน่าตื่นเต้นเกินกว่าความสำเร็จทางเทคนิคที่แท้จริง
สถาปัตยกรรม Actor-Critic ในชื่อใหม่
แก่นหลักของ MILS ใช้สิ่งที่หลายคนในชุมชนจำได้ทันทีว่าเป็นการตั้งค่าแบบ Actor-Critic แม้ว่าน่าสนใจที่คำศัพท์นี้ไม่ปรากฏในงานวิจัยเลย ระบบนี้ใช้ Generator (LLM) และ Scorer (เช่น CLIP) ในกระบวนการทำซ้ำที่ LLM สร้างคำบรรยายและรับข้อมูลป้อนกลับจากโมเดลการให้คะแนนที่ผ่านการฝึกฝนมาแล้ว
ใช่ ดูเหมือนพวกเขาได้พัฒนาชื่อใหม่: Generator และ Scorer นี่รู้สึกคล้ายกับปรากฏการณ์ Tai's Model
แนวทางนี้ถูกนำไปเปรียบเทียบกับปรากฏการณ์ Tai's Model ที่แนวคิดที่มีอยู่แล้วถูกนำมาตั้งชื่อใหม่ด้วยคำศัพท์ใหม่ ชุมชนชี้ให้เห็นว่าแม้วิธีการนี้จะฉลาด แต่การนำเสนองานวิจัยบ่งชี้ถึงความใหม่มากกว่าที่ควรจะเป็น
องค์ประกอบหลักของระบบ MILS
- Generator: แบบจำลองภาษาขนาดใหญ่ (โดยเฉพาะแบบจำลอง Llama ขนาด 8B) ที่สร้างคำบรรยายหรือคำอธิบาย
- Scorer: แบบจำลองที่ผ่านการฝึกฝนมาก่อนเช่น CLIP ที่ประเมินผลลัพธ์จาก Generator
- กระบวนการทำงาน: กระบวนการทำซ้ำที่ LLM ปรับปรุงผลลัพธ์ตามข้อเสนอแนะจาก scorer
งานที่แสดงในงานวิจัย
- การบรรยายภาพ
- การบรรยายเสียง
- การบรรยายวิดีโอ
- การสร้างภาพคุณภาพสูง
- การถ่ายทอดสไตล์
- การคำนวณข้ามรูปแบบสื่อ
ชื่อเรื่องกับความเป็นจริง: ทำความเข้าใจกับข้อกล่าวอ้าง
ผู้แสดงความคิดเห็นหลายคนมีปัญหากับชื่อเรื่องของงานวิจัย โดยบอกว่ามันบิดเบือนสิ่งที่เกิดขึ้นจริง ระบบนี้ไม่ได้ทำให้ LLM มองเห็นและได้ยินได้อย่างที่ชื่อเรื่องบอก แต่เป็นการสร้างวงจรข้อมูลป้อนกลับที่ LLM ปรับปรุงผลลัพธ์ของตนเองซ้ำๆ ตามคะแนนจากโมเดลที่ได้รับการฝึกฝนด้านภาพหรือเสียงมาแล้ว
แนวทางนี้คล้ายกับคนตาบอดเล่นเกม Marco Polo ที่พวกเขานำทางไปสู่เป้าหมายตามข้อมูลป้อนกลับว่า ร้อนขึ้นหรือเย็นลง LLM ไม่ได้ประมวลผลข้อมูลภาพหรือเสียงโดยตรง แต่ใช้ข้อมูลป้อนกลับเป็นข้อความเกี่ยวกับการคาดเดาเพื่อหาคำอธิบายที่เหมาะสม
ความสามารถที่เกิดขึ้นเองหรือการออกแบบทางวิศวกรรมที่ฉลาด?
ผู้สนับสนุนงานวิจัยบางคนเน้นย้ำว่าแนวทางนี้แสดงให้เห็นถึงความสามารถที่เกิดขึ้นเองของ LLM เนื่องจากโมเดลภาษาไม่ได้รับการฝึกฝนอย่างชัดเจนให้ตีความข้อมูลป้อนกลับจากโมเดลภาพและปรับตัวตามนั้น ความสามารถในการทำเช่นนี้อาจถือเป็นคุณสมบัติที่เกิดขึ้นเอง LLM กำลังหาทางไปสู่คำอธิบายที่ถูกต้องโดยไม่มีตัวอย่างของงานเฉพาะนี้ในข้อมูลการฝึกฝน
อย่างไรก็ตาม นักวิจารณ์ชี้ให้เห็นว่าระบบยังคงพึ่งพาโมเดลหลายโมดัลที่ผ่านการฝึกฝนมาแล้วอย่าง CLIP ซึ่งได้รับการฝึกฝนด้วยข้อมูลภาพจำนวนมาก การถกเถียงมุ่งเน้นไปที่ว่า without any training เป็นการอธิบายที่ถูกต้องหรือไม่เมื่อระบบยังต้องพึ่งพาองค์ประกอบอื่นที่ผ่านการฝึกฝนมาแล้ว
การใช้คำเปรียบเทียบความสามารถของ AI กับมนุษย์
ประเด็นที่เกิดขึ้นซ้ำในความคิดเห็นคือความกังวลเกี่ยวกับการใช้ภาษาเปรียบเทียบ AI กับมนุษย์ ผู้แสดงความคิดเห็นบางคนเปรียบเทียบเชิงเสียดสีกับอุปกรณ์ง่ายๆ เช่น photoresistor และ thermostat ที่สามารถ เห็น ความมืดหรือ รู้สึก อุณหภูมิโดยไม่ต้องฝึกฝนหรือเขียนโค้ด
แม้ว่าการเปรียบเทียบเหล่านี้จะเกินจริงอย่างชัดเจน แต่พวกเขาเน้นย้ำความกังวลที่ชอบธรรมเกี่ยวกับวิธีการสื่อสารงานวิจัย AI การใช้คำที่เหมือนมนุษย์เช่น มองเห็น และ ได้ยิน อาจสร้างความเข้าใจผิดเกี่ยวกับสิ่งที่ระบบเหล่านี้กำลังทำและวิธีการทำงาน
ปฏิกิริยาของชุมชนต่องานวิจัยนี้สะท้อนถึงความตึงเครียดที่กว้างขึ้นในการสื่อสารงานวิจัย AI ที่แรงกดดันในการสร้างหัวข้อที่ดึงดูดความสนใจบางครั้งขัดแย้งกับคำอธิบายทางเทคนิคที่แม่นยำ เมื่อห้องปฏิบัติการวิจัยขนาดใหญ่แข่งขันเพื่อความสนใจและเงินทุน จึงมีความกังวลที่เพิ่มขึ้นเกี่ยวกับการโฆษณาชวนเชื่อที่ไม่จำเป็นในการนำเสนอความสามารถของ AI
แม้จะมีคำวิจารณ์เหล่านี้ แนวทางทางเทคนิคที่อธิบายในงานวิจัยก็ยังแสดงถึงวิธีการที่น่าสนใจในการใช้ประโยชน์จาก LLM ในงานหลายโมดัลโดยไม่ต้องปรับแต่งเฉพาะงาน แม้ว่าข้อกล่าวอ้าง without any training จะต้องมีการอธิบายเพิ่มเติมอย่างมาก
อ้างอิง: LLMs can see and hear without any training
![]() |
---|
คลังข้อมูล GitHub ของโครงการ MILS ของ Meta ที่แสดงให้เห็นถึงพื้นฐานทางเทคนิคเบื้องหลังข้อกล่าวอ้างที่เป็นที่ถกเถียงเกี่ยวกับความสามารถของ LLM |