การเปิดตัว OmniAl OCR Benchmark เมื่อเร็วๆ นี้ได้จุดประกายการถกเถียงอย่างมากในชุมชน AI โดยโมเดล Qwen2.5-VL ของ Alibaba โดดเด่นขึ้นมาเป็นผู้นำในงานด้านการรู้จำตัวอักษรด้วยแสง (OCR) เบนช์มาร์กนี้ประเมินทั้งผู้ให้บริการ OCR แบบดั้งเดิมและโมเดลภาษาแบบมัลติโมดัลในความสามารถด้านการดึงข้อความและข้อมูลที่มีโครงสร้างจากเอกสาร
โมเดล Qwen2.5-VL แสดงประสิทธิภาพที่น่าประทับใจ
โมเดล Qwen2.5-VL โดยเฉพาะรุ่น 32B และ 72B ได้แสดงความสามารถด้าน OCR ที่โดดเด่นตามข้อเสนอแนะจากชุมชน โมเดลเหล่านี้ไม่เพียงแต่เก่งในการดึงข้อความ แต่ยังมีฟังก์ชันการระบุกรอบข้อความ (bounding box)—คุณสมบัติที่มักเชื่อมโยงกับเครื่องมือ OCR เฉพาะทางมากกว่าโมเดลมัลติโมดัลทั่วไป ความสามารถนี้ช่วยให้โมเดลสามารถระบุตำแหน่งที่แน่นอนของข้อความในรูปภาพ ซึ่งสำคัญมากสำหรับกระบวนการตรวจสอบและแก้ไข
Actually qwen 2.5 is trained to provide bounding boxes
ฟังก์ชันการระบุกรอบข้อความนี้เป็นความก้าวหน้าที่สำคัญ เนื่องจากแก้ไขข้อจำกัดหลักที่เคยขัดขวางการนำโซลูชัน OCR ที่ใช้ LLM ไปใช้อย่างแพร่หลายในสภาพแวดล้อมการผลิต สำหรับแอปพลิเคชันที่ต้องการการตรวจสอบโดยมนุษย์ ความสามารถในการระบุตำแหน่งข้อความในเอกสารต้นฉบับได้อย่างรวดเร็วช่วยปรับปรุงประสิทธิภาพของเวิร์กโฟลว์อย่างมาก
![]() |
---|
แผนภูมิแสดงระเบียบวิธีการประมวลผลข้อความและบทบาทของโมเดลการเรียนรู้ของเครื่องในการประเมินเอกสาร |
การพิจารณาด้านต้นทุนและประสิทธิภาพ
ตามข้อมูลเบนช์มาร์กที่แชร์ในความคิดเห็น โมเดลเหล่านี้แสดงให้เห็นถึงการแลกเปลี่ยนระหว่างต้นทุนและประสิทธิภาพที่น่าสนใจ โมเดล Qwen 32B ประมวลผลเอกสารที่ประมาณ 0.33 ดอลลาร์สหรัฐ ต่อ 1000 หน้า โดยมีความล่าช้า 53 วินาทีต่อหน้า ในขณะที่ Qwen 72B ซึ่งใหญ่กว่ามีต้นทุนประมาณ 0.71 ดอลลาร์สหรัฐ ต่อ 1000 หน้า ด้วยความล่าช้าที่ใกล้เคียงกัน เมื่อเทียบกัน Llama 90B แสดงต้นทุนที่สูงกว่ามากที่ 8.50 ดอลลาร์สหรัฐ ต่อ 1000 หน้า
ชุมชนได้สังเกตว่าราคาสามารถแตกต่างกันอย่างมากขึ้นอยู่กับผู้ให้บริการโฮสติ้ง ทำให้การเปรียบเทียบต้นทุนแบบมาตรฐานเป็นเรื่องท้าทาย โมเดลอย่าง Mistral นำเสนอการประมวลผลที่เร็วกว่า (3 วินาทีต่อหน้า) ในอัตราที่แข่งขันได้ (1.00 ดอลลาร์สหรัฐ ต่อ 1000 หน้า) ซึ่งเน้นย้ำถึงตัวเลือกที่หลากหลายสำหรับนักพัฒนา
ข้อมูลประสิทธิภาพของโมเดล
โมเดล | ต้นทุน (ต่อ 1000 หน้า) | ความล่าช้า (ต่อหน้า) |
---|---|---|
Qwen 32B | $0.33 | 53 วินาที |
Qwen 72B | $0.71 | 51 วินาที |
Llama 90B | $8.50 | 44 วินาที |
Llama 11B | $0.21 | 8 วินาที |
Gemma 27B | $0.25 | 22 วินาที |
Mistral | $1.00 | 3 วินาที |
หมายเหตุ: ต้นทุนอาจแตกต่างกันไปขึ้นอยู่กับผู้ให้บริการโฮสติ้ง
การแข่งขันที่เพิ่มขึ้นในด้าน AI แบบมัลติโมดัล
สมาชิกในชุมชนได้แสดงความประหลาดใจกับความรวดเร็วในการพัฒนาของโมเดล Qwen ในงานที่เกี่ยวข้องกับการมองเห็น ผู้ใช้หลายคนรายงานว่าโมเดล Qwen2.5-VL รุ่นใหม่ล่าสุดไม่เพียงแต่พัฒนาจากรุ่นก่อนหน้า แต่ยังแสดงให้เห็นถึงความเสถียรที่มากขึ้นและความง่ายในการปรับแต่ง ผู้ใช้บางคนยังแนะนำว่าโมเดล Qwen 2.5 VL 72B ตอนนี้สามารถแข่งขันกับ Gemini ของ Google สำหรับงานด้านวิชั่นทั่วไป ทำให้อยู่ในอันดับที่สองรองจาก GPT-4o ของ OpenAI เท่านั้น
สิ่งที่ทำให้เรื่องนี้น่าสังเกตเป็นพิเศษคือโมเดลเหล่านี้สามารถทำงานในเครื่องได้ ซึ่งเป็นทางเลือกโอเพนซอร์สสำหรับโซลูชันที่เป็นกรรมสิทธิ์ ตัวเลือกการใช้งานในเครื่องนี้มีค่าโดยเฉพาะสำหรับแอปพลิเคชันที่มีข้อกำหนดด้านความเป็นส่วนตัวหรือที่ต้องประมวลผลเอกสารที่ละเอียดอ่อนโดยไม่ต้องส่งข้อมูลไปยัง API ภายนอก
การประยุกต์ใช้งานจริงและข้อจำกัด
ผู้ใช้รายงานความสำเร็จกับโมเดลเหล่านี้ในการประยุกต์ใช้งานจริงต่างๆ รวมถึงการดึงข้อความจากการ์ดเกมกระดานสำหรับการแปลงข้อความเป็นเสียงและการประมวลผลเอกสารธุรกิจ อย่างไรก็ตาม การสนทนาในชุมชนยังเน้นย้ำว่าสำหรับแอปพลิเคชันที่สำคัญต่อภารกิจซึ่งต้องการความแม่นยำ 95%+ การตรวจสอบโดยมนุษย์ยังคงจำเป็น
เบนช์มาร์กเองก็ไม่ได้เป็นเพียงการประเมิน OCR อย่างง่าย แต่มุ่งเน้นไปที่ความสามารถของโมเดลในการดึงข้อมูล JSON ที่มีโครงสร้างจากเอกสาร—งานที่รวมความสามารถด้าน OCR กับความเข้าใจด้านความหมาย สิ่งนี้สะท้อนถึงแนวโน้มที่เพิ่มขึ้นของระบบประมวลผลเอกสารแบบครบวงจรที่สามารถดึงข้อมูลที่มีโครงสร้างได้โดยตรงแทนที่จะเพียงแค่ถอดความข้อความ
เมื่อโมเดลโอเพนซอร์สเหล่านี้ยังคงพัฒนาขึ้นเรื่อยๆ พวกมันก็ท้าทายโซลูชันที่เป็นกรรมสิทธิ์มากขึ้นในงานประมวลผลเอกสารที่เคยถูกครอบงำโดยผู้ให้บริการ OCR เฉพาะทาง สำหรับนักพัฒนาและธุรกิจที่ทำงานกับระบบอัตโนมัติของเอกสาร การพัฒนาอย่างรวดเร็วของโมเดลเหล่านี้นำเสนอตัวเลือกใหม่ที่น่าสนใจสำหรับการสร้างไปป์ไลน์การประมวลผลเอกสารที่มีความสามารถมากขึ้นและคุ้มค่ากว่า
อ้างอิง: OmniAl OCR Benchmark
![]() |
---|
การเปรียบเทียบระหว่างเอกสารต้นฉบับและเอกสารอ้างอิงความจริง แสดงให้เห็นถึงการประเมินความแม่นยำของ OCR ในการประมวลผลเอกสาร |