ความสามารถในการค้นคว้าเชิงลึกของ Onyx สร้างความประทับใจให้กับผู้ใช้ด้วยวิธีการค้นหาแบบไฮบริด

BigGo Editorial Team
ความสามารถในการค้นคว้าเชิงลึกของ Onyx สร้างความประทับใจให้กับผู้ใช้ด้วยวิธีการค้นหาแบบไฮบริด

ในภูมิทัศน์ของการค้นหาองค์กรและการจัดการความรู้ที่กำลังพัฒนาอย่างรวดเร็ว Onyx (เดิมรู้จักในชื่อ Danswer) ได้ปรากฏตัวขึ้นเป็นโซลูชันที่น่าสนใจและกำลังสร้างกระแสอย่างมากในกลุ่มผู้ใช้ที่มีความรู้ทางเทคนิค แพลตฟอร์มนี้ผสมผสาน AI แบบ generative ที่เป็นโอเพนซอร์สเข้ากับความสามารถในการค้นหาระดับองค์กร ช่วยให้องค์กรสามารถเชื่อมต่อเอกสารภายใน แอปพลิเคชัน และบุคลากรเข้าด้วยกันเป็นระบบความรู้แบบครบวงจร

สิ่งที่น่าสนใจเกี่ยวกับ Onyx ไม่ใช่เพียงแค่ชุดคุณสมบัติเท่านั้น แต่ยังรวมถึงสถาปัตยกรรมทางเทคนิคที่ขับเคลื่อนความสามารถในการค้นหา ซึ่งได้กลายเป็นประเด็นสำคัญในการสนทนาของชุมชน

GitHub repository ของ Onyx แสดงให้เห็นถึงโค้ดและโครงสร้างการพัฒนา
GitHub repository ของ Onyx แสดงให้เห็นถึงโค้ดและโครงสร้างการพัฒนา

วิธีการทำดัชนีแบบไฮบริด

หัวใจสำคัญของประสิทธิภาพของ Onyx คือระบบการทำดัชนีเอกสารแบบไฮบริดที่รวมความถี่ของคำสำคัญเข้ากับเวกเตอร์เอมเบดดิง ไม่เหมือนกับโซลูชันที่พึ่งพาความสามารถในการค้นหาแบบดั้งเดิมของแต่ละแอปพลิเคชัน Onyx สร้างดัชนีเอกสารที่ครอบคลุมจากทุกแหล่งที่เชื่อมต่อ วิธีการนี้แก้ไขความท้าทายหลายประการในการค้นหาระดับองค์กร รวมถึงคำศัพท์เฉพาะทีม การสืบค้นด้วยภาษาธรรมชาติ และการจับคู่แบบไม่ต้องตรงกันทั้งหมด

ดัชนีเอกสารเป็นดัชนีแบบไฮบริดของความถี่คำสำคัญและเวกเตอร์ องค์ประกอบของคำสำคัญช่วยแก้ไขปัญหาเช่นคำศัพท์เฉพาะทีม และองค์ประกอบเวกเตอร์ช่วยให้สามารถใช้คำถามภาษาธรรมชาติและการจับคู่แบบไม่ต้องตรงกันทั้งหมด

สถาปัตยกรรมนี้ช่วยให้ Onyx สามารถประมวลผลเอกสารก่อนเวลาค้นหา สร้างการแสดงผลที่เป็นมิตรกับ LLM ซึ่งช่วยให้การอนุมานเป็นไปอย่างรวดเร็ว ระบบยังรวมสัญญาณเพิ่มเติม เช่น ความทันสมัยของเอกสาร โดยใช้การถ่วงน้ำหนักตามเวลาเพื่อจัดลำดับความสำคัญของข้อมูลที่ทันสมัยกว่าจากทุกแหล่ง

การค้นคว้าเชิงลึกเทียบกับ RAG แบบดั้งเดิม

สมาชิกในชุมชนหลายคนสงสัยว่าความสามารถในการค้นคว้าเชิงลึกของ Onyx แตกต่างจากระบบ Retrieval-Augmented Generation (RAG) มาตรฐานอย่างไร ความแตกต่างอยู่ที่วิธีที่เอเจนต์โต้ตอบกับโครงสร้างพื้นฐานการค้นหา ในขณะที่ RAG ทำหน้าที่เป็นเครื่องมือพื้นฐาน เอเจนต์การค้นคว้าเชิงลึกของ Onyx สามารถทำการค้นหาหลายครั้ง พิจารณาผลลัพธ์ก่อนหน้า และสร้างผลลัพธ์แบบลำดับความคิดเพื่อสำรวจข้อมูลอย่างละเอียดมากขึ้น

เอเจนต์สามารถตัดสินใจว่าคำถามใดควรสำรวจเพิ่มเติม คล้ายกับวิธีที่นักวิจัยมนุษย์อาจติดตามเส้นทางการสอบถามที่แตกต่างกันเมื่อตรวจสอบหัวข้อที่ซับซ้อน สิ่งนี้สร้างกระบวนการวิจัยที่มีพลวัตและละเอียดมากกว่าเมื่อเทียบกับการใช้งาน RAG แบบคำถามเดียว

การจัดการสิทธิ์

ความท้าทายที่สำคัญสำหรับระบบความรู้ขององค์กรคือการจัดการกับรูปแบบสิทธิ์ที่ซับซ้อนในแอปพลิเคชันต่างๆ Onyx แก้ไขปัญหานี้โดยการแมปวัตถุภายนอกและผู้ใช้/กลุ่มที่เกี่ยวข้องให้เป็นการแสดงผลแบบรวมภายในแพลตฟอร์ม

ระบบทำงานแบบอะซิงโครนัสเพื่อตรวจสอบการอัปเดตสิทธิ์ตามช่วงเวลาที่กำหนดค่าได้ โดยมีค่าเริ่มต้นที่ปรับให้เหมาะกับแต่ละประเภทแหล่งข้อมูลภายนอก วิธีการนี้รักษาความปลอดภัยในขณะที่เปิดใช้งานการค้นหาข้ามแอปพลิเคชัน โดยเลือกใช้โมเดลการเข้าถึงที่มีสิทธิ์น้อยที่สุดเสมอเพื่อป้องกันการเปิดเผยข้อมูลที่ไม่ได้รับอนุญาต

ประสิทธิภาพและการประเมินผล

ในการประเมินภายในโดยใช้ชุดข้อมูลที่ประกอบด้วยเนื้อหาทั่วไปขององค์กร (ข้อความใน Slack, เอกสารทางเทคนิค ฯลฯ) Onyx รายงานผลลัพธ์ที่น่าประทับใจ ด้วยชุดทดสอบเอกสาร 10,000 ฉบับ ระบบบรรลุการเรียกคืนมากกว่า 94% ที่ 4,000 โทเค็น และยังคงรักษาการเรียกคืนมากกว่า 90% แม้เมื่อขยายไปถึงหลายแสนเอกสารที่มีสัญญาณรบกวนเพิ่มเติม

แพลตฟอร์มนี้ได้รับการพัฒนาหลักกับ GPT-4o แต่ได้รับการปรับแต่งให้ทำงานได้อย่างมีประสิทธิภาพกับโมเดลล่าสุดอื่นๆ รวมถึง Claude 3.5, Gemini และ Deepseek

คุณสมบัติหลักของ Onyx

  • การทำดัชนีเอกสารแบบไฮบริด (ความถี่คำสำคัญ + เวกเตอร์)
  • มีตัวเชื่อมต่อมากกว่า 40 ตัว รวมถึง Google Drive, Confluence, Slack, Gmail, Salesforce
  • ความสามารถของตัวแทนวิจัยเชิงลึกที่เหนือกว่า RAG มาตรฐาน
  • การจัดการสิทธิ์การเข้าถึงระหว่างแอปพลิเคชันที่แตกต่างกัน
  • ตัวเลือกการติดตั้ง: แบบโลคอล, ออนพรีมิส หรือคลาวด์
  • มีสองเวอร์ชัน: Community Edition (ใบอนุญาต MIT) และ Enterprise Edition

เมตริกประสิทธิภาพ

  • มีค่า recall 94% ที่ 4K โทเค็นบนชุดทดสอบเอกสาร 10K
  • รักษา recall มากกว่า 90% กับเอกสารหลายแสนฉบับ
  • รองรับ LLM แบ็คเอนด์หลายตัว (GPT-4o, Claude 3.5, Gemini, Deepseek)

แผนการพัฒนาในอนาคต

  • วิธีการค้นหาข้อมูลใหม่ (StructRAG, LightGraphRAG)
  • การค้นหาแบบส่วนบุคคล
  • ความเข้าใจองค์กรและการแนะนำผู้เชี่ยวชาญ
  • การค้นหาโค้ด
  • การรองรับ SQL และภาษาคิวรี่แบบมีโครงสร้าง

ทิศทางในอนาคต

มองไปข้างหน้า Onyx กำลังสำรวจวิธีการค้นคืนข้อมูลขั้นสูงหลายวิธี รวมถึงกราฟความรู้ที่ขับเคลื่อนด้วย LLM ที่ปรับแต่งซึ่งได้รับแรงบันดาลใจจากแนวทางเช่น LightGraphRAG คุณสมบัติอื่นๆ ที่วางแผนไว้รวมถึงการค้นหาแบบส่วนบุคคล ความเข้าใจองค์กรพร้อมความสามารถในการแนะนำผู้เชี่ยวชาญ การค้นหาโค้ด และการสนับสนุนภาษาคิวรีแบบมีโครงสร้าง

สำหรับองค์กรที่ต้องการปรับปรุงการค้นพบและการใช้ความรู้ในระบบนิเวศดิจิทัล Onyx เป็นตัวเลือกโอเพนซอร์สที่น่าสนใจที่สามารถติดตั้งได้ในเครื่องท้องถิ่น ในองค์กร หรือบนคลาวด์ รุ่นชุมชนมีให้ใช้ฟรีภายใต้ใบอนุญาต MIT Expat ในขณะที่รุ่นสำหรับองค์กรที่มีคุณสมบัติเพิ่มเติมซึ่งมุ่งเป้าไปที่องค์กรขนาดใหญ่ก็มีให้บริการเช่นกัน

ในขณะที่การค้นหาระดับองค์กรที่ขับเคลื่อนด้วย AI ยังคงพัฒนาต่อไป แนวทางของ Onyx ในการรวมความสามารถในการค้นคว้าเชิงลึกเข้ากับดัชนีเอกสารแบบรวมแสดงให้เห็นถึงวิธีการเชื่อมช่องว่างระหว่างแหล่งข้อมูลที่แตกต่างกันได้อย่างมีประสิทธิภาพ ซึ่งอาจช่วยลดเวลาและความพยายามที่จำเป็นสำหรับผู้ทำงานด้านความรู้ในการค้นหาและสังเคราะห์ข้อมูล

อ้างอิง: Open Source Gen-AI + Enterprise Search