ในภูมิทัศน์ของการค้นหาองค์กรและการจัดการความรู้ที่กำลังพัฒนาอย่างรวดเร็ว Onyx (เดิมรู้จักในชื่อ Danswer) ได้ปรากฏตัวขึ้นเป็นโซลูชันที่น่าสนใจและกำลังสร้างกระแสอย่างมากในกลุ่มผู้ใช้ที่มีความรู้ทางเทคนิค แพลตฟอร์มนี้ผสมผสาน AI แบบ generative ที่เป็นโอเพนซอร์สเข้ากับความสามารถในการค้นหาระดับองค์กร ช่วยให้องค์กรสามารถเชื่อมต่อเอกสารภายใน แอปพลิเคชัน และบุคลากรเข้าด้วยกันเป็นระบบความรู้แบบครบวงจร
สิ่งที่น่าสนใจเกี่ยวกับ Onyx ไม่ใช่เพียงแค่ชุดคุณสมบัติเท่านั้น แต่ยังรวมถึงสถาปัตยกรรมทางเทคนิคที่ขับเคลื่อนความสามารถในการค้นหา ซึ่งได้กลายเป็นประเด็นสำคัญในการสนทนาของชุมชน
![]() |
---|
GitHub repository ของ Onyx แสดงให้เห็นถึงโค้ดและโครงสร้างการพัฒนา |
วิธีการทำดัชนีแบบไฮบริด
หัวใจสำคัญของประสิทธิภาพของ Onyx คือระบบการทำดัชนีเอกสารแบบไฮบริดที่รวมความถี่ของคำสำคัญเข้ากับเวกเตอร์เอมเบดดิง ไม่เหมือนกับโซลูชันที่พึ่งพาความสามารถในการค้นหาแบบดั้งเดิมของแต่ละแอปพลิเคชัน Onyx สร้างดัชนีเอกสารที่ครอบคลุมจากทุกแหล่งที่เชื่อมต่อ วิธีการนี้แก้ไขความท้าทายหลายประการในการค้นหาระดับองค์กร รวมถึงคำศัพท์เฉพาะทีม การสืบค้นด้วยภาษาธรรมชาติ และการจับคู่แบบไม่ต้องตรงกันทั้งหมด
ดัชนีเอกสารเป็นดัชนีแบบไฮบริดของความถี่คำสำคัญและเวกเตอร์ องค์ประกอบของคำสำคัญช่วยแก้ไขปัญหาเช่นคำศัพท์เฉพาะทีม และองค์ประกอบเวกเตอร์ช่วยให้สามารถใช้คำถามภาษาธรรมชาติและการจับคู่แบบไม่ต้องตรงกันทั้งหมด
สถาปัตยกรรมนี้ช่วยให้ Onyx สามารถประมวลผลเอกสารก่อนเวลาค้นหา สร้างการแสดงผลที่เป็นมิตรกับ LLM ซึ่งช่วยให้การอนุมานเป็นไปอย่างรวดเร็ว ระบบยังรวมสัญญาณเพิ่มเติม เช่น ความทันสมัยของเอกสาร โดยใช้การถ่วงน้ำหนักตามเวลาเพื่อจัดลำดับความสำคัญของข้อมูลที่ทันสมัยกว่าจากทุกแหล่ง
การค้นคว้าเชิงลึกเทียบกับ RAG แบบดั้งเดิม
สมาชิกในชุมชนหลายคนสงสัยว่าความสามารถในการค้นคว้าเชิงลึกของ Onyx แตกต่างจากระบบ Retrieval-Augmented Generation (RAG) มาตรฐานอย่างไร ความแตกต่างอยู่ที่วิธีที่เอเจนต์โต้ตอบกับโครงสร้างพื้นฐานการค้นหา ในขณะที่ RAG ทำหน้าที่เป็นเครื่องมือพื้นฐาน เอเจนต์การค้นคว้าเชิงลึกของ Onyx สามารถทำการค้นหาหลายครั้ง พิจารณาผลลัพธ์ก่อนหน้า และสร้างผลลัพธ์แบบลำดับความคิดเพื่อสำรวจข้อมูลอย่างละเอียดมากขึ้น
เอเจนต์สามารถตัดสินใจว่าคำถามใดควรสำรวจเพิ่มเติม คล้ายกับวิธีที่นักวิจัยมนุษย์อาจติดตามเส้นทางการสอบถามที่แตกต่างกันเมื่อตรวจสอบหัวข้อที่ซับซ้อน สิ่งนี้สร้างกระบวนการวิจัยที่มีพลวัตและละเอียดมากกว่าเมื่อเทียบกับการใช้งาน RAG แบบคำถามเดียว
การจัดการสิทธิ์
ความท้าทายที่สำคัญสำหรับระบบความรู้ขององค์กรคือการจัดการกับรูปแบบสิทธิ์ที่ซับซ้อนในแอปพลิเคชันต่างๆ Onyx แก้ไขปัญหานี้โดยการแมปวัตถุภายนอกและผู้ใช้/กลุ่มที่เกี่ยวข้องให้เป็นการแสดงผลแบบรวมภายในแพลตฟอร์ม
ระบบทำงานแบบอะซิงโครนัสเพื่อตรวจสอบการอัปเดตสิทธิ์ตามช่วงเวลาที่กำหนดค่าได้ โดยมีค่าเริ่มต้นที่ปรับให้เหมาะกับแต่ละประเภทแหล่งข้อมูลภายนอก วิธีการนี้รักษาความปลอดภัยในขณะที่เปิดใช้งานการค้นหาข้ามแอปพลิเคชัน โดยเลือกใช้โมเดลการเข้าถึงที่มีสิทธิ์น้อยที่สุดเสมอเพื่อป้องกันการเปิดเผยข้อมูลที่ไม่ได้รับอนุญาต
ประสิทธิภาพและการประเมินผล
ในการประเมินภายในโดยใช้ชุดข้อมูลที่ประกอบด้วยเนื้อหาทั่วไปขององค์กร (ข้อความใน Slack, เอกสารทางเทคนิค ฯลฯ) Onyx รายงานผลลัพธ์ที่น่าประทับใจ ด้วยชุดทดสอบเอกสาร 10,000 ฉบับ ระบบบรรลุการเรียกคืนมากกว่า 94% ที่ 4,000 โทเค็น และยังคงรักษาการเรียกคืนมากกว่า 90% แม้เมื่อขยายไปถึงหลายแสนเอกสารที่มีสัญญาณรบกวนเพิ่มเติม
แพลตฟอร์มนี้ได้รับการพัฒนาหลักกับ GPT-4o แต่ได้รับการปรับแต่งให้ทำงานได้อย่างมีประสิทธิภาพกับโมเดลล่าสุดอื่นๆ รวมถึง Claude 3.5, Gemini และ Deepseek
คุณสมบัติหลักของ Onyx
- การทำดัชนีเอกสารแบบไฮบริด (ความถี่คำสำคัญ + เวกเตอร์)
- มีตัวเชื่อมต่อมากกว่า 40 ตัว รวมถึง Google Drive, Confluence, Slack, Gmail, Salesforce
- ความสามารถของตัวแทนวิจัยเชิงลึกที่เหนือกว่า RAG มาตรฐาน
- การจัดการสิทธิ์การเข้าถึงระหว่างแอปพลิเคชันที่แตกต่างกัน
- ตัวเลือกการติดตั้ง: แบบโลคอล, ออนพรีมิส หรือคลาวด์
- มีสองเวอร์ชัน: Community Edition (ใบอนุญาต MIT) และ Enterprise Edition
เมตริกประสิทธิภาพ
- มีค่า recall 94% ที่ 4K โทเค็นบนชุดทดสอบเอกสาร 10K
- รักษา recall มากกว่า 90% กับเอกสารหลายแสนฉบับ
- รองรับ LLM แบ็คเอนด์หลายตัว (GPT-4o, Claude 3.5, Gemini, Deepseek)
แผนการพัฒนาในอนาคต
- วิธีการค้นหาข้อมูลใหม่ (StructRAG, LightGraphRAG)
- การค้นหาแบบส่วนบุคคล
- ความเข้าใจองค์กรและการแนะนำผู้เชี่ยวชาญ
- การค้นหาโค้ด
- การรองรับ SQL และภาษาคิวรี่แบบมีโครงสร้าง
ทิศทางในอนาคต
มองไปข้างหน้า Onyx กำลังสำรวจวิธีการค้นคืนข้อมูลขั้นสูงหลายวิธี รวมถึงกราฟความรู้ที่ขับเคลื่อนด้วย LLM ที่ปรับแต่งซึ่งได้รับแรงบันดาลใจจากแนวทางเช่น LightGraphRAG คุณสมบัติอื่นๆ ที่วางแผนไว้รวมถึงการค้นหาแบบส่วนบุคคล ความเข้าใจองค์กรพร้อมความสามารถในการแนะนำผู้เชี่ยวชาญ การค้นหาโค้ด และการสนับสนุนภาษาคิวรีแบบมีโครงสร้าง
สำหรับองค์กรที่ต้องการปรับปรุงการค้นพบและการใช้ความรู้ในระบบนิเวศดิจิทัล Onyx เป็นตัวเลือกโอเพนซอร์สที่น่าสนใจที่สามารถติดตั้งได้ในเครื่องท้องถิ่น ในองค์กร หรือบนคลาวด์ รุ่นชุมชนมีให้ใช้ฟรีภายใต้ใบอนุญาต MIT Expat ในขณะที่รุ่นสำหรับองค์กรที่มีคุณสมบัติเพิ่มเติมซึ่งมุ่งเป้าไปที่องค์กรขนาดใหญ่ก็มีให้บริการเช่นกัน
ในขณะที่การค้นหาระดับองค์กรที่ขับเคลื่อนด้วย AI ยังคงพัฒนาต่อไป แนวทางของ Onyx ในการรวมความสามารถในการค้นคว้าเชิงลึกเข้ากับดัชนีเอกสารแบบรวมแสดงให้เห็นถึงวิธีการเชื่อมช่องว่างระหว่างแหล่งข้อมูลที่แตกต่างกันได้อย่างมีประสิทธิภาพ ซึ่งอาจช่วยลดเวลาและความพยายามที่จำเป็นสำหรับผู้ทำงานด้านความรู้ในการค้นหาและสังเคราะห์ข้อมูล