Defuddle โผล่เป็นทางเลือกสมัยใหม่แทน Readability ของ Mozilla สำหรับการดึงเนื้อหาเว็บ

BigGo Editorial Team
Defuddle โผล่เป็นทางเลือกสมัยใหม่แทน Readability ของ Mozilla สำหรับการดึงเนื้อหาเว็บ

ไลบรารี JavaScript ใหม่ที่ชื่อว่า Defuddle ได้รับความสนใจในชุมชนนักพัฒนาในฐานะทางเลือกที่มีศักยภาพในการแทนที่ Readability ของ Mozilla โดยแก้ไขปัญหาที่มีมานานเกี่ยวกับการดึงเนื้อหาเว็บและการแปลง HTML เป็น Markdown สร้างโดยทีมที่อยู่เบื้องหลัง Obsidian Web Clipper โดย Defuddle มีเป้าหมายเพื่อให้ผลลัพธ์ที่สะอาดและสม่ำเสมอมากขึ้นเมื่อดึงเนื้อหาหลักจากหน้าเว็บ

ตัวเลือก Defuddle Bundle:

  • Core bundle (defuddle): Bundle หลักสำหรับการใช้งานบนเบราว์เซอร์ ไม่มี dependencies
  • Full bundle (defuddle/full): รวมฟีเจอร์เพิ่มเติมสำหรับการแยกวิเคราะห์สมการทางคณิตศาสตร์
  • Node.js bundle (defuddle/node): ปรับให้เหมาะสำหรับ Node.js พร้อม JSDOM รวมความสามารถด้านคณิตศาสตร์และ Markdown แบบเต็มรูปแบบ

ชุมชนเน้นย้ำปัญหาคุณภาพและความน่าเชื่อถือของเครื่องมือที่มีอยู่

นักพัฒนาได้แสดงความคิดเห็นอย่างชัดเจนเกี่ยวกับข้อจำกัดของเครื่องมือดึงเนื้อหาเว็บในปัจจุบัน หลายคนประสบความผิดหวังกับ Readability ของ Mozilla ที่มีความระมัดระวังมากเกินไป มักจะลบเนื้อหาที่มีประโยชน์ออกไปในความพยายามที่จะระบุข้อความบทความหลัก การอภิปรายในชุมชนเผยให้เห็นว่าแม้ว่า Readability จะยังคงได้รับการดูแลรักษาอย่างต่อเนื่องพร้อมการอัปเดตล่าสุด แต่แนวทางพื้นฐานของมันมีข้อบกพร่องที่ส่งผลต่อการใช้งานจริง

ปัญหาหนึ่งที่ได้รับการกล่าวถึงเป็นพิเศษเกี่ยวข้องกับปัญหาการจัดรูปแบบเฉพาะภาษา ซึ่งหน้าเว็บที่มีราคาเป็นภาษาดัตช์หรือภาษาอื่น ๆ ที่ใช้เครื่องหมายจุลภาคแทนจุดทศนิยมสำหรับตัวเลขสามารถทำให้อัลกอริทึมการดึงข้อมูลสับสนได้ ข้อบกพร่องเหล่านี้เน้นย้ำถึงความท้าทายในการรักษาโซลูชันแบบเดียวเหมาะกับทุกคนสำหรับเนื้อหาเว็บที่หลากหลาย

แนวทางหลายขั้นตอนของ Defuddle ให้การกู้คืนเนื้อหาที่ดีกว่า

แตกต่างจากเครื่องมือดึงข้อมูลแบบดั้งเดิม Defuddle ใช้ระบบการตรวจจับแบบหลายขั้นตอนที่สามารถกู้คืนได้เมื่อความพยายามเริ่มต้นไม่ส่งคืนเนื้อหาใด ๆ แนวทางนี้ช่วยให้มันอ่อนโยนมากขึ้นในขณะที่ยังคงรักษาความแม่นยำไว้ ไลบรารียังใช้เทคนิคที่นวัตกรรมเช่นการวิเคราะห์สไตล์มือถือของหน้าเพื่อระบุองค์ประกอบที่สามารถซ่อนหรือลบออกได้อย่างปลอดภัย

เครื่องมือนี้ไปไกลกว่าการดึงเนื้อหาธรรมดาโดยการมาตรฐานรูปแบบผลลัพธ์ เชิงอรรถ บล็อกโค้ด และสมการทางคณิตศาสตร์ทั้งหมดถูกแปลงเป็นโครงสร้าง HTML ที่สม่ำเสมอ ทำให้ผลลัพธ์เหมาะสมกว่าสำหรับการประมวลผลขั้นต่อไปเช่นการแปลง Markdown

ตัวเลือกการกำหนดค่าหลัก:

  • debug: เปิดใช้งานการบันทึกข้อมูลแบบละเอียดและรักษาคุณสมบัติ HTML ไว้
  • markdown: แปลงเนื้อหาเป็นรูปแบบ Markdown
  • separateMarkdown: เก็บเนื้อหา HTML ไว้และส่งคืนเวอร์ชัน Markdown แยกต่างหาก
  • removeExactSelectors: ลบองค์ประกอบที่ตรงกับตัวเลือกโฆษณา/โซเชียลแบบตรงทั้งหมด (ค่าเริ่มต้น: true)
  • removePartialSelectors: ลบองค์ประกอบที่ตรงกับตัวเลือกโฆษณา/โซเชียลแบบบางส่วน (ค่าเริ่มต้น: true)

ประสิทธิภาพที่แข็งแกร่งในการใช้งานจริง

ความคิดเห็นจากชุมชนผู้ใช้ Obsidian Web Clipper เป็นไปในทางบวกเป็นพิเศษ โดยหลายคนชื่นชมความน่าเชื่อถือของคุณภาพการดึง Markdown เครื่องมือนี้ได้พิสูจน์ความมีประสิทธิภาพสำหรับกรณีการใช้งานต่าง ๆ ตั้งแต่การสร้างฐานความรู้ไปจนถึงการสร้างบริบทเว็บที่สะอาดสำหรับโมเดลภาษา AI

คุณภาพการดึง markdown เป็นสิ่งที่เชื่อถือได้มากที่สุดที่ฉันเคยเห็น

ความสามารถของไลบรารีในการจัดการประเภทเนื้อหาที่ซับซ้อน รวมถึงสมการทางคณิตศาสตร์ผ่านการแปลง MathML และการจัดรูปแบบเชิงอรรถที่มาตรฐาน ทำให้มันแตกต่างจากเครื่องมือดึงข้อมูลที่เรียบง่ายกว่า

รูปแบบผลลัพธ์มาตรฐาน:

  • หัวข้อ: ลบ H1/H2 แรกออกหากตรงกับชื่อเรื่อง แปลง H1s เป็น H2s
  • บล็อกโค้ด: มาตรฐานด้วยแอตทริบิวต์ข้อมูลภาษา: <code data-lang="js" class="language-js">
  • เชิงอรรถ: รูปแบบสม่ำเสมอด้วยการอ้างอิงแบบตัวเลขและลิงก์ย้อนกลับ
  • คณิตศาสตร์: แปลงเป็น MathML มาตรฐานด้วยแอตทริบิวต์ข้อมูล LaTeX

โซลูชันทางเลือกได้รับการยอมรับ

การอภิปรายยังได้นำความสนใจไปสู่ทางเลือกที่แข็งแกร่งอื่น ๆ ในพื้นที่การดึงเนื้อหา นักพัฒนา Python พบความสำเร็จกับ Trafilatura ซึ่งให้คุณภาพการดึงข้อมูลที่เทียบเคียงได้พร้อมการดึงข้อมูลเมตาที่แม่นยำ สำหรับนักพัฒนา Go มีพอร์ตที่ได้รับการดูแลรักษาอย่างต่อเนื่องของทั้ง Readability และ Trafilatura ให้ตัวเลือกข้ามภาษาการเขียนโปรแกรมที่แตกต่างกัน

ทางเลือกเหล่านี้บ่งบอกถึงการยอมรับที่เพิ่มขึ้นว่าความต้องการการดึงเนื้อหาเว็บได้พัฒนาไปเกินกว่าที่เครื่องมือแบบดั้งเดิมสามารถให้ได้ ขับเคลื่อนนวัตกรรมข้ามระบบนิเวศการเขียนโปรแกรมหลายระบบ

Defuddle แสดงถึงก้าวสำคัญไปข้างหน้าในเทคโนโลยีการดึงเนื้อหาเว็บ โดยแก้ไขปัญหาในโลกจริงที่นักพัฒนาเผชิญทุกวัน การมุ่งเน้นไปที่ผลลัพธ์ที่มาตรฐานและการตรวจจับแบบหลายขั้นตอนทำให้มันมีคุณค่าเป็นพิเศษสำหรับแอปพลิเคชันที่ต้องการการดึงเนื้อหาที่เชื่อถือได้และสะอาดจากภูมิทัศน์ที่ซับซ้อนมากขึ้นของหน้าเว็บสมัยใหม่

อ้างอิง: Defuddle