ไลบรารี JavaScript ใหม่ที่ชื่อว่า Defuddle ได้รับความสนใจในชุมชนนักพัฒนาในฐานะทางเลือกที่มีศักยภาพในการแทนที่ Readability ของ Mozilla โดยแก้ไขปัญหาที่มีมานานเกี่ยวกับการดึงเนื้อหาเว็บและการแปลง HTML เป็น Markdown สร้างโดยทีมที่อยู่เบื้องหลัง Obsidian Web Clipper โดย Defuddle มีเป้าหมายเพื่อให้ผลลัพธ์ที่สะอาดและสม่ำเสมอมากขึ้นเมื่อดึงเนื้อหาหลักจากหน้าเว็บ
ตัวเลือก Defuddle Bundle:
- Core bundle (
defuddle
): Bundle หลักสำหรับการใช้งานบนเบราว์เซอร์ ไม่มี dependencies - Full bundle (
defuddle/full
): รวมฟีเจอร์เพิ่มเติมสำหรับการแยกวิเคราะห์สมการทางคณิตศาสตร์ - Node.js bundle (
defuddle/node
): ปรับให้เหมาะสำหรับ Node.js พร้อม JSDOM รวมความสามารถด้านคณิตศาสตร์และ Markdown แบบเต็มรูปแบบ
ชุมชนเน้นย้ำปัญหาคุณภาพและความน่าเชื่อถือของเครื่องมือที่มีอยู่
นักพัฒนาได้แสดงความคิดเห็นอย่างชัดเจนเกี่ยวกับข้อจำกัดของเครื่องมือดึงเนื้อหาเว็บในปัจจุบัน หลายคนประสบความผิดหวังกับ Readability ของ Mozilla ที่มีความระมัดระวังมากเกินไป มักจะลบเนื้อหาที่มีประโยชน์ออกไปในความพยายามที่จะระบุข้อความบทความหลัก การอภิปรายในชุมชนเผยให้เห็นว่าแม้ว่า Readability จะยังคงได้รับการดูแลรักษาอย่างต่อเนื่องพร้อมการอัปเดตล่าสุด แต่แนวทางพื้นฐานของมันมีข้อบกพร่องที่ส่งผลต่อการใช้งานจริง
ปัญหาหนึ่งที่ได้รับการกล่าวถึงเป็นพิเศษเกี่ยวข้องกับปัญหาการจัดรูปแบบเฉพาะภาษา ซึ่งหน้าเว็บที่มีราคาเป็นภาษาดัตช์หรือภาษาอื่น ๆ ที่ใช้เครื่องหมายจุลภาคแทนจุดทศนิยมสำหรับตัวเลขสามารถทำให้อัลกอริทึมการดึงข้อมูลสับสนได้ ข้อบกพร่องเหล่านี้เน้นย้ำถึงความท้าทายในการรักษาโซลูชันแบบเดียวเหมาะกับทุกคนสำหรับเนื้อหาเว็บที่หลากหลาย
แนวทางหลายขั้นตอนของ Defuddle ให้การกู้คืนเนื้อหาที่ดีกว่า
แตกต่างจากเครื่องมือดึงข้อมูลแบบดั้งเดิม Defuddle ใช้ระบบการตรวจจับแบบหลายขั้นตอนที่สามารถกู้คืนได้เมื่อความพยายามเริ่มต้นไม่ส่งคืนเนื้อหาใด ๆ แนวทางนี้ช่วยให้มันอ่อนโยนมากขึ้นในขณะที่ยังคงรักษาความแม่นยำไว้ ไลบรารียังใช้เทคนิคที่นวัตกรรมเช่นการวิเคราะห์สไตล์มือถือของหน้าเพื่อระบุองค์ประกอบที่สามารถซ่อนหรือลบออกได้อย่างปลอดภัย
เครื่องมือนี้ไปไกลกว่าการดึงเนื้อหาธรรมดาโดยการมาตรฐานรูปแบบผลลัพธ์ เชิงอรรถ บล็อกโค้ด และสมการทางคณิตศาสตร์ทั้งหมดถูกแปลงเป็นโครงสร้าง HTML ที่สม่ำเสมอ ทำให้ผลลัพธ์เหมาะสมกว่าสำหรับการประมวลผลขั้นต่อไปเช่นการแปลง Markdown
ตัวเลือกการกำหนดค่าหลัก:
debug
: เปิดใช้งานการบันทึกข้อมูลแบบละเอียดและรักษาคุณสมบัติ HTML ไว้markdown
: แปลงเนื้อหาเป็นรูปแบบ MarkdownseparateMarkdown
: เก็บเนื้อหา HTML ไว้และส่งคืนเวอร์ชัน Markdown แยกต่างหากremoveExactSelectors
: ลบองค์ประกอบที่ตรงกับตัวเลือกโฆษณา/โซเชียลแบบตรงทั้งหมด (ค่าเริ่มต้น: true)removePartialSelectors
: ลบองค์ประกอบที่ตรงกับตัวเลือกโฆษณา/โซเชียลแบบบางส่วน (ค่าเริ่มต้น: true)
ประสิทธิภาพที่แข็งแกร่งในการใช้งานจริง
ความคิดเห็นจากชุมชนผู้ใช้ Obsidian Web Clipper เป็นไปในทางบวกเป็นพิเศษ โดยหลายคนชื่นชมความน่าเชื่อถือของคุณภาพการดึง Markdown เครื่องมือนี้ได้พิสูจน์ความมีประสิทธิภาพสำหรับกรณีการใช้งานต่าง ๆ ตั้งแต่การสร้างฐานความรู้ไปจนถึงการสร้างบริบทเว็บที่สะอาดสำหรับโมเดลภาษา AI
คุณภาพการดึง markdown เป็นสิ่งที่เชื่อถือได้มากที่สุดที่ฉันเคยเห็น
ความสามารถของไลบรารีในการจัดการประเภทเนื้อหาที่ซับซ้อน รวมถึงสมการทางคณิตศาสตร์ผ่านการแปลง MathML และการจัดรูปแบบเชิงอรรถที่มาตรฐาน ทำให้มันแตกต่างจากเครื่องมือดึงข้อมูลที่เรียบง่ายกว่า
รูปแบบผลลัพธ์มาตรฐาน:
- หัวข้อ: ลบ H1/H2 แรกออกหากตรงกับชื่อเรื่อง แปลง H1s เป็น H2s
- บล็อกโค้ด: มาตรฐานด้วยแอตทริบิวต์ข้อมูลภาษา:
<code data-lang="js" class="language-js">
- เชิงอรรถ: รูปแบบสม่ำเสมอด้วยการอ้างอิงแบบตัวเลขและลิงก์ย้อนกลับ
- คณิตศาสตร์: แปลงเป็น MathML มาตรฐานด้วยแอตทริบิวต์ข้อมูล LaTeX
โซลูชันทางเลือกได้รับการยอมรับ
การอภิปรายยังได้นำความสนใจไปสู่ทางเลือกที่แข็งแกร่งอื่น ๆ ในพื้นที่การดึงเนื้อหา นักพัฒนา Python พบความสำเร็จกับ Trafilatura ซึ่งให้คุณภาพการดึงข้อมูลที่เทียบเคียงได้พร้อมการดึงข้อมูลเมตาที่แม่นยำ สำหรับนักพัฒนา Go มีพอร์ตที่ได้รับการดูแลรักษาอย่างต่อเนื่องของทั้ง Readability และ Trafilatura ให้ตัวเลือกข้ามภาษาการเขียนโปรแกรมที่แตกต่างกัน
ทางเลือกเหล่านี้บ่งบอกถึงการยอมรับที่เพิ่มขึ้นว่าความต้องการการดึงเนื้อหาเว็บได้พัฒนาไปเกินกว่าที่เครื่องมือแบบดั้งเดิมสามารถให้ได้ ขับเคลื่อนนวัตกรรมข้ามระบบนิเวศการเขียนโปรแกรมหลายระบบ
Defuddle แสดงถึงก้าวสำคัญไปข้างหน้าในเทคโนโลยีการดึงเนื้อหาเว็บ โดยแก้ไขปัญหาในโลกจริงที่นักพัฒนาเผชิญทุกวัน การมุ่งเน้นไปที่ผลลัพธ์ที่มาตรฐานและการตรวจจับแบบหลายขั้นตอนทำให้มันมีคุณค่าเป็นพิเศษสำหรับแอปพลิเคชันที่ต้องการการดึงเนื้อหาที่เชื่อถือได้และสะอาดจากภูมิทัศน์ที่ซับซ้อนมากขึ้นของหน้าเว็บสมัยใหม่
อ้างอิง: Defuddle