ไลบรารีกรองคำหยาบคายเผชิญคำวิจารณ์ที่เพิ่มขึ้นเรื่องการเซ็นเซอร์ที่ไม่คำนึงบริบทและอคติทางวัฒนธรรม

BigGo Editorial Team

ไลบรารีกรองคำหยาบคายเผชิญคำวิจารณ์ที่เพิ่มขึ้นเรื่องการเซ็นเซอร์ที่ไม่คำนึงบริบทและอคติทางวัฒนธรรม

การถกเถียงที่ดำเนินต่อเนื่องเกี่ยวกับการตรวจจับคำหยาบคายแบบอัตโนมัติได้ทวีความรุนแรงขึ้น เมื่อนักพัฒนาและผู้ใช้งานตั้งคำถามเพิ่มมากขึ้นเกี่ยวกับประสิทธิภาพและความยุติธรรมของระบบกรองที่ใช้คำเป็นฐาน การอภิปรายนี้มุ่งเน้นไปที่ข้อบกพร่องพื้นฐานในการทำงานของระบบเหล่านี้และผลกระทบในโลกแห่งความเป็นจริงต่อแพลตฟอร์มการสื่อสาร

การเซ็นเซอร์ที่ไม่คำนึงบริบทสร้างผลลัพธ์ที่ไร้สาระ

หนึ่งในปัญหาสำคัญที่สุดที่รบกวนตัวกรองคำหยาบคายคือการไม่สามารถเข้าใจบริบทได้ ผู้ใช้รายงานตัวอย่างนับไม่ถ้วนของคำที่ไม่เป็นอันตรายถูกเซ็นเซอร์เพียงเพราะมีลำดับตัวอักษรที่ตรงกับคำต้องห้าม ตัวอย่างที่น่าหงุดหงิดเป็นพิเศษเกี่ยวข้องกับผู้พูดภาษาดัตช์ใน World of Warcraft ที่คำธรรมดา kunt (หมายถึง you can) ถูกบล็อกเพราะมีคำหยาบคายภาษาอังกฤษ cunt อยู่ในนั้น สิ่งนี้สร้างอุปสรรคสำหรับผู้ที่ไม่ใช่เจ้าของภาษาอังกฤษที่พยายามสื่อสารในภาษาแม่ของตน

ปัญหานี้ขยายไปเกินแพลตฟอร์มเกม บริษัทซอฟต์แวร์การศึกษาต่อสู้กับความท้าทายที่คล้ายกัน พบว่าคำศัพท์ที่เกี่ยวข้องกับรสนิยมทางเพศหรือหัวข้ออ่อนไหวอื่น ๆ สามารถเป็นทั้งคำดูถูกที่น่ารังเกียจและประเด็นการอภิปรายทางวิชาการที่ถูกต้องตามกฎหมาย ขึ้นอยู่กับว่าใครใช้และในบริบทใด

ปัญหาทั่วไปของตัวกรองคำหยาบ:

การเซ็นเซอร์แบบไม่คำนึงถึงบริบท (เช่น คำว่า "kunt" ในภาษาดัตช์ถูกบล็อกเพราะมีคำว่า "cunt" อยู่ข้างใน)
อคติทางวัฒนธรรมในการจำแนกคำ
ขาดการตรวจสอบรูปแบบการสะกดและความแตกต่างของช่องว่าง
การให้คะแนนความรุนแรงที่ไม่สอดคล้องกันระหว่างภาษาต่างๆ
ไม่สามารถแยกแยะระหว่างคำที่ถูกนำกลับมาใช้ใหม่กับคำดูถูก

ระบบการให้คะแนนขาดความสม่ำเสมอและความเข้าใจทางวัฒนธรรม

ไลบรารีการตรวจจับคำหยาบคายปัจจุบันพยายามแก้ไขปัญหาบริบทโดยการกำหนดคะแนนความแน่นอนให้กับคำต่าง ๆ เพื่อบ่งชี้ว่ามีแนวโน้มที่จะถูกใช้อย่างไม่เหมาะสมมากแค่ไหน อย่างไรก็ตาม การวิเคราะห์ของชุมชนเผยให้เห็นปัญหาสำคัญกับการให้คะแนนเหล่านี้ คำเช่น beaver ได้รับคะแนนการรุกรานต่ำแม้จะมีความหมายสแลงที่ชัดเจน ในขณะที่คำศัพท์ในชีวิตประจำวันในภาษาอื่น ๆ ถูกทำเครื่องหมายว่าน่ารังเกียจอย่างมากเนื่องจากความเข้าใจทางวัฒนธรรมที่ไม่ดี

ผู้ใช้ชาวฝรั่งเศสสังเกตว่าคำหลายคำในฐานข้อมูลคำหยาบคายเป็นคำโบราณจากหลายศตวรรษที่ผ่านมาหรือคำธรรมดาสมบูรณ์ที่บังเอิญมีความหมายรอง ผู้พูดภาษาสเปนชี้ให้เห็นว่าคำเช่น caliente (ร้อน) และ bollo (ขนมปังม้วน) ปรากฏในรายการคำที่น่ารังเกียจแม้จะเป็นคำธรรมดาที่ไม่หยาบคาย

ระบบมาตราส่วนการให้คะแนนคำหยาบคาย:

คะแนน 2: น่าจะเป็นคำหยาบคาย ไม่น่าจะปรากฏในข้อความที่สะอาด (เช่น "asshat")
คะแนน 1: อาจจะเป็นคำหยาบคาย หรืออาจจะสะอาด (เช่น "addict")
คะแนน 0: ไม่น่าจะเป็นคำหยาบคาย น่าจะสะอาด (เช่น "beaver")

สภาพแวดล้อมการศึกษาและอาชีพต่อสู้กับการนำไปใช้

ความท้าทายกลายเป็นเรื่องซับซ้อนมากขึ้นในสภาพแวดล้อมอาชีพและการศึกษา บริษัทซอฟต์แวร์การศึกษาบางแห่งได้ละทิ้งการกรองคำหยาบคายแบบดั้งเดิมทั้งหมด แทนที่จะทำเครื่องหมายเนื้อหาเพื่อให้ครูตรวจสอบโดยไม่ระบุเหตุผล วิธีการนี้ยอมรับว่าการกำหนดสิ่งที่น่ารังเกียจต้องใช้การตัดสินของมนุษย์และบริบททางวัฒนธรรมที่ระบบอัตโนมัติไม่สามารถให้ได้

สิ่งที่เราต้องจัดการในการจัดการซอฟต์แวร์การศึกษาที่มีด้านการเขียนคือการพยายามจัดการว่าอะไรน่ารังเกียจสำหรับใคร ในบริบทใดและที่ไหนไม่เป็นสากลเลย

การเพิ่มขึ้นของคำหยาบคายแบบสบาย ๆ ในสภาพแวดล้อมอาชีพ โดยเฉพาะในหมู่คนรุ่นใหม่ ทำให้การตรวจจับอัตโนมัติซับซ้อนยิ่งขึ้น สิ่งที่เคยเป็นภาษาที่ไม่เหมาะสมอย่างชัดเจนกลับกลายเป็นเรื่องธรรมดาในสถานที่ทำงานหลายแห่ง ทำให้กฎการกรองแบบครอบคลุมล้าสมัยมากขึ้น

ข้อจำกัดทางเทคนิคเน้นข้อบกพร่องพื้นฐาน

นอกเหนือจากปัญหาทางวัฒนธรรม การนำระบบเหล่านี้ไปใช้ทางเทคนิคเผยให้เห็นปัญหาที่ลึกซึ้งกว่า ตัวกรองคำหยาบคายส่วนใหญ่ต้องการการจับคู่ไบต์ต่อไบต์ที่แน่นอน หมายความว่าพวกมันพลาดรูปแบบทั่วไปเช่นการเว้นวรรค (ass hat vs asshat) หรือการสะกดอย่างสร้างสรรค์ สิ่งนี้สร้างเกมแมวไล่หนูที่ไม่มีที่สิ้นสุดเมื่อผู้ใช้หาวิธีใหม่ ๆ ในการแสดงออกในขณะที่ระบบต่อสู้เพื่อให้ทัน

ลักษณะที่เป็นไปตามอำเภอใจของการกำหนดคะแนนยังทำให้เกิดคำถามเกี่ยวกับความถูกต้องทางวิทยาศาสตร์ของวิธีการเหล่านี้ การตรวจสอบของชุมชนต่อไลบรารีคำหยาบคายยอดนิยมแสดงให้เห็นว่าคะแนนความรุนแรงดูเหมือนจะถูกกำหนดโดยไม่มีวิธีการที่ชัดเจนหรือการปรึกษาทางวัฒนธรรม

ความครอบคลุมภาษาใน Cuss Library:

อังกฤษ: ประมาณ 1,770 คำ
สเปน: ประมาณ 650 คำ
ฝรั่งเศส: ประมาณ 740 คำ
อิตาลี: ประมาณ 800 คำ
โปรตุเกส: ประมาณ 148 คำ
อาหรับ (ตัวอักษรละติน): ประมาณ 250 คำ
โปรตุเกสยุโรป: ประมาณ 45 คำ

การเดินทางออกจากโซลูชันอัตโนมัติ

ฉันทามติที่เพิ่มขึ้นในหมู่นักพัฒนาและผู้จัดการแพลตฟอร์มคือการกรองคำหยาบคายอัตโนมัติสร้างปัญหามากกว่าแก้ไข ความซับซ้อนของภาษามนุษย์ ความแตกต่างทางวัฒนธรรม และความหมายตามบริบท ทำให้เป็นไปไม่ได้เกือบสำหรับอัลกอริทึมการจับคู่คำง่าย ๆ ในการระบุเนื้อหาที่มีปัญหาจริง ๆ ได้อย่างแม่นยำ

แทนที่จะทำเช่นนั้น หลายแพลตฟอร์มกำลังเปลี่ยนไปสู่การดูแลโดยมนุษย์ ระบบการรายงานของชุมชน และตัวเลือกการกรองที่ผู้ใช้ควบคุม วิธีการเหล่านี้ยอมรับว่าสิ่งที่ถือเป็นภาษาที่น่ารังเกียจแตกต่างกันอย่างมากระหว่างบุคคล ชุมชน และวัฒนธรรม - สิ่งที่ไม่มีระบบอัตโนมัติใดสามารถจัดการได้อย่างเพียงพอ

การถกเถียงนี้เน้นความท้าทายที่กว้างขึ้นในการดูแลเนื้อหา: ความตึงเครียดระหว่างประสิทธิภาพอัตโนมัติและความละเอียดอ่อนของมนุษย์ เมื่อการสื่อสารออนไลน์ยังคงพัฒนาต่อไป ข้อจำกัดของโซลูชันการกรองแบบเดียวเหมาะกับทุกคนกลายเป็นที่ชัดเจนมากขึ้น

อ้างอิง: cuss

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌