ในการฟื้นคืนชีพที่ไม่คาดคิดของเทคโนโลยีที่เคยถูกมองว่าล้าสมัย การถ่ายโอนข้อมูลผ่านเสียงกำลังได้รับความสนใจอีกครั้งในวงการเทคโนโลยี การเปิดตัวล่าสุดของแอปพลิเคชันอย่าง Chirp และการพูดคุยเกี่ยวกับเทคโนโลยีที่คล้ายคลึงกันเช่น gibberlink ได้จุดประกายการสนทนาเกี่ยวกับศักยภาพและข้อจำกัดของการส่งข้อมูลผ่านคลื่นความถี่เสียง
การกลับมาของการถ่ายโอนข้อมูลผ่านเสียง
การถ่ายโอนข้อมูลผ่านเสียง ซึ่งเป็นที่ระลึกถึงเทคโนโลยีโมเด็มที่เคยเป็นสัญลักษณ์ของการเชื่อมต่ออินเทอร์เน็ตยุคแรกๆ กำลังพบการประยุกต์ใช้ใหม่ในสภาพแวดล้อมการคำนวณสมัยใหม่ Chirp เป็นเว็บแอปพลิเคชันที่สร้างด้วย React, TypeScript และ Web Audio API ช่วยให้ผู้ใช้สามารถเข้ารหัสข้อความเป็นความถี่เสียงที่สามารถส่งผ่านลำโพงและจับโดยไมโครโฟนได้ วิธีการนี้สร้างวิธีการถ่ายโอนข้อมูลแบบไร้สายที่ไม่ต้องใช้ฮาร์ดแวร์พิเศษนอกเหนือจากอุปกรณ์เสียงมาตรฐาน ปฏิกิริยาของชุมชนต่อเทคโนโลยีนี้เป็นการผสมผสานระหว่างความรู้สึกโหยหาอดีตและการประเมินแบบปฏิบัติ โดยหลายคนเปรียบเทียบกับยุคโมเด็มแบบ dial-up
ผมคิดว่ายุคของ MODEM ผ่านไปแล้ว...
ข้อจำกัดด้านประสิทธิภาพ
แม้จะมีความแปลกใหม่ แต่การใช้งานการถ่ายโอนข้อมูลผ่านเสียงในปัจจุบันยังคงเผชิญกับข้อจำกัดด้านความเร็วที่สำคัญ การใช้งาน Chirp ใช้เวลาประมาณ 0.1 วินาทีต่อตัวอักษร (0.07 วินาทีสำหรับระยะเวลาตัวอักษรบวก 0.03 วินาทีสำหรับช่องว่าง) ส่งผลให้มีสัญลักษณ์ประมาณ 10 ตัวต่อวินาที อัตรานี้ช้ากว่าโมเด็มอินเทอร์เน็ตรุ่นแรกๆ อย่างมาก ซึ่งทำงานที่ 28.8 กิโลบิตต่อวินาที สมาชิกในชุมชนได้ชี้ให้เห็นว่าในบางกรณี มันอาจจะช้ากว่าการพูดของมนุษย์ปกติ ซึ่งโดยทั่วไปอยู่ที่ 150-200 คำต่อนาที
ความไม่มีประสิทธิภาพนี้ทำให้เกิดคำถามเกี่ยวกับการประยุกต์ใช้งานจริง ในขณะที่เทคโนโลยีนี้สร้างแนวคิดที่น่าสนใจ การใช้งานในปัจจุบันดูเหมือนจะให้ความสำคัญกับความน่าเชื่อถือมากกว่าความเร็ว โดยใช้ลายเซ็นเสียงที่แตกต่างกันซึ่งแยกแยะได้ง่ายแต่จำกัดปริมาณข้อมูลที่ส่งผ่าน
- ระยะเวลาของตัวอักษร: 0.07 วินาที
- ช่องว่างระหว่างตัวอักษร: 0.03 วินาที
- อัตราการถ่ายโอนข้อมูลที่มีประสิทธิภาพ: ประมาณ 10 สัญลักษณ์ต่อวินาที
- เทคโนโลยีที่ใช้: React, TypeScript, Vite, Web Audio API
- คุณสมบัติ: การแสดงผลความถี่แบบเรียลไทม์, ลายเซ็นเริ่มต้น/สิ้นสุดที่เป็นเอกลักษณ์
เทคโนโลยีทางเลือกที่กล่าวถึง
- gibberlink (อ้างอิงจาก ggwave)
- minimodem (รองรับโปรโตคอล Bell103, Bell202, RTTY, TTY/TDD)
- VARA (ใช้ในวิทยุสมัครเล่น)
- NinoTNC (ทางเลือกโอเพนซอร์สสำหรับ VARA)
การประยุกต์ใช้ในโลกจริงและทางเลือกอื่น
ชุมชนเทคโนโลยีได้เน้นย้ำถึงการใช้งานการถ่ายโอนข้อมูลผ่านเสียงที่มีอยู่และในอดีตหลายรูปแบบ โครงการเช่น minimodem ใช้โปรโตคอล FSK (Frequency-Shift Keying) มาตรฐานเช่น Bell103 และ Bell202 แม้ว่าผู้ใช้จะรายงานผลลัพธ์ที่หลากหลายเกี่ยวกับความน่าเชื่อถือ อีกโครงการหนึ่งที่กล่าวถึงคือ ggwave ซึ่งเป็นพื้นฐานของ gibberlink ที่มีรายงานว่าสร้างความสนใจอย่างมากในสัปดาห์ที่ผ่านมา
นักพัฒนาบางคนได้สำรวจพื้นที่นี้มาหลายปีแล้ว ผู้แสดงความคิดเห็นคนหนึ่งกล่าวถึงการทำงานบนต้นแบบเมื่อสิบสองปีที่แล้วที่มีเป้าหมายเพื่อสร้างรหัส QR เสียงสำหรับขับเคลื่อนการโต้ตอบของแอปพลิเคชันที่แตกต่างกัน สิ่งนี้บ่งชี้ว่าแม้เทคโนโลยีจะไม่ใช่เรื่องใหม่ แต่มันยังคงพบช่องว่างที่คุณสมบัติเฉพาะของมันมีข้อได้เปรียบ
อนาคตของการสื่อสารทางเสียงระหว่างเครื่องจักร
ประเด็นที่น่าสนใจในการสนทนาเน้นที่วิวัฒนาการที่อาจเกิดขึ้นของการสื่อสารผ่านเสียงระหว่างระบบ AI สมาชิกบางคนในชุมชนแสดงความกังวลว่าเทคโนโลยีเช่น gibberlink อาจพัฒนาเป็นโปรโตคอลการสื่อสารระหว่างเครื่องจักรที่มีประสิทธิภาพสูงซึ่งไม่รวมความเข้าใจของมนุษย์ อย่างไรก็ตาม คนอื่นๆ โต้แย้งว่าเสียงเป็นสื่อที่ไม่มีประสิทธิภาพโดยธรรมชาติสำหรับการสื่อสารระหว่างเครื่องจักรเมื่อเทียบกับการเรียก API โดยตรง
สำหรับการประยุกต์ใช้งานจริงในปัจจุบัน การถ่ายโอนข้อมูลผ่านเสียงมีข้อได้เปรียบเฉพาะในสถานการณ์เฉพาะ: ทำงานกับอุปกรณ์เสียงมาตรฐาน ไม่ต้องการฮาร์ดแวร์พิเศษ และสามารถทำงานในสภาพแวดล้อมที่เทคโนโลยีไร้สายอื่นๆ อาจถูกจำกัด อย่างไรก็ตาม ข้อจำกัดด้านความเร็วและความไวต่อเสียงรบกวนจากสิ่งแวดล้อมทำให้ไม่น่าจะแทนที่วิธีการถ่ายโอนข้อมูลแบบดั้งเดิมสำหรับการใช้งานส่วนใหญ่
ขณะที่เรายังคงสำรวจวิธีใหม่ๆ สำหรับอุปกรณ์ในการสื่อสาร วิธีการที่ใช้เสียงเหล่านี้เป็นตัวเชื่อมที่น่าสนใจระหว่างการสื่อสารที่มนุษย์ได้ยินและการถ่ายโอนข้อมูลของเครื่องจักร—เสียงสะท้อนทางเทคโนโลยีจากยุค dial-up ที่พบเสียงก้องใหม่ในโลกที่เชื่อมต่อกันในปัจจุบัน
อ้างอิง: Chirp: Sound-based Data Transfer