Google เพิ่งเผยแพร่บทความเกี่ยวกับความปลอดภัยซึ่งให้รายละเอียดเกี่ยวกับสิ่งที่เรียกว่าการอัปเกรดการป้องกันครั้งใหญ่ที่สุดครั้งหนึ่งของตัวกรองสแปมของ Gmail ในช่วงไม่กี่ปีที่ผ่านมา นั่นก็คือระบบการจำแนกข้อความใหม่ที่เรียกว่า Resilient and Efficient Text Vectorization (RETVec) Google กล่าวว่าระบบนี้สามารถช่วยทำความเข้าใจความเกี่ยวข้องและความจำเพาะของข้อความ ซึ่งก็คืออีเมลที่เต็มไปด้วยอักขระพิเศษ อิโมจิ การสะกดผิด และขยะอื่นๆ ที่ก่อนหน้านี้มนุษย์สามารถอ่านได้แต่เครื่องคอมพิวเตอร์ไม่สามารถเข้าใจได้ง่าย ก่อนหน้านี้ ข้อความสแปมที่เต็มไปด้วยอักขระพิเศษสามารถหลบเลี่ยงการป้องกันของ Gmail ได้อย่างง่ายดาย
แม้ว่าตัวกรองสแปมใดๆ ก็สามารถกำจัดอีเมลที่ระบุว่า “ยินดีด้วย! ยอดเงิน $1,000 พร้อมสำหรับบัญชีแจ็คพอตของคุณ” ได้ แต่ตัวอักษรส่วนใหญ่ในอีเมลจะเข้าไปอยู่ในมาตรฐาน Unicode ที่ไม่มีที่สิ้นสุด ซึ่งผู้ใช้สามารถค้นหาตัวอักษรที่ดูเหมือนเป็นส่วนหนึ่งของอักษรละตินทั่วไปได้
Google กล่าวว่า RETVec ได้รับการฝึกให้มีความยืดหยุ่นต่อการดำเนินการในระดับอักขระ รวมถึงการแทรก การลบ การสะกดผิด คำพ้องเสียง การแทนที่ LEET และอื่นๆ อีกมากมาย โมเดล RETVec ได้รับการฝึกบนการเข้ารหัสอักขระใหม่ที่สามารถเข้ารหัสอักขระและคำทั้งหมดในชุด UTF-8 ได้อย่างมีประสิทธิภาพ ด้วยเหตุนี้ RETVec จึงทำงานได้ดีเป็นพิเศษในภาษาต่างๆ มากกว่า 100 ภาษาโดยไม่ต้องใช้ตารางค้นหาหรือขนาดคำศัพท์คงที่
ด้วย RETVec Gmail จึงสามารถจดจำและกรองสแปมได้ดีขึ้น
Google กล่าวว่าความแตกต่างด้านประสิทธิภาพนั้นชัดเจน วิธีการที่ใช้ขนาดคำศัพท์คงที่หรือตารางค้นหาคำพ้องเสียงนั้นต้องใช้ทรัพยากรมาก ในทางกลับกัน RETVec มีพารามิเตอร์เพียง 200,000 ตัวแทนที่จะเป็นล้านตัว ดังนั้นแม้ว่าแพลตฟอร์มคลาวด์สำหรับกรองสแปมของ Google จะมีขนาดใหญ่เพียงพอ แต่ก็สามารถทำงานบนเครื่องภายในได้ RETVec เป็นโอเพ่นซอร์ส และ Google หวังว่าจะสามารถกำจัดการโจมตีด้วยคำพ้องเสียงได้
RETVec ทำงานในลักษณะเดียวกับโมเดลการเรียนรู้ของเครื่อง TensorFlow ซึ่งใช้ความคล้ายคลึงทางภาพเพื่อกำหนดความหมายของคำแทนที่จะใช้เนื้อหาอักขระจริงของคำเหล่านั้น แนวทางนี้นำไปสู่การปรับปรุงครั้งใหญ่ โดย Google กล่าวว่าการแทนที่ตัวจำแนกสแปมของ Gmail ด้วย RETVec ช่วยเพิ่มอัตราการตรวจจับสแปมได้ดีกว่าค่าพื้นฐาน 38% และลดผลบวกปลอมได้ 19.4% การใช้ RETVec ช่วยลดการใช้ TPU ของโมเดลได้ 83% ทำให้การเปิดตัว RETVec เป็นการอัปเกรดครั้งใหญ่ที่สุดครั้งหนึ่งในช่วงไม่กี่ปีที่ผ่านมา บริษัทได้ทำการทดสอบ RETVec ภายในองค์กรมาเป็นเวลาหนึ่งปีแล้ว และได้เปิดให้ผู้ใช้ Gmail ทุกคนใช้งานแล้ว
ลิงค์ที่มา
การแสดงความคิดเห็น (0)