Google publicó recientemente una entrada en su blog de seguridad que detalla lo que considera una de las mayores mejoras de defensa del filtro de spam de Gmail en los últimos años. Se trata de un nuevo sistema de clasificación de texto llamado Vectorización de Texto Resiliente y Eficiente (RETVec). Google afirma que puede ayudar a comprender la relevancia y la especificidad del texto, que consiste en correos electrónicos llenos de caracteres especiales, emojis, errores ortográficos y otros elementos no deseados que antes eran legibles por humanos, pero difíciles de entender para las máquinas. Anteriormente, los mensajes de spam llenos de caracteres especiales eludían fácilmente las defensas de Gmail.
Aunque cualquier filtro de spam puede eliminar un correo electrónico que diga "¡Felicitaciones! Hay un saldo de $1,000 disponible para su cuenta del premio mayor", la gran mayoría de las letras del correo electrónico se adentran en las profundidades del estándar Unicode, donde los usuarios pueden encontrar caracteres que parecen parte del alfabeto latino.
Google afirma que RETVec está entrenado para ser resistente a operaciones a nivel de caracteres, como inserciones, eliminaciones, errores ortográficos, homónimos, sustituciones LEET y más. El modelo RETVec está entrenado con una nueva codificación de caracteres que puede codificar eficientemente todos los caracteres y palabras del conjunto UTF-8. Como resultado, RETVec ofrece un rendimiento excepcional en más de 100 idiomas sin necesidad de tablas de búsqueda ni tamaños de vocabulario fijos.
Gracias a RETVec, Gmail ahora puede reconocer y filtrar mejor el spam
Google afirma que la diferencia de rendimiento es drástica. Los métodos que utilizan tamaños de vocabulario fijos o tablas de búsqueda de homónimos consumen muchos recursos. RETVec, por otro lado, solo tiene 200.000 parámetros en lugar de millones, por lo que, aunque la plataforma en la nube de filtrado de spam de Google es lo suficientemente grande, puede ejecutarse en un equipo local. RETVec es de código abierto y Google espera que elimine los ataques homónimos.
RETVec funciona de forma similar a los modelos de aprendizaje automático de TensorFlow, que utilizan la similitud visual para determinar el significado de las palabras en lugar de su contenido real. Este enfoque ha generado importantes mejoras, como que Google afirma que la sustitución del clasificador de spam de Gmail por RETVec mejoró las tasas de detección de spam en un 38 % con respecto a la referencia y redujo los falsos positivos en un 19,4 %. El uso de RETVec redujo el uso de TPU del modelo en un 83 %, lo que convierte la implementación de RETVec en una de las mayores mejoras de los últimos años. La empresa ha estado probando RETVec internamente durante el último año y ya lo ha implementado para todos los usuarios de Gmail.
[anuncio_2]
Enlace de origen
Kommentar (0)