fbpx

RETVec: Gmail pone su granito de arena para combatir el Spam

¡Esto es lo que debe conocer acerca de la nueva actualización de los filtros de spam de Gmail!

Es crucial dar a conocer que la más reciente publicación en el blog de seguridad de Google especifica una nueva actualización de los filtros de spam de Gmail denominada RETVec que, Google ha denominado como “una de las mayores actualizaciones de defensa de los últimos años”.

 

Hay que destacar que la actualización se presenta en forma de un nuevo sistema de clasificación de texto llamado RETVec (Resilient & Efficient Text Vectorizer). Google ha comentado que esto puede ayudar a comprender las “manipulaciones de texto contradictorias”: estos son correos electrónicos llenos de caracteres especiales, así como también emojis, errores tipográficos y otros caracteres basura que antes eran legibles para los humanos pero no fácilmente perceptibles para las máquinas.

 

via GIPHY

 

Conozca todo sobre la nueva actualización de los filtros de spam RETVec

 

Vale la pena señalar que anteriormente, los correos electrónicos no deseados llenos de caracteres especiales lograban cruzar fácilmente las defensas de Gmail.

 

En cuanto a la “manipulación de texto contradictorio” hay que mencionar que la verdad es que estos correos electrónicos solían ser un problema realmente importante, y es que los correos de este tipo, llegan regularmente a las bandejas de entrada. Sin embargo, parece que esta actualización tecnológica de “RETVec” funciona porque hay a quienes ya están dejando de recibir este tipo de correos electrónicos.

 

Este tipo de correos se puede identificar por ejemplo porque una gran parte de las letras son “homoglifos”: al sumergirse en las infinitas profundidades del estándar Unicode, puede hallar caracteres oscuros que parecen parte del alfabeto latino estándar, pero que realmente no lo son.

 

Por colocar un ejemplo, el asunto “𝐂𝐡𝐞𝐜𝐤𝐘𝐨𝐮𝐫𝐀𝐜𝐜𝐨𝐮𝐧𝐭” puede encontrarse en negrita, no porque tenga un estilo en negrita, sino porque usa glifos Unicode como “Matemática Negrita Mayúscula C”. Es un símbolo matemático que para las personas se parece a la letra “C”, pero, cabe acotar que el robot que filtra el spam lo observa con precisión como un símbolo matemático y no consigue comprender el significado en inglés previsto. Pueden aparecer aspectos tan extraños que ni siquiera aparecen en las búsquedas Unicode. Incluso, muchos espacios se intercambian por puntos o por guiones bajos. El resultado es que un filtro de spam logra analizar este lío de correo electrónico y básicamente se da por vencido.

 

Es por tal razón, que Google ha señalado que “RETVec” está aquí para salvar el día:

 

“RETVec está entrenado para ser resistente a manipulaciones a nivel de caracteres, incluidas inserción, eliminación, errores tipográficos, homoglifos, sustitución LEET y más. El modelo RETVec está entrenado sobre un codificador de caracteres novedoso que puede codificar todos los caracteres y palabras UTF-8 de manera eficiente. Por lo tanto, RETVec funciona de inmediato en más de 100 idiomas sin la necesidad de una tabla de búsqueda o un tamaño de vocabulario fijo”. 

 

Desde Google han mencionado que la eficiencia aquí es un gran problema. Los enfoques alternativos que usaban un “tamaño de vocabulario fijo” o una “tabla de búsqueda” para homoglifos hacían que su ejecución consumiera muchos recursos. Imagine una lista de todos los posibles errores ortográficos de “felicitaciones” que intercambia uno o más caracteres por números, símbolos matemáticos, cirílico, hebreo o emojis, y tendrá una lista casi interminable. Google indica que RETVec tiene sólo 200.000 “en lugar de millones de parámetros”, por lo que, aunque la nube de filtrado de spam de Google es posiblemente lo suficientemente grande como para poder ejecutar cualquier cosa, es lo suficientemente pequeña como para poder ejecutarse incluso en un dispositivo local. Según se informa, RETVec viene siendo de código abierto y Google espera que libere al mundo de los ataques de homoglifos, por lo que incluso su sección de comentarios local podría llegar a ejecutarlo algún día.

 

Es vital tener presente que RETVec parece funcionar de forma muy similar a cómo leen los humanos: es un modelo TensorFlow de aprendizaje automático que usa “similitud” visual para identificar qué significan las palabras en vez de su contenido real de caracteres. Es de resaltar que la demostración de similitud de Google usa la misma tecnología para identificar imágenes de gatos, por lo que convertir eso en el sistema óptico de reconocimiento de caracteres más sofisticado del mundo parece bastante posible.

 

Lo cierto es que, aparentemente, este enfoque ha dado lugar a grandes mejoras, y Google dice: “Reemplazar el vectorizador de texto anterior del clasificador de spam de Gmail con RETVec nos permitió mejorar la tasa de detección de spam con respecto a la línea de base en un 38% y reducir la tasa de falsos positivos en un 19,4%. Además, el uso de RETVec redujo el uso de TPU del modelo en un 83%, lo que convierte la implementación de RETVec en una de las mayores actualizaciones de defensa de los últimos años”. 

 

No se debe pasar por alto mencionar que, Google ha comentado que ha estado probando RETVec internamente “durante el año pasado” y ya lo ha implementado en su cuenta de Gmail.

 

Deja un comentario