Dans le but de renforcer les défenses contre les courriers indésirables, Google a introduit RETVec (Resilient and Efficient Text Vectorizer). Il s’agit d’un vecteur de texte multilingue de pointe conçu pour détecter et combattre un éventail de menaces potentielles, notamment le spam et les contenus nuisibles, au sein de Gmail.

Selon la description du projet par Google sur GitHub, RETVec offre une résilience contre les manipulations au niveau des caractères telles que l’insertion, la suppression, les fautes de frappe, les homoglyphes, la substitution LEET, etc. Le modèle est formé sur un encodeur de caractères unique capable d’encoder efficacement tous les caractères et mots UTF-8. Cette résilience est une caractéristique cruciale dans la mesure où les acteurs de la menace conçoivent continuellement des contre-stratégies pour contourner les mesures de défense conventionnelles en recourant à des manipulations de texte contradictoires.

Ce qui distingue RETVec, c’est sa capacité à fonctionner dans plus de 100 langues dès la sortie de la boîte. Il vise à soutenir le développement de classificateurs de texte plus robustes et plus efficaces côté serveur et sur l’appareil. Il exploite une méthodologie de traitement du langage naturel (NLP) appelée vectorisation. RETVec peut mapper des mots ou des expressions du vocabulaire vers des représentations numériques pour une analyse plus approfondie. Quelques exemples en sont : l’analyse des sentiments, la classification de texte et la reconnaissance d’entités nommées.

Un modèle multilingue innovant améliore la défense de Gmail contre les spams

Elie Bursztein et Marina Zhang de Google (via The Hacker News) mettent en avant la nouvelle architecture de RETVec qui lui permet de fonctionner de manière transparente entre les langues et les caractères UTF-8 sans avoir besoin d’un prétraitement de texte approfondi. Cela en fait un candidat idéal pour diverses applications, notamment le déploiement sur appareil, les plates-formes Web et la classification de texte à grande échelle.

Lors de tests pratiques, l’intégration de RETVec dans Gmail a démontré des améliorations significatives dans la détection du spam. Google a signalé une augmentation de 38 % du taux de détection du spam par rapport à la référence. Les tests ont également abouti à une réduction remarquable de 19,4 % du taux de faux positifs. Notamment, un faux positif se produit lorsqu’un e-mail légitime est signalé par erreur comme spam (oh, cela me rappelle ma première offre d’emploi).

Quoi qu’il en soit, l’efficacité de RETVec va au-delà des mesures de sécurité renforcées. Les modèles entraînés avec RETVec présentent également des vitesses d’inférence plus rapides, en raison de leur représentation compacte. Cela réduit non seulement les coûts de calcul, mais également la latence, un facteur critique pour les applications à grande échelle et les modèles sur appareil.

A lire également