Google hat kürzlich einen Sicherheits-Blogbeitrag veröffentlicht, in dem es eine der größten Verbesserungen des Gmail-Spamfilters der letzten Jahre beschreibt. Es handelt sich um ein neues Textklassifizierungssystem namens Resilient and Efficient Text Vectorization (RETVec). Google sagt, es könne helfen, die Relevanz und Spezifität von Text zu erkennen – also E-Mails voller Sonderzeichen, Emojis, Rechtschreibfehlern und anderem Müll, der bisher für Menschen lesbar, für Maschinen jedoch nicht leicht zu verstehen war. Bisher konnten Spam-Nachrichten mit Sonderzeichen die Abwehrmechanismen von Gmail problemlos umgehen.
Zwar kann jeder Spamfilter eine E-Mail mit dem Inhalt „Herzlichen Glückwunsch! Für Ihr Jackpot-Konto steht ein Guthaben von 1.000 US-Dollar zur Verfügung“ aussortieren, doch die große Mehrheit der Buchstaben in dieser E-Mail landet in den endlosen Tiefen des Unicode-Standards, wo Benutzer Zeichen finden können, die aussehen, als gehörten sie zum regulären lateinischen Alphabet.
Laut Google ist RETVec darauf trainiert, zeichenbasierten Operationen wie Einfügungen, Löschungen, Rechtschreibfehlern, Homonymen, LEET-Ersetzungen und mehr standzuhalten. Das RETVec-Modell ist auf eine neue Zeichenkodierung trainiert, die alle Zeichen und Wörter des UTF-8-Satzes effizient kodieren kann. Dadurch bietet RETVec eine außergewöhnlich gute Leistung in über 100 Sprachen, ohne dass Nachschlagetabellen oder feste Vokabelgrößen erforderlich sind.
Dank RETVec kann Gmail Spam jetzt besser erkennen und filtern
Google gibt an, dass der Leistungsunterschied dramatisch sei. Methoden, die feste Vokabelgrößen oder Nachschlagetabellen mit Homonymen verwenden, sind ressourcenintensiv. RETVec hingegen verfügt nur über 200.000 statt Millionen von Parametern. Googles Cloud-Plattform zur Spamfilterung ist zwar groß genug, kann aber auf einem lokalen Rechner ausgeführt werden. RETVec ist Open Source und Google hofft, damit Homonyme-Angriffe zu verhindern.
RETVec funktioniert ähnlich wie TensorFlow-Maschinenlernmodelle, die visuelle Ähnlichkeiten statt des tatsächlichen Zeicheninhalts zur Bestimmung der Wortbedeutung nutzen. Dieser Ansatz hat zu erheblichen Verbesserungen geführt. Google gibt an, dass der Ersatz des Gmail-Spam-Klassifikators durch RETVec die Spam-Erkennungsraten gegenüber dem Basiswert um 38 % verbesserte und Fehlalarme um 19,4 % reduzierte. Durch den Einsatz von RETVec konnte die TPU-Nutzung des Modells um 83 % reduziert werden, was die Einführung von RETVec zu einer der größten Verbesserungen der letzten Jahre macht. Das Unternehmen hat RETVec im vergangenen Jahr intern getestet und es nun allen Gmail-Nutzern zur Verfügung gestellt.
[Anzeige_2]
Quellenlink
Kommentar (0)