Google hat kürzlich einen Sicherheits-Blogbeitrag veröffentlicht, in dem es eine der größten Verbesserungen des Gmail-Spamfilters der letzten Jahre beschreibt. Es handelt sich um ein neues Textklassifizierungssystem namens Resilient and Efficient Text Vectorization (RETVec). Google sagt, es könne helfen, die Relevanz und Spezifität von Text zu erkennen – also E-Mails voller Sonderzeichen, Emojis, Rechtschreibfehlern und anderem Müll, der bisher für Menschen lesbar, für Maschinen jedoch nicht leicht zu verstehen war. Bisher konnten Spam-Nachrichten mit Sonderzeichen die Abwehrmechanismen von Gmail problemlos umgehen.
Zwar kann jeder Spamfilter eine E-Mail mit dem Inhalt „Herzlichen Glückwunsch! Für Ihr Jackpot-Konto steht ein Guthaben von 1.000 $ zur Verfügung“ aussortieren, doch die große Mehrheit der Buchstaben in dieser E-Mail landet in den endlosen Tiefen des Unicode-Standards, wo Benutzer Zeichen finden können, die aussehen, als gehörten sie zum regulären lateinischen Alphabet.
Laut Google ist RETVec darauf trainiert, zeichenbasierten Operationen wie Einfügungen, Löschungen, Rechtschreibfehlern, Homonymen, LEET-Ersetzungen und mehr standzuhalten. Das RETVec-Modell ist auf eine neue Zeichenkodierung trainiert, die alle Zeichen und Wörter des UTF-8-Satzes effizient kodieren kann. Dadurch bietet RETVec eine außergewöhnlich gute Leistung in über 100 Sprachen, ohne dass Nachschlagetabellen oder feste Vokabelgrößen erforderlich sind.
Dank RETVec kann Gmail Spam jetzt besser erkennen und filtern
Google gibt an, der Leistungsunterschied sei dramatisch. Methoden mit festen Vokabelgrößen oder Homonymen-Nachschlagetabellen sind ressourcenintensiv. RETVec hingegen verfügt nur über 200.000 statt Millionen Parameter. Googles Cloud-Plattform zur Spamfilterung ist daher groß genug, kann aber auf einem lokalen Rechner ausgeführt werden. RETVec ist Open Source und Google hofft, damit Homonyme-Angriffe zu verhindern.
RETVec funktioniert ähnlich wie TensorFlow-Maschinenlernmodelle, die visuelle Ähnlichkeiten anstelle des tatsächlichen Zeicheninhalts zur Bestimmung der Wortbedeutung nutzen. Dieser Ansatz hat zu erheblichen Verbesserungen geführt. Google gibt an, dass der Austausch des Gmail-Spam-Klassifikators durch RETVec die Spam-Erkennungsraten gegenüber dem Ausgangswert um 38 % verbesserte und Fehlalarme um 19,4 % reduzierte. Durch den Einsatz von RETVec wurde die TPU-Nutzung des Modells um 83 % reduziert, was die Einführung von RETVec zu einer der größten Verbesserungen der letzten Jahre macht. Das Unternehmen hat RETVec im vergangenen Jahr intern getestet und es nun für alle Gmail-Nutzer verfügbar gemacht.
[Anzeige_2]
Quellenlink
Kommentar (0)