Gmail se dočkal největší aktualizace spamového filtru za poslední roky

Google nedávno zveřejnil blogový příspěvek o bezpečnosti, v němž podrobně popisuje, co nazývá jedním z největších vylepšení obrany spamového filtru Gmailu za poslední roky. Jde o nový systém klasifikace textu s názvem Resilient and Efficient Text Vectorization (RETVec). Google tvrdí, že může pomoci pochopit relevanci a specifičnost textu, což jsou e-maily plné speciálních znaků, emoji, pravopisných chyb a dalšího nesmyslu, který dříve slyšeli lidé, ale stroje mu nerozuměly. Dříve spamové zprávy plné speciálních znaků snadno obcházely obranu Gmailu.

I když jakýkoli spamový filtr dokáže eliminovat e-mail s textem „Gratuluji! Na váš jackpotový účet je k dispozici zůstatek 1 000 dolarů“, drtivá většina písmen v e-mailu se nachází v nekonečných hlubinách standardu Unicode, kde uživatelé mohou najít znaky, které vypadají, jako by byly součástí běžné latinské abecedy.

Google uvádí, že RETVec je trénován tak, aby byl odolný vůči operacím na úrovni znaků, včetně vkládání, mazání, pravopisných chyb, homonym, substitucí LEET a dalších. Model RETVec je trénován na novém kódování znaků, které dokáže efektivně kódovat všechny znaky a slova v sadě UTF-8. Díky tomu RETVec funguje výjimečně dobře ve více než 100 jazycích, aniž by vyžadoval vyhledávací tabulky nebo pevně stanovenou velikost slovní zásoby.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Díky RETVec nyní Gmail dokáže lépe rozpoznávat a filtrovat spam

Google uvádí, že rozdíl ve výkonu je dramatický. Metody, které používají pevně danou velikost slovní zásoby nebo vyhledávací tabulky homonym, jsou náročné na zdroje. RETVec má na druhou stranu pouze 200 000 parametrů místo milionů, takže i když je cloudová platforma Googlu pro filtrování spamu dostatečně velká, může běžet na lokálním počítači. RETVec je open source a Google doufá, že eliminuje útoky homonym.

RETVec funguje podobně jako modely strojového učení TensorFlow, které k určení významu slov používají vizuální podobnost, nikoli jejich skutečného obsahu znaků. Tento přístup vedl k velkým zlepšením. Google uvedl, že nahrazení klasifikátoru spamu v Gmailu technologií RETVec zlepšilo míru detekce spamu oproti výchozímu stavu o 38 % a snížilo počet falešně pozitivních výsledků o 19,4 %. Použití RETVec snížilo využití TPU modelu o 83 %, což z implementace RETVec činí jednu z největších aktualizací v posledních letech. Společnost RETVec interně testovala v uplynulém roce a poté jej spustil pro všechny uživatele Gmailu.

Zdrojový odkaz