Gmail、数年ぶりのスパムフィルターのアップグレードを実施

[広告_1]

Googleは最近、セキュリティブログ記事を公開し、近年のGmailスパムフィルターにおける最大規模の防御強化の一つと称する機能の詳細を解説しました。これは、「Resilient and Efficient Text Vectorization（RETVec）」と呼ばれる新しいテキスト分類システムです。Googleによると、このシステムはテキストの関連性と特異性を理解するのに役立つとのことです。具体的には、特殊文字、絵文字、スペルミス、その他、これまで人間には判読可能でも機械には理解しにくかった迷惑メールのテキストを判別できるようになります。以前は、特殊文字を含むスパムメールはGmailの防御を簡単にすり抜けていました。

「おめでとうございます！ジャックポットアカウントに 1,000 ドルの残高をご用意しました」というメールは、どんなスパムフィルターでもブロックできますが、メール内の文字の大部分は Unicode 標準の奥深くまで浸透しており、ユーザーはそこで、通常のラテンアルファベットの一部のように見える文字を見つけることができます。

Googleによると、RETVecは挿入、削除、スペルミス、同音異義語、LEET置換など、文字レベルの操作に対して耐性を持つようにトレーニングされています。RETVecモデルは、UTF-8セット内のすべての文字と単語を効率的にエンコードできる新しい文字エンコーディングでトレーニングされています。その結果、RETVecはルックアップテーブルや固定された語彙サイズを必要とせずに、100以上の言語で非常に優れたパフォーマンスを発揮します。

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — RETVecのおかげで、Gmailはスパムをより正確に認識しフィルタリングできるようになりました

Googleによると、パフォーマンスの違いは劇的だという。固定の語彙サイズや同音異義語のルックアップテーブルを使用する手法は、リソースを大量に消費する。一方、RETVecは数百万ではなく20万のパラメータしか持たないため、Googleのスパムフィルタリングクラウドプラットフォームは十分な規模があり、ローカルマシンでも実行できる。RETVecはオープンソースであり、Googleは同音異義語攻撃を排除できると期待している。

RETVecは、文字コンテンツではなく視覚的な類似性を用いて単語の意味を判断するTensorFlow機械学習モデルと同様の仕組みで動作します。このアプローチは大きな改善をもたらし、Googleによると、Gmailのスパム分類器をRETVecに置き換えたことで、スパム検出率がベースラインと比較して38%向上し、誤検出が19.4%減少しました。RETVecの導入により、モデルのTPU使用量は83%削減され、RETVecの導入は近年最大級のアップグレードの一つとなりました。同社は過去1年間、社内でRETVecのテストを実施し、Gmailの全ユーザーに展開しました。

[広告2]
ソースリンク