Google недавно опубликовал сообщение в блоге Security, в котором подробно описывается то, что он называет одним из самых больших обновлений защиты спам-фильтра Gmail за последние годы. Это новая система классификации текста под названием Resilient and Efficient Text Vectorization (RETVec). Google утверждает, что она может помочь понять релевантность и специфику текста, то есть писем, заполненных специальными символами, эмодзи, опечатками и другим мусором, который ранее мог читаться людьми, но не понимался машинами. Ранее спам-сообщения, заполненные специальными символами, легко обходили защиту Gmail.
В то время как любой спам-фильтр может отсеять письмо с текстом «Поздравляем! На вашем счете джекпота доступен баланс в размере 1000 долларов США», подавляющее большинство писем в письме уходят в бесконечные глубины стандарта Unicode, где пользователи могут найти символы, которые выглядят так, как будто они являются частью обычного латинского алфавита.
Google утверждает, что RETVec обучен быть устойчивым к операциям на уровне символов, включая вставки, удаления, орфографические ошибки, омонимы, замены LEET и многое другое. Модель RETVec обучена на новой кодировке символов, которая может эффективно кодировать все символы и слова в наборе UTF-8. В результате RETVec работает исключительно хорошо на более чем 100 языках, не требуя таблиц поиска или фиксированных размеров словаря.
Благодаря RETVec Gmail теперь может лучше распознавать и фильтровать спам
Google утверждает, что разница в производительности колоссальна. Методы, использующие фиксированные размеры словаря или таблицы поиска омонимов, требуют больших ресурсов. С другой стороны, RETVec имеет всего 200 000 параметров вместо миллионов, поэтому, хотя облачная платформа фильтрации спама Google достаточно велика, она может работать на локальной машине. RETVec — это проект с открытым исходным кодом, и Google надеется, что он устранит атаки с использованием омонимов.
RETVec работает аналогично моделям машинного обучения TensorFlow, которые используют визуальное сходство для определения значения слов, а не их фактического содержания символов. Этот подход привел к большим улучшениям: Google заявила, что замена классификатора спама Gmail на RETVec улучшила показатели обнаружения спама по сравнению с базовым уровнем на 38% и сократила ложные срабатывания на 19,4%. Использование RETVec сократило использование TPU модели на 83%, что сделало развертывание RETVec одним из крупнейших обновлений за последние годы. Компания тестировала RETVec внутри компании в течение прошлого года и развернула его для всех пользователей Gmail.
Ссылка на источник
Комментарий (0)