Το Gmail λαμβάνει τη μεγαλύτερη αναβάθμιση φίλτρου ανεπιθύμητης αλληλογραφίας εδώ και χρόνια

[διαφήμιση_1]

Η Google δημοσίευσε πρόσφατα μια ανάρτηση στο ιστολόγιο ασφαλείας, στην οποία περιγράφει λεπτομερώς αυτό που αποκαλεί μία από τις μεγαλύτερες αναβαθμίσεις άμυνας στο φίλτρο ανεπιθύμητης αλληλογραφίας του Gmail τα τελευταία χρόνια. Πρόκειται για ένα νέο σύστημα ταξινόμησης κειμένου που ονομάζεται Resilient and Efficient Text Vectorization (RETVec). Η Google λέει ότι μπορεί να βοηθήσει στην κατανόηση της συνάφειας και της ιδιαιτερότητας του κειμένου, το οποίο είναι email γεμάτα με ειδικούς χαρακτήρες, emoji, ορθογραφικά λάθη και άλλα ανεπιθύμητα μηνύματα που προηγουμένως ήταν αναγνώσιμα από ανθρώπους αλλά όχι εύκολα κατανοητά από μηχανές. Προηγουμένως, τα ανεπιθύμητα μηνύματα γεμάτα με ειδικούς χαρακτήρες παρέκαμπταν εύκολα τις άμυνες του Gmail.

Ενώ οποιοδήποτε φίλτρο ανεπιθύμητης αλληλογραφίας μπορεί να εξαλείψει ένα email που λέει «Συγχαρητήρια! Υπάρχει διαθέσιμο υπόλοιπο 1.000$ για τον λογαριασμό τζάκποτ σας», η συντριπτική πλειοψηφία των γραμμάτων στο email εισέρχεται στα ατελείωτα βάθη του προτύπου Unicode, όπου οι χρήστες μπορούν να βρουν χαρακτήρες που μοιάζουν με μέρος του κανονικού λατινικού αλφαβήτου.

Η Google αναφέρει ότι το RETVec έχει εκπαιδευτεί ώστε να είναι ανθεκτικό σε λειτουργίες σε επίπεδο χαρακτήρων, όπως εισαγωγές, διαγραφές, ορθογραφικά λάθη, ομώνυμα, αντικαταστάσεις LEET και άλλα. Το μοντέλο RETVec έχει εκπαιδευτεί σε μια νέα κωδικοποίηση χαρακτήρων που μπορεί να κωδικοποιήσει αποτελεσματικά όλους τους χαρακτήρες και τις λέξεις στο σύνολο UTF-8. Ως αποτέλεσμα, το RETVec αποδίδει εξαιρετικά καλά σε περισσότερες από 100 γλώσσες χωρίς να απαιτεί πίνακες αναζήτησης ή σταθερά μεγέθη λεξιλογίου.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Χάρη στο RETVec, το Gmail μπορεί πλέον να αναγνωρίζει και να φιλτράρει καλύτερα τα ανεπιθύμητα μηνύματα (spam)

Η Google αναφέρει ότι η διαφορά στην απόδοση είναι δραματική. Οι μέθοδοι που χρησιμοποιούν σταθερά μεγέθη λεξιλογίου ή πίνακες αναζήτησης ομώνυμων λέξεων απαιτούν πολλούς πόρους. Το RETVec, από την άλλη πλευρά, έχει μόνο 200.000 παραμέτρους αντί για εκατομμύρια, επομένως, ενώ η πλατφόρμα cloud φιλτραρίσματος ανεπιθύμητης αλληλογραφίας της Google είναι αρκετά μεγάλη, μπορεί να εκτελεστεί σε έναν τοπικό υπολογιστή. Το RETVec είναι ανοιχτού κώδικα και η Google ελπίζει ότι θα εξαλείψει τις επιθέσεις ομώνυμων λέξεων.

Το RETVec λειτουργεί με παρόμοιο τρόπο με τα μοντέλα μηχανικής μάθησης TensorFlow, τα οποία χρησιμοποιούν οπτική ομοιότητα για να προσδιορίσουν την έννοια των λέξεων και όχι το πραγματικό περιεχόμενο των χαρακτήρων τους. Αυτή η προσέγγιση έχει οδηγήσει σε μεγάλες βελτιώσεις, με την Google να αναφέρει ότι η αντικατάσταση του ταξινομητή ανεπιθύμητης αλληλογραφίας του Gmail με το RETVec βελτίωσε τα ποσοστά ανίχνευσης ανεπιθύμητης αλληλογραφίας σε σχέση με την αρχική τιμή κατά 38% και μείωσε τα ψευδώς θετικά κατά 19,4%. Η χρήση του RETVec μείωσε τη χρήση της TPU του μοντέλου κατά 83%, καθιστώντας την κυκλοφορία του RETVec μία από τις μεγαλύτερες αναβαθμίσεις των τελευταίων ετών. Η εταιρεία δοκιμάζει εσωτερικά το RETVec τον τελευταίο χρόνο και το έχει διαθέσει σε όλους τους χρήστες του Gmail.

[διαφήμιση_2]
Σύνδεσμος πηγής

Ετικέτα: Λογαριασμός Gmail αμυντικό σύστημα

Σχόλιο (0)

Πιο δημοφιλή

Νεότερα

No data