গুগল সম্প্রতি একটি সিকিউরিটি ব্লগ পোস্ট প্রকাশ করেছে যেখানে সাম্প্রতিক বছরগুলিতে জিমেইলের স্প্যাম ফিল্টারের সবচেয়ে বড় প্রতিরক্ষা আপগ্রেডগুলির মধ্যে একটি বর্ণনা করা হয়েছে। এটি একটি নতুন টেক্সট ক্লাসিফিকেশন সিস্টেম যার নাম রেজিলিয়েন্ট অ্যান্ড এফিশিয়েন্ট টেক্সট ভেক্টরাইজেশন (RETVec)। গুগল বলেছে যে এটি টেক্সটের প্রাসঙ্গিকতা এবং নির্দিষ্টতা বুঝতে সাহায্য করতে পারে, যা বিশেষ অক্ষর, ইমোজি, ভুল বানান এবং অন্যান্য জাঙ্ক দিয়ে ভরা ইমেল যা আগে মানুষ পড়তে পারত কিন্তু মেশিন দ্বারা সহজে বোঝা যেত না। পূর্বে, বিশেষ অক্ষর দিয়ে ভরা স্প্যাম বার্তাগুলি সহজেই Gmail এর প্রতিরক্ষাকে এড়িয়ে যেত।
যেকোনো স্প্যাম ফিল্টার এমন একটি ইমেল মুছে ফেলতে পারে যেখানে লেখা আছে, "অভিনন্দন! আপনার জ্যাকপট অ্যাকাউন্টের জন্য $1,000 ব্যালেন্স পাওয়া যাচ্ছে," ইমেলের বেশিরভাগ অক্ষরই ইউনিকোড স্ট্যান্ডার্ডের অসীম গভীরতায় চলে যায়, যেখানে ব্যবহারকারীরা এমন অক্ষর খুঁজে পেতে পারেন যা দেখতে নিয়মিত ল্যাটিন বর্ণমালার অংশ।
গুগল বলছে যে RETVec অক্ষর-স্তরের ক্রিয়াকলাপগুলির জন্য স্থিতিস্থাপক হতে প্রশিক্ষিত, যার মধ্যে সন্নিবেশ, মুছে ফেলা, ভুল বানান, সমজাতীয় শব্দ, LEET প্রতিস্থাপন এবং আরও অনেক কিছু অন্তর্ভুক্ত। RETVec মডেলটি একটি নতুন অক্ষর এনকোডিং-এর উপর প্রশিক্ষিত যা UTF-8 সেটের সমস্ত অক্ষর এবং শব্দ দক্ষতার সাথে এনকোড করতে পারে। ফলস্বরূপ, RETVec লুকআপ টেবিল বা নির্দিষ্ট শব্দভান্ডারের আকার ছাড়াই 100 টিরও বেশি ভাষায় ব্যতিক্রমীভাবে ভাল পারফর্ম করে।
RETVec-এর জন্য ধন্যবাদ, Gmail এখন স্প্যাম আরও ভালোভাবে চিনতে এবং ফিল্টার করতে পারে।
গুগল বলছে পারফরম্যান্সের পার্থক্য নাটকীয়। নির্দিষ্ট শব্দভান্ডারের আকার বা হোমোনিমের লুকআপ টেবিল ব্যবহার করে এমন পদ্ধতিগুলি সম্পদ-নিবিড়। অন্যদিকে, RETVec-এর লক্ষ লক্ষের পরিবর্তে মাত্র 200,000 প্যারামিটার রয়েছে, তাই গুগলের স্প্যাম-ফিল্টারিং ক্লাউড প্ল্যাটফর্ম যথেষ্ট বড় হলেও এটি একটি স্থানীয় মেশিনে চলতে পারে। RETVec ওপেন সোর্স, এবং গুগল আশা করে যে এটি হোমোনিম আক্রমণ দূর করবে।
RETVec TensorFlow মেশিন লার্নিং মডেলের মতোই কাজ করে, যা শব্দের প্রকৃত অক্ষরের পরিবর্তে শব্দের অর্থ নির্ধারণের জন্য দৃশ্যমান সাদৃশ্য ব্যবহার করে। এই পদ্ধতির ফলে বড় ধরনের উন্নতি হয়েছে, গুগল জানিয়েছে যে Gmail এর স্প্যাম ক্লাসিফায়ারকে RETVec দিয়ে প্রতিস্থাপন করার ফলে বেসলাইনের তুলনায় স্প্যাম সনাক্তকরণের হার 38% উন্নত হয়েছে এবং মিথ্যা ইতিবাচকতা 19.4% হ্রাস পেয়েছে। RETVec ব্যবহার করে মডেলের TPU ব্যবহার 83% হ্রাস পেয়েছে, যা RETVec রোলআউটকে সাম্প্রতিক বছরগুলিতে সবচেয়ে বড় আপগ্রেডগুলির মধ্যে একটি করে তুলেছে। কোম্পানিটি গত বছর ধরে অভ্যন্তরীণভাবে RETVec পরীক্ষা করে আসছে এবং এটি সমস্ত Gmail ব্যবহারকারীদের জন্য চালু করেছে।
[বিজ্ঞাপন_২]
উৎস লিঙ্ক
মন্তব্য (0)