Google, Gmail'in Spam ve Kötü Amaçlı E-postalara Karşı Yeni Savunması RETVec'i Tanıttı

Google, Gmail'deki spam ve kötü amaçlı e-postalar gibi potansiyel olarak zararlı içeriği tespit etmeye yardımcı olmak için RETVec (Resilient and Efficient Text Vectorizer'ın kısaltması) adlı yeni bir çok dilli metin vektörleştiricisini ortaya çıkardı.

Projenin GitHub'daki açıklamasına göre, "RETVec, ekleme, silme, yazım hataları, homoglifler, LEET ikamesi ve daha fazlası dahil olmak üzere karakter düzeyinde manipülasyonlara karşı dayanıklı olacak şekilde eğitilmiştir".

"RETVec modeli, tüm UTF-8 karakterlerini ve kelimelerini verimli bir şekilde kodlayabilen yeni bir karakter kodlayıcının üzerinde eğitilmiştir."

Gmail ve YouTube gibi büyük platformlar, kimlik avı saldırılarını, uygunsuz yorumları ve dolandırıcılıkları tespit etmek için metin sınıflandırma modellerine güvenirken, tehdit aktörlerinin bu savunma önlemlerini atlamak için karşı stratejiler geliştirdiği bilinmektedir.

Homogliflerin kullanımından anahtar kelime doldurmaya ve görünmez karakterlere kadar değişen çekişmeli metin manipülasyonlarına başvurdukları gözlemlenmiştir.

Kullanıma hazır 100'den fazla dilde çalışan RETVec, daha dayanıklı ve verimli sunucu tarafı ve cihaz üzerinde metin sınıflandırıcıları oluşturmaya yardımcı olurken aynı zamanda daha sağlam ve verimli olmayı amaçlamaktadır.

Vektörleştirme, doğal dil işlemede (NLP) duygu analizi, metin sınıflandırması ve adlandırılmış varlık tanıma gibi daha fazla analiz gerçekleştirmek için kelime dağarcığındaki kelimeleri veya kelime öbeklerini karşılık gelen bir sayısal temsille eşlemeye yönelik bir metodolojidir.

Google'dan Elie Bursztein ve Marina Zhang, "Yeni mimarisi sayesinde RETVec, metin ön işlemeye gerek kalmadan her dilde ve tüm UTF-8 karakterlerinde kullanıma hazır olarak çalışıyor ve bu da onu cihazda, web'de ve büyük ölçekli metin sınıflandırma dağıtımları için ideal bir aday haline getiriyor" dedi.

Teknoloji devi, vektörleştiricinin Gmail'e entegrasyonunun, spam algılama oranını taban çizgisine göre %38 artırdığını ve yanlış pozitif oranını %19,4 azalttığını söyledi. Ayrıca modelin Tensör İşleme Birimi (TPU) kullanımını %83 oranında azalttı.

"RETVec ile eğitilen modeller, kompakt gösterimi nedeniyle daha hızlı çıkarım hızı sergiliyor. Daha küçük modellere sahip olmak, hesaplama maliyetlerini düşürür ve büyük ölçekli uygulamalar ve cihaz üzerindeki modeller için kritik olan gecikmeyi azaltır," diye ekledi Bursztein ve Zhang.