Google недавно открыл исходный код нового многоязычного векторизатора текста под названием RETVec на GoogleColab. Этот векторизатор был развернут в Gmail для повышения уровня распознавания спама и фишинговых писем и одновременного снижения уровня ложных срабатываний. Google утверждает, что RETVec обучен противостоять операциям на уровне символов, включая вставки, удаления, орфографические ошибки и т. д.Омографы, замена LEET и т. д. Эта модель обучена на основе нового кодировщика символов, который может эффективно кодировать все символы и слова UTF-8.
Зачем обучать такую модель? Потому что Gmail отправляет и получает десятки миллионов электронных писем каждый день, и если он содержит различные типы спама, то их могут быть миллиарды, и спамеры будут обходить систему обнаружения Google, например, используя омографы.
RETVec поддерживает более 100 языков и предназначен для создания более гибкой и эффективной классификации текста на сервере и устройстве, а также является более мощным и эффективным.
Согласно собственной статистике Google, после применения RETVec к Gmail уровень обнаружения спама увеличился на 38% по сравнению с базовым уровнем, уровень ложных срабатываний снизился на 19,4%, а использование тензорного процессора (TPU) сократилось на 83%.
Инженеры Google говорят, что модели, обученные с помощью RETVec, демонстрируют более высокую скорость вывода из-за их компактного представления. Модели меньшего размера могут снизить вычислительные затраты и уменьшить задержку, что критически важно для моделей в крупномасштабных системах и устройствах.
Векторизация — это метод НЛП или обработки естественного языка, который используется для сопоставления слов или фраз в словаре с соответствующими цифровыми выражениями для выполнения дальнейшего анализа, такого как анализ настроений, классификация текста и распознавание именованных объектов.