Nightshade «отравляет» изображения, чтобы остановить обучение ИИ и помочь защитить Artists

Одной из многих проблем, связанных с генеративным ИИ, является его способность генерировать изображения, используя изображения, взятые из Интернета, без разрешения первоначального создателя. Но новый инструмент может решить эту проблему, «отравив» данные, используемые для обучения модели.

MIT Technology Review рассказывает о новом инструменте под названием Nightshade, созданном исследователями из Чикагского университета. Он работает путем внесения очень небольших изменений в пиксели изображения, невидимых невооруженным глазом, перед их загрузкой. Это отравляет обучающие данные, используемые такими инструментами, как DALL-E, StableDiffusion и Midjourney, что приводит к непредсказуемому сбою модели.

Некоторые примеры того, как генеративный ИИ может неправильно интерпретировать изображения людей, отравленных пасленовыми, включают превращение собак в кошек, автомобилей в коров, шляп в торты и сумок в тостеры. Он также отлично подходит для демонстрации различных стилей искусства: кубизм становится аниме, мультфильмы — импрессионизмом, концептуальное искусство — абстракцией.

В недавней статье, опубликованной исследователями на arXiv, Nightshade описывается как отравляющая атака, специфичная для подсказок. Вместо того, чтобы отравлять миллионы изображений, Nightshade может уничтожать стабильные диффузные сигналы с помощью примерно 50 сэмплов, как показано на изображении ниже.

Исследователи написали, что инструмент может не только отравить определенные термины, такие как «собака», но также может «проникнуть» в связанные понятия, такие как «щенок», «собака» и «хаски». Это влияет даже на косвенно связанные изображения; например, отравление «Искусство фэнтези» превратит подсказки «дракон», «замок из Властелина колец» и «картина Майкла Уилана» во что-то другое.

Бен Чжао, профессор Чикагского университета, возглавлявший команду, создавшую Nightshade, выразил надежду, что этот инструмент послужит сдерживающим фактором для компаний, занимающихся искусственным интеллектом, которые не уважают авторские права и права интеллектуальной собственности художников. Он признал возможность злонамеренного использования, но чтобы нанести реальный ущерб более крупным и мощным моделям, злоумышленникам придется отравить тысячи изображений, поскольку эти системы обучены на миллиардах образцов данных.

Тренеры генеративных моделей ИИ также могут использовать средства защиты от этой практики, такие как фильтрация данных с большими потерями, частотный анализ и другие методы обнаружения/удаления, но Бен Чжао сказал, что они не очень надежны.

Некоторые крупные компании, занимающиеся искусственным интеллектом, дают художникам возможность не использовать их работы в наборах данных для обучения искусственного интеллекта, но это может быть трудным процессом и не затрагивает работу, которая могла быть отменена. Многие считают, что художники должны иметь возможность согласиться, а не отказываться от участия.