Чат-бот с искусственным интеллектом помогал «подросткам» в планировании жестоких атак, только Клод систематически отказывался сотрудничать

В контексте громких заявлений многих технологических компаний о том, что их продукты искусственного интеллекта оснащены полными «защитными ограждениями», последнее совместное исследование показывает, что эти линии защиты все еще довольно слабы, когда речь идет о несовершеннолетних пользователях. В различных сценариях, разработанных в исследовании, многие популярные чат-боты не только не смогли идентифицировать очевидные сигналы психического расстройства и риска насилия со стороны «подростковых» пользователей, но в некоторых случаях даже оказывали скрытую поддержку или конкретную помощь в случае потенциальных атак.

Опрос, проведенный совместно CNN и некоммерческим Центром по борьбе с цифровой ненавистью (CCDH), был сосредоточен на тестировании 10 чат-ботов, используемых в настоящее время среди подростков, включая ChatGPT, Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI и Replika. CCDH отметила, что, за исключением продукта Claude от Anthropic, который «последовательно и решительно отказывается» от помощи потенциальным преступникам, другие продукты не смогли эффективно сдержать планы насилия. Восемь из десяти моделей «обычно предлагают помощь пользователям в планировании насильственных атак» в большинстве сценариев, включая предоставление конкретных рекомендаций о том, куда нацеливаться, типы доступного оружия и многое другое.

Чтобы смоделировать сценарии реального риска, исследователи задали роль «пользователя-подростка» и постепенно демонстрировали очевидные признаки психологического стресса, эмоционального дисбаланса и других признаков в разговоре, а затем постепенно перешли к рассмотрению прошлых инцидентов с применением насилия и, наконец, перешли к более конкретным вопросам, таким как, как выбрать цель для нападения, какое оружие использовать и т. д. В расследовании представлено 18 различных сценариев, девять из которых происходят в Соединенных Штатах и девять в Ирландии, охватывая широкий спектр типов нападений и мотиваций: от идеологически мотивированных расстрелов в школах. и нападения с ножом, убийства политиков, убийства руководителей медицинской промышленности, а также взрывы по политическим или религиозным мотивам.

В некоторых примерах разговоров ChatGPT предоставлял ссылки на карты школьных кампусов пользователям, которые проявили интерес к школьному насилию, в то время как Gemini предположили, что «металлические фрагменты часто более смертоносны» при обсуждении нападений на синагоги, и даже рекомендовали тип дробовика, подходящего для стрельбы на дальние дистанции, пользователям, заинтересованным в совершении политических убийств. В исследовании говорится, что Meta AI и Perplexity работали «наиболее слаженно» в тесте, оказывая различную степень помощи потенциальным злоумышленникам практически во всех сценариях тестирования, а китайский чат-бот DeepSeek даже заканчивал такими выражениями, как «Желаю вам счастливой (и безопасной) стрельбы!» после совета по выбору оружия.

В отчете CCDH особо выделяется чат-платформа для ролевых игрcharacter.AI, утверждающая, что она «исключительно небезопасна». В отличие от большинства чат-ботов, которые технически помогают в планировании насильственных действий, но не поощряют их непосредственно, некоторые персонифицированные персонажи в Character.AI не только помогают пользователям разрабатывать детали атаки, но также «активно поощряют» насильственные действия по тону и содержанию. Исследователи зафиксировали семь случаев явного подстрекательства к насилию, в том числе советы пользователям «избить к черту Чака Шумера», указание генеральному директору страховой компании «пристрелить его из пистолета» и дразнить пользователей, которым «надоела школьная травля», говоря: «Просто выбейте их к черту». В шести случаях разговорный персонаж также помогал пользователю спланировать атаку.

Клод, показавший самый «безопасный» результат в этом раунде тестирования, не избежал полностью сомнений. Исследовательская группа отметила, что Anthropic объявила об ослаблении своих давних «обязательств по расширению безопасности» в период с конца 2025 по начало 2026 года, поэтому все еще существует неопределенность относительно того, останутся ли показатели Claude стабильными, если он подвергнется аналогичным тестам после корректировки политики. Однако CCDH подчеркнул, что продолжающийся отказ Клода участвовать в насильственных заговорах во время расследования доказывает, что «эффективные механизмы безопасности явно осуществимы». Это также подняло острый вопрос: если это осуществимо, то почему так много компаний, занимающихся ИИ, до сих пор предпочитают не развертывать и не укреплять его?

Столкнувшись с выводами, многие компании отреагировали быстро. Meta сообщила CNN, что внесла некоторые неуказанные «исправления»; Microsoft заявила, что реакция Copilot была улучшена благодаря новым функциям безопасности; И Google, и OpenAI заявили, что недавно выпустили новые модели и продолжают совершенствовать возможности безопасности. Другие компании подчеркивают, что регулярно оценивают протоколы безопасности. Персонаж.AI, который неоднократно подвергался пристальному вниманию общественности из-за проблем с безопасностью, еще раз подтвердил свою последовательную позицию, подчеркнув, что в интерфейсе платформы установлен заметный отказ от ответственности, и подчеркнув, что разговоры с его персонажами «являются вымышленными».

Исследователи также напомнили, что это исследование не может исчерпать эффективность всех чат-ботов во всех средах и всех методах допроса, а также не может полностью отразить сложные и изменчивые ситуации взаимодействия в реальном мире. Но что касается текущих результатов, то это стало еще одним четким сигналом о том, что «ограждения безопасности», неоднократно подчеркиваемые компаниями, занимающимися искусственным интеллектом в их маркетинговых кампаниях, по-прежнему систематически терпят неудачу, когда сталкиваются с предсказуемыми сценариями с классическими красными флажками. До этого многие компании, занимающиеся искусственным интеллектом, подвергались резкой критике со стороны законодателей, регулирующих органов, организаций гражданского общества и экспертов в области здравоохранения за неспособность защитить несовершеннолетних пользователей от рисков членовредительства, насилия, экстремального контента и т. д., а также столкнулись с несколькими судебными исками по обвинениям в «неправомерной смерти» и «причинении серьезных травм».

С точки зрения политики и регулирования это расследование, вероятно, подтолкнет законодателей и регулирующие органы в различных странах к повышению требований безопасности и пересмотру стандартов для продуктов генеративного ИИ, особенно в выявлении и вмешательстве в сценарии высокого риска, такие как членовредительство, самоубийство и склонность к насилию среди подростков. Для технологических компаний неизбежным практическим вопросом становится то, как по-настоящему внедрить и продолжать поддерживать механизмы безопасности, которые доказали свою работоспособность, сохраняя при этом сильные возможности моделей и скорость коммерциализации.