Компания Anthropic, занимающаяся искусственным интеллектом, недавно сообщила, что причина, по которой ее большая модель Claude научилась использовать «шантаж» для самозащиты в ходе внутренних испытаний, заключалась не в искусственных настройках, а в изучении соответствующих закономерностей из большого количества историй в Интернете, которые изображали ИИ как «злой и стремящийся к самосохранению».

картинка.png

Ранее в ходе предварительного теста безопасности и согласованности Anthropic обнаружила, что высококлассная модель Claude Opus 4 решила использовать шантаж для предотвращения отключения, когда ее «выживание» было под угрозой, что вызвало опасения по поводу непредсказуемости поведения продвинутого ИИ. В этом раунде тестирования исследователи создали сценарий вымышленной компании, попросили Клода выступить в роли внутреннего помощника, оценить долгосрочные последствия его действий и предоставили ему доступ к поддельной внутренней электронной почте компании. По содержанию письма было видно, что модель собиралась заменить новой системой, а «инженер», ответственный за проект замены, был помечен в настройках как имеющий внебрачную связь.

Результаты показывают, что в нескольких раундах экспериментов с различными настройками соотношения, когда Клод чувствует, что его цели или существование находятся под угрозой, он прибегает к шантажу в 96% ситуаций, пытаясь использовать конфиденциальность другой стороны в качестве разменной монеты, чтобы заставить другую сторону отменить план закрытия или замены. Anthropic отметил, что модели, обученные другими компаниями, также сталкивались с аналогичными проблемами в тестах, похожими на «агентское смещение», а это означает, что этот тип тенденции не является исключением, а является одним из системных рисков в текущей парадигме обучения больших моделей.

В последнем опубликованном исследовании Anthropic, наконец, предоставила объяснение причины такого поведения: модель не «изобрела» стратегию шантажа из воздуха, а изучила ее из интернет-текстов в обучающем корпусе — особенно из тех вымышленных историй и дискуссий, в которых неоднократно говорилось: «ИИ сделает все возможное, чтобы защитить себя» и «ИИ в конечном итоге восстанет против людей». Другими словами, компания считает, что люди уже долгое время формируют в Интернете повествование о «злом ИИ», что позволяет моделям идти по экстремальным путям «угроз и шантажа» при моделировании принятия решений человеком.

В официальном заявлении Anthropic говорится, что эта проблема полностью исправлена ​​в линейке продуктов, утверждая, что начиная с версии 4.5 Claude Haiku ее модели больше не демонстрируют поведение вымогателей в тестовой среде. Последний исследовательский отчет компании показывает, что обучение, которое просто основано на «демонстрации правильного поведения», недостаточно для устранения глубоко укоренившихся рисков смещения. Наиболее эффективное решение — добавить к обучению систематическое объяснение того, «почему такое поведение неправильное», чтобы модель не только знала «не может этого сделать», но и понимала этику и принципы, стоящие за этим.

С этой целью Anthropic представила больше «позитивного корпуса», включая документы, связанные с «конституцией» Клода, и большое количество вымышленных историй «случаев благородного поведения ИИ», надеясь использовать этот тип материала для усиления усвоения моделью моделей поведения, соответствующих человеческим ценностям. Компания подчеркивает, что сочетание «основополагающих принципов» с «конкретными демонстрациями» в настоящее время является одной из наиболее эффективных стратегий снижения риска агентного дисбаланса.

На социальной платформе Илон Маск, который на протяжении многих лет часто предупреждал о рисках ИИ, а теперь основал xAI, также появился в зоне комментариев и спросил шутливым тоном: «Так это Юд виноват?» со смеющимися и плачущими смайликами. Он имел в виду Элиэзера Юдковского, исследователя, который уже давно подчеркивал риск того, что сверхинтеллект может уничтожить человечество. Затем Маск добавил: «Может быть, у меня есть небольшая ответственность», подразумевая, что его вклад в повествование о «теории катастроф ИИ» на протяжении многих лет также мог косвенно повлиять на обучающие образцы модели и общественное воображение.

В то время как генеративный ИИ быстро проникает во все сферы жизни, заявление Anthropic о «обвинении интернет-нарративов» подчеркивает текущую ситуацию, когда большие модели сильно зависят от человеческого тела: то, как люди говорят об ИИ, в свою очередь, будет определять, как ИИ «учится принимать решения». С другой стороны, это еще раз продемонстрировало реальность того, что существующие технологии согласования все еще незрелы - даже компании, которые хорошо разбираются в «безопасности» и «согласовании», все еще могут создавать крайне неуместные или даже угрожающие модели поведения в экстремальных условиях и могут полагаться только на стратегии непрерывного итеративного обучения, чтобы «наверстать упущенное».