OpenAI заявляет, что развертывает новую систему для мониторинга своих новейших моделей вывода ИИo3 и o4-mini для обнаружения сигналов, связанных с биологическими и химическими угрозами.Согласно отчету о безопасности OpenAI, система, предназначенная для предотвращения предоставления этими моделями рекомендаций, которые могут побудить кого-либо совершить потенциально опасные атаки.
В OpenAI заявили, что производительность O3 и o4-mini значительно улучшена по сравнению с предыдущими моделями, что также создает новые риски для злоумышленников. Согласно внутренним тестам OpenAI, o3 лучше отвечает на конкретные типы вопросов, связанных с биоугрозами. По этой причине, а также для снижения других рисков, OpenAI создала новую систему мониторинга, которую компания описывает как «монитор вывода, ориентированный на безопасность».
Монитор работает на o3 и o4-mini и специально обучен анализировать политику OpenAI в отношении контента. Он предназначен для выявления сигналов, связанных с биологическими и химическими рисками, и дает указание модели отклонять рекомендации по этим темам.
Чтобы установить базовый уровень, OpenAI поручил членам красной команды потратить около 1000 часов, отмечая «небезопасные» разговоры, связанные с биорисками, в o3 и o4-mini. OpenAI сообщила, что в тесте, имитирующем «логику блокировки» ее мониторов безопасности, модели отказывались реагировать на запросы о рисках в 98,7% случаев.
OpenAI признала, что ее тестирование не учитывало людей, которые могли попробовать новые подсказки после того, как их заблокировал монитор, поэтому компания заявила, что продолжит частично полагаться на человеческий мониторинг.
OpenAI заявила, что O3 и o4-mini не превысили порог «высокого риска» биологического риска, установленный OpenAI. Однако OpenAI утверждает, что более ранние версии o3 и o4-mini более полезны при ответах на вопросы о разработке биологического оружия, чем o1 и GPT-4.

Схема системных карт o3 и o4-mini (Скриншот: OpenAI)
Согласно недавно обновленной системе предотвращения OpenAI, компания активно отслеживает, как ее модели облегчают злоумышленникам создание химических и биологических угроз.
OpenAI все больше полагается на автоматизированные системы для снижения рисков своих моделей. Например, чтобы предотвратить создание контента с сексуальным насилием над детьми (CSAM) собственным генератором изображений GPT-4o, OpenAI заявила, что использует монитор вывода, аналогичный тому, который компания развернула для o3 и o4-mini.
Однако некоторые исследователи обеспокоены тем, что OpenAI не обеспечивает безопасность там, где она должна быть. Metr, один из партнеров красной команды компании, сказал, что у них мало времени для оценки обманов o3. Тем временем OpenAI решила не публиковать отчет о безопасности модели GPT-4.1, выпущенной ранее на этой неделе.