В четверг OpenAI официально выпустила новое поколение базовых моделей GPT‑5.4, позиционируя их как «самую мощную, эффективную и передовую модель для профессиональной работы на сегодняшний день». В дополнение к стандартной версии OpenAI одновременно запустила два варианта: GPT‑5.4 Thinking, подчеркивающий возможности сложного рассуждения, и GPT‑5.4 Pro, ориентированный на сценарии высокопроизводительных приложений.

Что касается возможностей модели, API-версия GPT-5.4 поддерживает контекстное окно объемом до 1 миллиона токенов, что намного превосходит любую модель, ранее предоставляемую OpenAI, что полезно для обработки рабочих процессов с длинной цепочкой, таких как длинные документы, сложные проекты или многораундовые задачи. OpenAI также подчеркнула повышение эффективности использования токенов, заявив, что GPT-5.4 может выполнять задачи той же сложности, что и модель предыдущего поколения, со значительно меньшим количеством токенов, формируя тем самым преимущества в стоимости и скорости ответа.

Последние результаты тестов показывают, что GPT‑5.4 добился значительного лидерства в многочисленных авторитетных оценках, включая установление новых рекордов в двух сценариях «работы с компьютером» — OSWorld‑Verified и WebArena Verified, а также достижение наивысшего балла в 83 % по собственному набору OpenAI для оценки научной работы, установленному GDPval. GPT‑5.4 также занял первое место в тесте APEX‑Agents, установленном стартапом Mercor, по таким профессиональным навыкам, как юриспруденция и финансы.

Генеральный директор Mercor Брендан Фуди заявил в своем заявлении, что GPT-5.4 превосходно справляется с получением долгосрочных результатов, включая презентации, финансовые модели и юридический анализ, «при этом сохраняя максимальную производительность, быстрее и с меньшими затратами, чем сопоставимые передовые модели».

Что касается надежности, GPT-5.4 продолжает направление исследований и разработок OpenAI, направленное на уменьшение «иллюзий» и фактических ошибок. Официальные результаты внутренней оценки показывают, что по сравнению с GPT-5.2 новая модель имеет снижение вероятности ошибок на уровне отдельного утверждения на 33% и снижение вероятности ошибок в общем ответе на 18%.

В этом выпуске также произошло важное изменение уровня API: OpenAI запускает новый механизм вызова инструментов под названием Tool Search. В старом решении системное приглашение должно было одновременно вводить в модель определения всех доступных инструментов. По мере увеличения количества инструментов эта часть самой подсказки будет занимать большое количество токенов. Новый поиск инструментов позволяет моделям запрашивать определения инструментов по требованию, что значительно снижает накладные расходы в системах с инструментами большего размера, делая вызовы быстрее и дешевле.

Сосредоточив внимание на безопасности и управляемости, OpenAI на этот раз добавила новую оценку безопасности, чтобы проверить эффективность модели в многоэтапных задачах. Исследователи уже давно обеспокоены тем, что модели с способностями к рассуждению могут «замаскировать» или скрыть истинный путь рассуждения в процессе цепного мышления. Предыдущие исследования показали, что это действительно может произойти при определенных условиях. Новые результаты оценки, предоставленные OpenAI, показывают, что в версии GPT-5.4 Thinking вероятность подобных «обманных» показателей еще ниже. «Это показывает, что модели не хватает возможности активно скрывать процесс рассуждения, а мониторинг цепочки мышления по-прежнему остается эффективным инструментом безопасности».

Посредством одновременного запуска GPT-5.4 и его версий Pro и Thinking OpenAI пытается найти новый баланс между профессиональной производительностью, экономической эффективностью и управляемостью безопасности, продвигая большие модели дальше в такие важные сценарии, как юриспруденция, финансы и интеллектуальная работа.