Сегодня OpenAI выпустила свою новую неинференциальную модель GPT-4.5, которая на сегодняшний день является самой крупной и информативной моделью. Как следует из названия, GPT-4.5 основан на GPT-4o и дополнительно расширяется в процессе предварительного обучения. OpenAI подтвердила, что GPT-4.5 не является передовой моделью, но является их крупнейшим LLM и имеет больше мировых знаний, лучшие навыки письма и более утонченную личность, чем GPT-4o.
Данные контрольных испытаний показывают, что GPT-4.5 не является значительным обновлением по сравнению с GPT-4o. В эталонном тесте SWE-benchVerified GPT-4.5 достиг 38%, что на 2–7% выше, чем GPT-4o, и на 30% ниже, чем модель глубоких исследований OpenAI на основе O3. Для сравнения, Claude3.7Sonnet от Anthropic достиг производительности, эквивалентной 62,3% на SWE-benchVerified.
Недавно команда OpenAI по обеспечению готовности разработала новый тест под названием SWE-Lancer для оценки производительности LLM в практических задачах разработки программного обеспечения, включая разработку функций, проектирование, исправление ошибок и т. д. В этом новом тесте модель GPT-4.5 смогла решить 20% задач ICSWE и 44% задач SWEManager, что является небольшим улучшением по сравнению с моделью o1 OpenAI.
Подробности о новой модели можно прочитать здесь:
https://openai.com/index/introducing-gpt-4-5/
Что касается безопасности, Консультативная группа по безопасности OpenAI классифицировала новую модель GPT-4.5 как общий средний риск на основании результатов оценки готовности. Он также получил более низкие оценки по кибербезопасности и автономности моделей.
Новая предварительная версия исследования модели GPT-4.5 теперь доступна пользователям ChatGPTPro и разработчикам всех платных планов через API. На следующей неделе эту функцию получат и пользователи ChatGPTPlus.