GPT-5.6 уже на подходе: флагманская версия превосходит GPT-5.5, но цена не выросла

GPT-5.6 здесь, но... что это за модель? На этот раз OpenAI не использовал знакомые в прошлом названия Pro, Mini и Instant. Вместо этого придумали сразу три названия:GPT-5.6 Солнце, GPT-5.6 Терра, GPT-5.6 Луна.Солнце – это Солнце, Терра – это Земля, а Луна – это Луна.

Звучит необычно, как новая модель вселенной. Но на самом деле это знакомая нам многослойность продукта: самая мощная флагманская модель, сбалансированная модель для ежедневного использования и легкая модель, дешевая, быстрая и подходящая для крупномасштабных звонков.

Официальное заявление OpenAI:Серия GPT-5.6 будет полностью открыта в ближайшие недели, но в настоящее время она находится в ограниченной предварительной версии для небольшой группы «доверенных партнеров» в Кодексе и API по запросу правительства США.

Давайте сначала взглянем на общедоступную информацию.

Высшая оценка стоит ту же цену, что и GPT 5.5.

На этот раз OpenAI присвоил GPT-5.6 три уровня: Солнце, Терра и Луна.

Согласно официальному заявлению, Sol — флагманская модель, Terra — сбалансированная модель для повседневной работы, а Luna — быстрая, дешевая и легкая модель.

Трехуровневые модели были выпущены одновременно, что в основном соответствует наиболее распространенной трехуровневой структуре в продуктах крупных моделей: самая сильная модель отвечает за верхний предел возможностей, промежуточная модель отвечает за большинство повседневных задач, а облегченная модель отвечает за скорость, стоимость и большое количество одновременных вызовов.

Уровень тройки можно увидеть по цене.

Согласно цене API, объявленной OpenAI,GPT-5.6 взимается за 1 миллион токенов: Sol стоит 5 долларов США за ввод и 30 долларов США за вывод; Terra стоит 2,5 доллара США за входные данные и 15 долларов США за выходные данные; а Luna стоит 1 доллар США за входные данные и 6 долларов США за выходные данные.

Думаю, вы заметили: хотя GPT-5.6 Sol является флагманской моделью нового поколения, цена соответствует стандартной версии GPT-5.5, а не GPT-5.5 Pro.

Терра упала сразу до половины GPT-5,5, а Луна составила лишь одну пятую от GPT-5,5.

GPT-5.5 Pro на данный момент по-прежнему остается самой дорогой моделью OpenAI. Цена составляет 30 долларов США за миллион токенов на входе и 180 долларов США за миллион токенов на выходе. Цена в 6 раз выше стандартной версии GPT-5.5 и GPT-5.6 Sol. Не знаю, появится ли в будущем еще одна Вселенная GPT-5.6, «более подходящая для профессиональных задач» (шутка).

Sol — модель высшего класса в серии GPT-5.6, а также именно эта модель посвящена больше всего времени в официальном анонсе.

OpenAI называет GPT-5.6 Sol самой мощной моделью на данный момент, уделяя особое внимание ее возможностям в области кодирования, биологических исследований и сетевой безопасности.

Проще говоря, Сол позиционируется как «лучшая модель». Он соответствует не обычным сценариям чата, а задачам более сложным и приближенным к реальной работе.

Например, в сценарии кода он может продолжать продвигаться к цели: сначала понять проблему, затем разбить шаги, затем вызывать инструменты, запускать команды, проверять результаты и вносить исправления в случае возникновения ошибок, пока задача не будет завершена.

Чтобы помочь Sol в обработке более сложных задач, OpenAI представила в GPT-5.6 два новых механизма.

Первый называетсямаксимальное усилие рассуждения, что можно перевести как «максимальная сила рассуждения».

Популярное понимание означает, что у Сола есть больше времени, чтобы ясно обдумать проблему, и ему требуется больше времени для проведения углубленных рассуждений. Подходит для сложных задач, которые невозможно решить первой реакцией.

Второй называетсяультра режим,Его можно понимать как «суперрежим».

Целью этой модели является предоставление возможности нескольким субагентам вместе участвовать в сложных задачах. Это можно понять так: раньше ИИ-помощник работал самостоятельно, а теперь «ИИ-менеджер» руководит несколькими помощниками для решения задач по отдельности, тем самым ускоряя выполнение сложной работы.

Terminal-Bench 2.1 — тест, максимально приближенный к реальному процессу разработки. Он проверяет, может ли модель решить проблему шаг за шагом в среде командной строки. GPT-5.6 Sol набрал в этом тесте высокий балл — 88,8%, а в режиме «Ультра» этот показатель был еще выше.

OpenAI особо отметила, что когда модель станет более открытой, будет опубликован более полный набор результатов оценки.

Терра — средний диапазон.

Знакомство OpenAI с Terra не такое уж долгое, но его позиционирование понятно: это сбалансированная модель для повседневной работы.

То есть он не обязательно преследует сильнейшего, а обеспечивает баланс между эффектом, скоростью и стоимостью. Официальные лица подчеркнули, что возможности Terra близки к GPT-5.5, но цена в два раза дешевле.

По мнению OpenAI, Terra, вероятно, будет наиболее часто используемым из серии GPT-5.6. Обычные офисные задачи часто не требуют таких высоких возможностей, как Sol, но они должны быть стабильными, дешевыми и простыми в использовании.

В тесте Terminal-Bench 2.1GPT-5.6 Terra получила 84,3%, что столько же, сколько у Claude Fable 5.

Luna — самая дешевая модель.

Позиционирование Luna со стороны OpenAI также очень простое: быстрая, дешевая и подходящая для крупномасштабных, высокочастотных и чувствительных к затратам задач.

Например, пакетное обобщение, классификация текста, извлечение информации, простые вопросы и ответы и т. д. Сами по себе эти задачи не обязательно сложны, но объем вызовов может быть очень большим. Роль Luna — выполнять эти легкие задачи с меньшими затратами.

Среди этих трёх моделей Sol отвечает за самые высокие возможности, Terra — за повседневную работу, а Luna — за скорость и стоимость. Это звучит фантастически, но OpenAI просто переупаковывает уже зрелые слои индустрии больших моделей.

Но я думаю, что название не важно, главное, чтобы оно было дешевым и простым в использовании.

Соотношение цены и качества

Судя по официальному объявлению, тестов, выпущенных GPT-5.6 Sol на этот раз, не так много. Сама OpenAI заявила, что теперь нужно просто заранее сообщить внешнему миру о производительности модели, поэтому сначала она поделится набором результатов оценки.

Но выпущенный набор тестов имеет четкое направление и сосредоточен на трех областях: код, биология и сетевая безопасность.

Вышеупомянутый Terminal-Bench 2.1 относится к кодовому направлению. Он проверяет, может ли модель завершить реальный процесс разработки в среде командной строки, включая планирование, повторные модификации, вызов инструментов и проверку результатов.

В дополнение к коду OpenAI также выделил биологический тест: GeneBench v1.

GeneBench v1 оценивает долгосрочные задачи геномики и количественного биологического анализа, уделяя особое внимание тому, может ли модель справиться с задачами анализа, которые ближе к реальному процессу научных исследований.

По данным OpenAI, GPT-5.6 Sol работает лучше, чем GPT-5.5 на GeneBench v1, иИспользуйте меньше жетонов.

Третье ключевое направление – сетевая безопасность. OpenAI утверждает, что GPT-5.6 Sol является ее самой сильной моделью сетевой безопасности на данный момент, особенно для долгосрочных задач безопасности (включая исследование уязвимостей и задачи, связанные с эксплуатацией уязвимостей).

Здесь есть тест под названием ExploitBench — это не общий вопрос и ответ по безопасности, а оценка, более близкая к сценариям эксплуатации уязвимостей.

OpenAI заявила об этом на ExploitBench:Производительность GPT-5.6 Sol сравнима с Mythos Preview, но использует только около трети выходных токенов.

Хотя определенный пробел в официальной картине все же есть.

Видно, что OpenAI на этот раз неоднократно подчеркивал:Хотя они обладают высокими способностями, они также чрезвычайно эффективны.

Меньшее количество выходных токенов означает, что модель может быть более лаконичной и иметь меньше обходных путей при выполнении аналогичных задач, а также может означать, что фактическая стоимость вызова становится более контролируемой.

OpenAI также упомянул еще один тест кибербезопасности: ExploitGym.

Этот тест был создан исследователями Калифорнийского университета в Беркли в сотрудничестве с OpenAI и другими передовыми лабораториями. В OpenAI заявили, что в ExploitGym модели GPT-5.6 Sol, Terra и Luna демонстрируют значительное улучшение возможностей сетевой безопасности, и по мере увеличения интенсивности вывода производительность будет расти.

Это означает, что улучшение GPT-5.6 касается не только более прочного корпуса модели, но и метода рассуждений. Дайте модели больше времени на размышление и позвольте ей выполнить более длинную цепочку рассуждений, и результаты будут лучше.

Об ограниченном предварительном просмотре

Если Сол, Терра и Луна — это поверхностные изменения GPT-5.6, то большего внимания заслуживает то, что OpenAI на этот раз не был полностью открыт.

Согласно официальному объявлению, в настоящее время GPT-5.6 будет доступен только для ограниченной предварительной версии в Кодексе и API небольшой группе «надежных партнеров».

Более того, этот ограниченный предварительный просмотр был проведен «по запросу правительства США», а список партнеров, участвующих в предварительном просмотре, был передан правительству США.

В последнее время правительство США значительно расширило свое участие в передовых моделях искусственного интеллекта, особенно в тех, которые имеют более надежный код, сетевую безопасность и возможности агентов.

В июне этого года правительство США издало новый указ, касающийся кибербезопасности ИИ, в котором предлагается создать добровольную структуру, позволяющую разработчикам передовых моделей связываться и оценивать модель до ее более широкого распространения.

Интерпретация этого административного постановления юридическим сообществом заключается в том, что по названию это не принудительная лицензия и не формальная система одобрения, но он создал институциональную основу для участия правительства в предварительной оценке модели.

Модель выпуска GPT-5.6 Sol, заключающаяся в «первом предварительном просмотре в небольшом масштабе и передаче списка правительству», можно рассматривать как первый явный след государственного вмешательства в процесс выпуска передовой модели.

Сама OpenAI также объяснила в своем заявлении, что причиной использования такого подхода является изучение повторяемого процесса с правительством для поддержки будущих выпусков моделей.

Основная причина вмешательства правительства — сетевая безопасность.

В официальном объявлении сетевая безопасность занимает много места: OpenAI подчеркивает, что GPT-5.6 Sol является ее самой сильной моделью сетевой безопасности на данный момент и может оказать более эффективную помощь в долгосрочных задачах, таких как исследование уязвимостей, анализ уязвимостей и защита безопасности; с другой стороны, он тратит много места, объясняя, что он не переступил свой собственный порог киберкритичности.

В рамках подготовки OpenAI возможности высокого риска разделены на разные уровни. Достижение высокого уровня означает, что модель может усилить существующие серьезные риски; достижение критического уровня означает, что модель может привести к новым и беспрецедентно серьезным рискам.

OpenAI неоднократно подчеркивала, что GPT-5.6 Sol не достигает Cyber Critical. Фактически, он говорит правительству, клиентам и общественности: эта модель очень сильна, особенно в задачах сетевой безопасности, но она недостаточно сильна, чтобы самостоятельно завершить наиболее опасные цепочки сетевых атак.

Возможности сетевой безопасности подобны палке о двух концах. Чем они сильнее, тем больше они могут помочь защитникам найти уязвимости, написать исправления и провести тесты безопасности; но именно потому, что они настолько сильны, правительство также будет беспокоиться о злоупотреблениях ими.

Хотя OpenAI признала, что этот выпуск требует изучения процесса с правительством, в официальном заявлении также ясно указано, что они не верят, что этот процесс доступа правительства должен стать долгосрочным механизмом по умолчанию.

Обоснование: если самые мощные инструменты задерживаются, пользователи, разработчики, предприятия, защитники сетей и партнеры по всему миру будут с задержкой получать лучшие инструменты.

В каком-то смысле передовые модели вступают в новую фазу выпуска.

Когда возможности больших моделей сосредоточатся в таких областях, как код, биология, сетевая безопасность и выполнение агентов, они начнут рассматриваться как технология, которая потенциально может повлиять на реальную безопасность.

Если рассматривать технологию таким образом, то права на публикацию вряд ли останутся полностью в руках самой компании.