Большая модель Google «вставать рано, чтобы успеть на вечерний рынок». Неужели на этот раз все действительно «далеко вперед»?

Google, которая первой запустила архитектуру Transformer, когда-то отставала в конкуренции крупных моделей. К счастью, поскольку Gemini продолжает развиваться, Google возвращается в первый эшелон. 26 марта был запущен Gemini2.5Pro. Эта модель возглавила основные списки сразу после запуска и на целых 39 пунктов превысила второе место на ChatbotArena!

Gemini2.5Pro — это модель вывода. По мнению Google, способности рассуждения относятся не только к классификации и прогнозированию, но и к способности системы анализировать информацию, делать логические выводы, учитывать контекст и нюансы и принимать обоснованные решения.

Сообщается, что Gemini2.5Pro в настоящее время поддерживает контекстное окно из 1 миллиона токенов и вскоре запустит контекстное окно из 2 миллионов токенов, наследуя и развивая преимущества модели Gemini - собственные мультимодальные возможности и сверхдлинную длину контекста.

Это позволяет ему понимать огромные наборы данных и решать сложные проблемы из нескольких источников информации, включая текст, аудио, изображения, видео и даже полные репозитории кода.

На ChatbotArena (разработанном исследователями из SkyLab и LMSYS в Калифорнийском университете в Беркли и в основном используемом для оценки производительности больших языковых моделей на основе предпочтений человека) Gemini2.5Pro занял первое место со значительным преимуществом во всех категориях и был на целых 39 пунктов выше, чем Grok-3, за которым внимательно следил.

В то же время Gemini2.5Pro также выиграл единственный чемпионат в трех основных областях творческого письма, выполнения инструкций и длинных запросов.

Кроме того, Gemini2.5Pro успешно возглавил рейтинг Vision Arena.

В области веб-разработки, будучи первой моделью, сравнимой по силе с Claude3.7Sonnet, Gemini2.5Pro успешно заняла второе место на арене веб-разработки (WebDevArena).

Мало того, Gemini2.5Pro также хорошо работает в тестах по математике и естественным наукам, таких как Humanity's LastExam (notools), GPQA и AIME2025.

«Последний экзамен человечества» (notools) означает «последний экзамен человечества (без инструментов)». «Нет инструментов» здесь означает, что во время экзамена нельзя использовать никакие внешние инструменты, такие как поисковые системы, базы данных и т. д. Прошлые эксперименты показали, что точность современных LLM по HLE обычно составляет менее 10%, и существуют такие проблемы, как дисбаланс уверенности и способностей, низкая эффективность рассуждений и т. Д., Что указывает на разрыв между возможностями текущих LLM и передовыми возможностями людей-экспертов по закрытым академическим проблемам. В этом контексте показатель Gemini2.5Pro в 18,8% является очень выдающимся.

Сообщается, что Gemini2.5Pro открыт для пользователей GeminiAdvanced в приложениях Google AI Studio и Gemini и будет запущен на VertexAI.

В ближайшие несколько недель компания объявит о ценовых планах, и пользователи смогут применять эту модель в крупномасштабных производственных средах с более высокими квотами на использование.