Gemini2.5Pro — это модель вывода. По мнению Google, способности рассуждения относятся не только к классификации и прогнозированию, но и к способности системы анализировать информацию, делать логические выводы, учитывать контекст и нюансы и принимать обоснованные решения.
Сообщается, что Gemini2.5Pro в настоящее время поддерживает контекстное окно из 1 миллиона токенов и вскоре запустит контекстное окно из 2 миллионов токенов, наследуя и развивая преимущества модели Gemini - собственные мультимодальные возможности и сверхдлинную длину контекста.
Это позволяет ему понимать огромные наборы данных и решать сложные проблемы из нескольких источников информации, включая текст, аудио, изображения, видео и даже полные репозитории кода.
На ChatbotArena (разработанном исследователями из SkyLab и LMSYS в Калифорнийском университете в Беркли и в основном используемом для оценки производительности больших языковых моделей на основе предпочтений человека) Gemini2.5Pro занял первое место со значительным преимуществом во всех категориях и был на целых 39 пунктов выше, чем Grok-3, за которым внимательно следил.
В то же время Gemini2.5Pro также выиграл единственный чемпионат в трех основных областях творческого письма, выполнения инструкций и длинных запросов.
Кроме того, Gemini2.5Pro успешно возглавил рейтинг Vision Arena.
В области веб-разработки, будучи первой моделью, сравнимой по силе с Claude3.7Sonnet, Gemini2.5Pro успешно заняла второе место на арене веб-разработки (WebDevArena).
Мало того, Gemini2.5Pro также хорошо работает в тестах по математике и естественным наукам, таких как Humanity's LastExam (notools), GPQA и AIME2025.
«Последний экзамен человечества» (notools) означает «последний экзамен человечества (без инструментов)». «Нет инструментов» здесь означает, что во время экзамена нельзя использовать никакие внешние инструменты, такие как поисковые системы, базы данных и т. д. Прошлые эксперименты показали, что точность современных LLM по HLE обычно составляет менее 10%, и существуют такие проблемы, как дисбаланс уверенности и способностей, низкая эффективность рассуждений и т. Д., Что указывает на разрыв между возможностями текущих LLM и передовыми возможностями людей-экспертов по закрытым академическим проблемам. В этом контексте показатель Gemini2.5Pro в 18,8% является очень выдающимся.
Сообщается, что Gemini2.5Pro открыт для пользователей GeminiAdvanced в приложениях Google AI Studio и Gemini и будет запущен на VertexAI.
В ближайшие несколько недель компания объявит о ценовых планах, и пользователи смогут применять эту модель в крупномасштабных производственных средах с более высокими квотами на использование.