NVIDIAсегодняВыпущен OpenReasoning-Nemotron, набор из четырех упрощенных моделей вывода с 1,5 миллиардами, 7 миллиардов, 14 миллиардов и 32 миллиардами параметров, все они получены из DeepSeek R1 0528 с 67,1 миллиардами параметров. Сжимая массивную модель «учителя» в четыре модели «ученика» на базе Qwen-2.5, NVIDIA позволяет проводить расширенные эксперименты по выводу даже на стандартных игровых устройствах, не беспокоясь о высоких расходах на графический процессор и использовании облака.

Ключевым моментом являются не сложные методы, а необработанные данные. NVIDIA использовала конвейер NeMo Skills для создания 5 миллионов математических, научных и кодовых решений, а затем оптимизировала каждое решение посредством чистого контролируемого обучения. В настоящее время модель с 32 миллиардами параметров набрала 89,2 балла на AIME24 и 73,8 балла в февральском конкурсе HMMT, в то время как даже версия с 1,5 миллиардами параметров получила солидные оценки в 55,5 и 31,5 балла.

NVIDIA рассматривает эти модели как мощные исследовательские инструменты. Все четыре контрольные точки доступны для загрузки на Hugging Face, обеспечивая прочную основу для изучения выводов на основе обучения с подкреплением или настройки моделей для конкретных задач. Используя режим GenSelect (несколько итераций на вопрос), можно генерировать несколько параллельных построений и выбирать лучший ответ, что приводит к исключительной производительности модели 32B, которая конкурирует или даже превосходит высокую производительность OpenAI o3 в нескольких математических тестах и ​​тестах кодирования.

Поскольку NVIDIA обучала эти модели, используя только контролируемую точную настройку, а не обучение с подкреплением, у сообщества есть четкая и продвинутая отправная точка для будущих экспериментов по обучению с подкреплением. Для геймеров и домашних энтузиастов: если у вас более мощный игровой графический процессор, мы получаем полностью локализованную модель, которая может очень близко подойти к современной.