Эта модель получила лицензию MIT, что означает, что ее можно свободно использовать в коммерческих целях, а ранние испытания в отрасли подтвердили, что модель может работать непосредственно на оборудовании потребительского уровня, таком как высокопроизводительная рыночная Apple MacStudio.
Исследователь искусственного интеллекта Ауни Ханнун рассказал, что новая модель DeepSeek-V3 может работать со скоростью 20 токенов в секунду на компьютере Apple, оснащенном чипом M3 Ultra. Это нарушает прежний консенсус в отрасли по поводу конфликта между возможностями моделей искусственного интеллекта и локализованной работой, а также означает, что центры обработки данных не являются обязательным дополнением для больших моделей.
Другой исследователь искусственного интеллекта, Xeophon, заявил на X, что после тестирования новой версии DeepSeek-V3 на внутреннем рабочем столе он обнаружил, что она совершила огромный скачок по всем протестированным индикаторам. На данный момент это лучшая неинференциальная модель, превосходящая Oracle Claude Sonnet 3.5.
Скромный, но сенсационный
DeepSeek-V3-0324 вышел без официального документа или какой-либо рекламы, только пустой файл ReadMe. Эта почти строгая форма запуска резко контрастирует с тщательно продуманной моделью продвижения продуктов Кремниевой долины.
В то же время все модели DeepSeek имеют открытый исходный код и могут быть бесплатно загружены и использованы всеми желающими, в отличие от одной из лучших коммерческих моделей ClaudeSonnet, за которую взимается ежемесячная плата в размере 20 долларов США.
Кроме того, DeepSeek фундаментально переосмысливает работу больших языковых моделей, активируя во время конкретной задачи лишь около 37 миллиардов параметров вместо всех, так называемых «экспертных» модулей, что значительно снижает вычислительные требования.
В модели также реализованы две другие революционные технологии: Multi-Latent Attention (MLA) и Multi-Tag Prediction (MTP). MLA расширяет возможности модели поддерживать контекст в длинных текстах, в то время как MTP генерирует несколько токенов на каждом этапе вместо обычного метода генерации одного токена за раз. В совокупности эти инновации увеличивают скорость вывода почти на 80%.
В определенной степени DeepSeek воплощает дух стремления китайских предприятий к эффективности и ресурсам, то есть к тому, как достичь равной или более оптимизированной производительности при ограниченных вычислительных ресурсах. Эта инновация, основанная на спросе, позволила китайскому искусственному интеллекту потрясти мир за несколько месяцев.
Изменения в новой модели DeepSeek также имеют большое значение для отрасли. С одной стороны, это значительно снижает энергопотребление и вычислительные затраты крупных моделей, еще больше пошатнув предположения Уолл-стрит о масштабах инвестиций в инфраструктуру топ-моделей. С другой стороны, широкий консенсус в отношении открытого исходного кода в китайской индустрии искусственного интеллекта быстро способствовал развитию отечественной индустрии искусственного интеллекта, постоянно сокращая расстояние между ней и главными мировыми противниками.
Другие полагают, что благодаря быстрому догоне DeepSeek модель R2, которую компания планирует выпустить в апреле, может напрямую бросить вызов давно разрекламированной модели OpenAI GPT-5. Если такая перспектива действительно осуществится, то разные идеи Китая и США по развитию искусственного интеллекта могут привести к прямой конфронтации.