18 июня, когда вы откроете веб-страницу DeepSeek и приложение, почти все пользователи обнаружат, что справа от предыдущего быстрого режима и экспертного режима есть режим распознавания изображений. Это означает, что многие пользователи, которые не тестировались в оттенках серого, наконец-то могут использовать DeepSeek для обработки изображений.


В настоящее время DeepSeek официально не опубликовал публичное представление, а в интерфейсе модели по-прежнему отображается «функция понимания изображения, проходящая внутреннее тестирование». Есть предположение, что на этот раз это полноценный тестовый запуск. Однако Чэнь Сяокан, глава мультимодальной команды DeepSeek, упомянул сегодня в социальных сетях, что визуальный режим был официально запущен на веб-страницах и в приложениях, «попробуйте эти новые глаза».


Стоит отметить, что всего 5 дней назад Чэнь Сяокан проследил за горячей точкой и отправил «зеленую утиную ногу» тети Гусиной лапки в DeepSeek для идентификации. Судя по ответу, DeepSeek смог определить, что это не гусиная ножка, а также предположил, что зеленый цвет может представлять угрозу безопасности пищевых продуктов. «Если бы тогда существовал DeepSeek, в этом году не было бы «Утиной войны». Он пошутил.


В этой области комментариев некоторые пользователи спрашивали, почему визуальная функция еще не доступна. Тогда Чэнь Сяокан ответил: «Только небольшое количество пользователей могут использовать оттенки серого (тест)». В конце апреля этого года режим распознавания изображений DeepSeek запустил тест в оттенках серого, а в мае он был открыт для широкого круга пользователей. Однако многие пользователи так и не использовали его до тех пор, пока не показалось, что он открыт для тестирования всем пользователям.

Насколько эффективен DeepSeek в распознавании изображений? Репортер China Business News начал и испытал это на себе, и в разных ситуациях эффект был разным.

Я отправил DeepSeek архитектурный чертеж Бунда в Шанхае и спросил, где он находится. DeepSeek дал нормальный ответ за 16 секунд. Он проанализировал четыре основных здания, а также ответил, что белый арочный мост - это «скорее всего, мост через дорогу через Жапу», что является классическим ракурсом фотографии.


Однако DeepSeek, возможно, не сможет сегодня узнать популярного голкипера Кабо-Верде Возинью. DeepSeek потратил больше минуты на глубокие размышления. В процессе обдумывания несколько раз упоминался Кабо-Верде, но он не мог соответствовать конкретному игроку. В итоге он дал совершенно неверный ответ.


Возможно, это связано с тем, что Возня раньше не был широко известен и не был включен в данные обучения большой модели. В то же время режим распознавания изображений DeepSeek не имеет функции онлайн-поиска, поэтому он не может идентифицировать текущие «горячие фигуры».

Репортер заметил, что на социальных платформах появились отзывы пользователей, которые уже давно прошли тесты в оттенках серого. Способность распознавания изображений DeepSeek превысила средний уровень отечественных моделей, но по сравнению с лучшими зарубежными моделями все еще существовал пробел в сложном понимании изображений и детальном рассуждении.

В частности, в таких сценариях, как ежедневные снимки экрана, сообщения об ошибках, таблицы, документы и содержимое веб-страниц, распознавание изображений DeepSeek в основном достаточно и очень быстро. Но если это более сложная картина, например, многоуровневая логическая блок-схема или сложная диаграмма данных, точность начнет снижаться. Однако вышеупомянутые пользователи считают, что, учитывая цену и открытость, DeepSeek все же стоит использовать.

Буквально 30 апреля DeepSeek опубликовал отчет о мультимодальной технологии «Мышление с помощью примитивов Visaul», в котором объясняются детали мультимодальной технологии. Но вскоре все обнаружили, что чиновник за ночь удалил мультимодальный склад и исходный текст статьи, а интерфейс Github уже находился в статусе «404».

В то время было много спекуляций из внешнего мира. Некоторые считали, что DeepSeek еще не готов, другие считали, что в документе раскрыто слишком много информации. В статье DeepSeek полагает, что нынешняя мультимодальная модель терпит неудачу при решении сложных задач не из-за невидимости (разрыва восприятия), а из-за «неточного указания» (разрыва в цитировании). Будущее мультимодального интеллекта заключается не только в том, чтобы «видеть больше пикселей», но и в построении точного и однозначного эталонного моста между языком и зрением.

На данный момент DeepSeek публично не объявила о запуске режима распознавания изображений. Технические подробности этого режима и другие новости еще ждут официального представления.