D Бог снова в эфире? Настоящий или фейковый? Дипсик так долго сдерживал это, а недавно наконец начал выпускать наружу. На прошлой неделе они незаметно запустили V4, после чего последовало два крупных снижения цен. . Лян Шен, ты снова пришел спасти все живые существа? В итоге сегодня вдруг пришло и натолкнуло на меня волну серых тестов: DeepSeek, обладающий мультимодальными возможностями. Если быть точнее, то это распознавание изображений.

После проверки карты это правда.


Те, кто хочет попробовать что-то новое, могут сейчас открыть DeepSeek и посмотреть.

Если в интерфейсе есть «режим распознавания изображений», поздравляем, вы счастливчик, прошедший внутреннее тестирование, и вы можете напрямую купить настоящую мультимодальную версию V4 бесплатно.

Исследователь DeepSeek Чэнь Сяокан не мог не опубликовать сообщение. У нас, китов, наконец-то появились глаза, и мы больше не слепые монахи национального сервера!


Почему все так взволнованы? На самом деле, DeepSeek уже давно подвергается критике за отсутствие мультимодальности. Три иностранных гиганта ChatGPT, Gemini и Claude уже давно обладают мультимодальными возможностями. Отечественные модели, такие как Doubao и Qianwen, также показали себя очень хорошо.

Что касается этого отечественного фонаря, на который возлагают большие надежды, то он уже много лет не может распознать даже изображение. Он может полагаться только на OCR, то есть распознавать текст на картинке. Опыт использования действительно плохой.

Теперь этот недостаток наконец-то восполнен.

Без лишних слов перейдем непосредственно к тесту.

Прежде всего, он избавлен от традиционного оптического распознавания символов и действительно может видеть всю картину. В этом вы можете быть уверены.

Например, если мы дадим ему кусок текста с надписью «Это строка красного текста», написанный синим цветом, и если мы используем только традиционное распознавание текста, он сможет распознать только то, что это текст «Это строка красного текста», и никогда не распознает, что он синий. (Он может быть даже неузнаваемым)


После включения визуального режима он может точно определить, что это строка из синих и красных букв, и даже уловил мой юмор.


Мало того, он также обладает возможностями визуального мышления.

Вы все видели этот мем? Я считаю, что с моим интеллектом я точно смогу понять, что написано на картинке.


Поэтому я отправил его в DeepSeek и попросил помочь мне проанализировать забавные моменты.

Подумав об этом, он не только понял это, но и сделал локализованный перевод «Золотой Далии», «Серебряной Далии» и «Медной Далии». Это заставило меня рассмеяться.


Затем я отправил ему случайную фотографию, сделанную коллегой во время вождения. На самом деле оно было довольно размытым, и можно было проанализировать лишь некоторую информацию о внешнем виде и световых эффектах.


В результате он догадался, что это действительно Subaru, и ему потребовалось 13 секунд, чтобы подумать и прийти к выводу.


Учитывая, что Учитель D — специалист по математике, мы отправили ему еще один мем, связанный с математикой. Честно говоря, Шичао почти этого не понимал. Это был тесть его брата.


Объяснение учителя D по-прежнему идеально.

Он не только понимал простые операции, но и видел в нем несколько омофонов: взять действительную часть — значит удалить мнимую цифру «i», а значит — удалить «Глаз», а значит, удалить глаза. Перевернутый треугольник — это градиент, то есть «Град», что почти то же самое, что «Выпускник», поэтому я надел на свое личико шляпу бакалавра.

Те, кто забыл свои математические знания, могут просмотреть его слово в слово.


Кстати, я тоже опробовал в жизни несколько проблем, например, куда воткнуть этот штекер 3,5 мм.


Куда мне подключить этот квадратный USB-порт?


Хотя он очень прост, он может распознавать мои случайные снимки, когда я не в фокусе, и его можно считать подходящим для повседневных задач.

Но на самом деле, согласно фактическому тестированию Шичао, текущая версия Учителя D не является непобедимой.

Например, мы дали ему картинку, очень красивый ночной вид Земли.


DeepSeek также увидел это довольно ясно и сказал, что эта фотография сделана с Международной космической станции.


Но на самом деле, если вы перевернете фотографию и посмотрите на нее, вы обнаружите, что эта фотография представляет собой изображение города на закате. Это перевернутая перспектива...

Потом я бросил это Джемини, признанному мультимодальному эксперту... и он действительно это увидел. Нет, ты такой сильный, даже если потерял рассудок?


Все еще не в состоянии заставить короля мультимодальности стараться изо всех сил, Хаджи Кита.

Включает распознавание некоторых лиц, но иногда возникают проблемы. Например, я бросил ему фотографию мешка с фасолью, и он узнал, ну, Ло Сяна, лидера UP станции B.Существует также классическая проблема оптической иллюзии. Два шара явно не одинакового размера, верно? В результате Учитель Д задумался и сказал мне, что эти два мяча были одинакового размера.


Но я также взглянул на его мыслительный процесс. На самом деле, он уже видел, что шар справа был больше, но, поскольку он внимательно прочитал вопрос, он почувствовал, что это была данная ему иллюзия, поэтому решил обмануть себя и сказал, что они были одинакового размера. . Возможно, обучение с подкреплением слишком сильное.


Комплексная оценка может дать вам двойственность призрака и бога. Когда утрамбовываешь, утрамбовываешь, а когда тянешь, готово. .

Но опять же, у DeepSeek только выросли глаза, поэтому нам еще нужно дать ему время адаптироваться к этому миру.

Наконец, нынешняя битва гигантов искусственного интеллекта уже давно миновала стадию деревни новичков, где основное внимание уделялось только текущим результатам и возможностям вывода текста.

Уровень кодирования, мультимодальные возможности, плавность вызова инструментов и т. д. в принципе необходимы.

Но отсутствие предыдущего учителя Big D в мультимодальных возможностях всегда вызывало у меня жалость. Вроде бы все гудят и работают, но возможности Агента DeepSeeK сильно снижены из-за отсутствия рук и глаз.

В конце концов, большинство современных моделей и API являются мультимодальными или, по крайней мере, имеют возможности ввода изображений.


Мы также надеемся, что DeepSeek сможет как можно скорее обновить мультимодальные возможности распознавания изображений до API новой модели V4.

Знаете, до того, как мне завязали глаза, я уже сражался со многими противниками туда и обратно. . Теперь снимите повязку, производительность таких инструментов, как Claude Code, Lobster, Cowork и т. д., как ожидается, значительно улучшится.

Кроме того, судя по тому, как часто DeepSeek выдувает пузыри для увеличения присутствия в этот период, предполагается, что еще есть много комбинаций, ожидающих выполнения.

Хватит разговоров, давайте посмотрим выступление Учителя D.