Хуачжунский университет науки и технологий официально опубликовал заявление, в котором говорится, что команда Школы программного обеспечения школы выпустила мультимодальную большую модель «Обезьяна».Эта модель хороша в описании изображений и визуальных вопросах и ответах, а также может осуществлять «наблюдение» за миром, проводить углубленное общение с вопросами и ответами и точно описывать изображения.
Согласно официальному представлению, в экспериментах с 18 наборами данных модель Университетской обезьяны Хуаке показала хорошие результаты, особенноС точки зрения описания изображения и визуальных задач вопросов и ответов он превзошел многие существующие известные модели, такие как LLAVA от Microsoft, PALM-E от Google, Mplug-owl от Alibaba и т. д.
также,Monkey показывает значительные преимущества в текстовых задачах вопросов и ответов, даже превосходя на некоторых образцах признанного лидера отрасли GPT-4V.
Отличительной особенностью Обезьяны является ее превосходная способность «разговаривать, рассматривая картинки». В задаче подробного описания Monkey продемонстрировала свою способность воспринимать детали изображения и смогла обнаружить контент, который игнорировали другие крупные мультимодальные модели.
Еще одной особенностью является возможность обработки изображений с разрешением до 1344x896 пикселей, что в 6 раз превышает максимальный размер, который в настоящее время могут обрабатывать другие мультимодальные большие модели.
Сообщается, что максимальное разрешение изображений, обрабатываемых в настоящее время в отрасли, составляет 448×448 пикселей.
Стоит отметить, что команда разместила код Monkey с открытым исходным кодом на GitHub, крупнейшей в мире платформе службы хостинга кода.