Исследователи, работающие на Apple, и исследователи из Колумбийского университета в октябре незаметно запустили мультимодальный LLM с открытым исходным кодом, исследовательскую версию под названием «Ferret», которую можно запрашивать, используя области изображения. Ferret был выпущен на Github в октябре практически незамеченным, без каких-либо публичных релизов или рекламных акций. Код Ferret был выпущен вместе с Ferret-Bench 30 октября, а версия для контрольных точек была запущена 14 декабря.

По данным VentureBeat, хотя поначалу он не получил особого внимания, субботний релиз стал большим событием для исследователей искусственного интеллекта. Барт ДеВитт, управляющий некоммерческой организацией в области медицины, основанной на искусственном интеллекте, опубликовал на X информацию о «пропущенной» версии, назвав ее «доказательством приверженности Apple эффективным исследованиям в области искусственного интеллекта».

Релиз с открытым исходным кодом Ferret находится под некоммерческой лицензией, поэтому его нельзя коммерциализировать в его текущем состоянии. Однако всегда есть шанс, что его можно каким-то образом использовать в будущем продукте или услуге Apple.

Ученый-исследователь Apple AI/ML Ган Чжэ объяснил цель Ferret в октябрьском твите как систему, которая может «ссылаться и позиционировать что угодно, где угодно, с любой степенью детализации» на изображении. Это также можно сделать, используя любую фигурную область на изображении.

Проще говоря, модель анализирует область, нарисованную на изображении, определяет внутри нее элементы, полезные для запроса пользователя, и идентифицирует их, рисуя ограничивающую рамку вокруг обнаруженных элементов. Затем он может использовать идентифицированные элементы как часть запроса и отвечать обычным образом.

Например, выделив животное на изображении и спросив LLM, какое это животное, LLM может определить вид животного и определить, имеет ли пользователь в виду животное в группе. Затем он может предоставить дальнейшие ответы, используя контекст других элементов, обнаруженных на изображении.

Это объявление важно для исследователей, поскольку оно сигнализирует о том, что Apple хочет быть более открытой в своей работе в области искусственного интеллекта, а не занимать загадочную позицию, которую она занимала в прошлом.

Инфраструктура также является проблемой для Apple, потому что, хотя она работает над увеличением количества имеющихся у нее серверов искусственного интеллекта, она, возможно, еще не имеет достаточного масштаба, чтобы конкурировать с такими компаниями, как ChatGPT. Хотя Apple могла бы сотрудничать с другими компаниями для расширения своих возможностей, другой путь — сделать то, что она только что сделала, и выпустить модель с открытым исходным кодом.

Интересное наблюдение можно найти в информации, размещенной на Github. Репортер Apple из Reddit обнаружил, что Феррет «обучался на 8 графических процессорах A100 и 80 ГБ памяти». Учитывая историю поддержки Apple графических процессоров NVIDIA, это считается редкой поддержкой для производителя графических процессоров.