Инструменты генеративного искусственного интеллекта способны выполнять задачи, которые когда-то казались чем-то из научной фантастики, но большинству из них все еще не хватает многих базовых навыков, включая чтение аналоговых часов и календарей. Новое исследование показывает, что в целом системы искусственного интеллекта правильно считывают циферблаты менее чем в четверти случаев.

Исследовательская группа из Эдинбургского университета протестировала некоторые из лучших мультимодальных крупномасштабных языковых моделей, чтобы увидеть, насколько хорошо они могут отвечать на вопросы, основанные на изображениях часов и календарей.

Протестированные системы включают Gemini2.0 от GoogleDeepMind, Claude3.5Sonnet от Anthropic, Llama3.2-11B-Vision-Instruct от Meta, Qwen2-VL7B-Instruct от Alibaba, MiniCPM-V-2.6 от ModelBest и GPT-4o и GPT-o1 от OpenAI.

На изображении представлены различные типы часов: с римскими цифрами, с секундной стрелкой, без секундной стрелки, циферблаты разных цветов и т. д.

Система правильно считывает часы менее чем в 25% случаев. Еще больше проблем они испытывают с часами, в которых используются римские цифры и стилизованные стрелки.

Производительность ИИ не улучшилась после удаления секундной стрелки, что привело исследователей к выводу, что проблема возникла из-за обнаружения стрелок часов и интерпретации углов на циферблате.

Используя изображения календаря за 10 лет, исследователи задали такие вопросы, как, например, в какой день недели наступает Новый год? Даже самые успешные модели искусственного интеллекта ошибаются в календаре в 20% случаев.

Показатели успеха варьируются в зависимости от используемой системы ИИ. Gemini-2.0 набрал наивысшие баллы по тесту часов, а GPT-01 показал точность на 80% по календарному вопросу.

«Большинство людей выросли, определяя время и используя календари», — сказал руководитель исследования Рохит Саксена из Школы информатики Эдинбургского университета. «Результаты подчеркивают огромные пробелы в способности ИИ реализовывать базовые человеческие навыки. Эти недостатки необходимо устранить, если системы ИИ будут успешно интегрированы в чувствительные ко времени реальные приложения, такие как планирование, автоматизация и вспомогательные технологии».

Арио Хема, другой исследователь из Школы информатики Эдинбургского университета, сказал: «Сегодняшние исследования искусственного интеллекта часто делают упор на сложные задачи рассуждения, но, по иронии судьбы, многие системы все еще с трудом справляются с более простыми повседневными задачами».

Результаты будут представлены в рецензируемой статье, которая будет представлена ​​на семинаре по рассуждению и планированию крупномасштабных языковых моделей на 13-й Международной конференции по обучающим представлениям (ICLR) в Сингапуре 28 апреля. Результаты исследования в настоящее время доступны на сервере препринтов arXiv.

Это не первое исследование в этом месяце, в котором предполагается, что системы ИИ по-прежнему совершают много ошибок. Центр цифровых новостей Dow провел исследование восьми поисковых систем с искусственным интеллектом и обнаружил, что они были неточными в 60% случаев. Худшим является Грок-3, точность которого составляет 94%.