Недавно компания Google объявила о расширении функции поиска файлов в Google Gemini API, предоставляя разработчикам более полные возможности мультимодального поиска с расширенной генерацией (RAG). Ядро этого обновления включает в себя: поддержку смешанного поиска изображений и текста, поддержку настраиваемой фильтрации метаданных, новую поддержку ссылок на уровне страниц, а также улучшенную доступность и точность систем искусственного интеллекта в таких сценариях, как корпоративные базы знаний, документы с вопросами и ответами и агенты.

Согласно официальному блогу Google, новая версия функции поиска файлов больше не ограничивается традиционным поиском по векторным текстам, а основана на унифицированной возможности мультимодального встраивания, созданной на базе Gemini Embedding 2, которая может одновременно распознавать визуальный контент и текстовый контент в изображениях, PDF-файлах и документах. Разработчикам не нужно создавать сложные векторные базы данных, конвейеры внедрения или системы сегментации документов, и они могут завершить весь рабочий процесс RAG непосредственно в API Gemini.

В традиционных системах RAG визуальный контент, такой как изображения, диаграммы, снимки экрана и чертежи, часто сложно эффективно индексировать, что приводит к отсутствию контекстуального понимания в ответах ИИ. Новая возможность мультимодального поиска файлов Gemini API позволяет идентифицировать содержимое изображений и создавать индекс поиска вместе с текстом. Например, компании могут загружать PDF-файлы, содержащие изображения продуктов, диаграммы данных или диаграммы технической архитектуры, а ИИ может одновременно понимать визуальную информацию и текстовые описания при ответе.

Google утверждает, что эта возможность особенно подходит для создания помощников по работе с знаниями корпоративного уровня, роботов для обслуживания клиентов, систем анализа документов и агентов искусственного интеллекта. Разработчики могут заставить модели выполнять выводы на основе внутренних документов без необходимости дополнительного обслуживания независимых систем поиска изображений. Для компаний с большим объемом смешанных графических и текстовых данных это означает меньшую сложность развертывания и более высокую точность поиска.

Еще одна новая функция — настраиваемая фильтрация метаданных. Разработчики могут добавлять к загруженным файлам метаданные, такие как теги, категории, время и отделы, чтобы их можно было фильтровать по метаданным во время последующего извлечения для повышения точности и эффективности. Это также больше подходит для крупномасштабного управления базами знаний и уменьшает попадание ненужного контента в контекстное окно.

Еще одна важная особенность — цитирование на уровне страницы. Генерируя ответы, Gemini AI может четко указать, с какой страницы документа взята информация, а не просто смутно ссылаться на весь файл. Это позволяет пользователям щелкнуть мышью, чтобы просмотреть конкретную страницу документа после получения ответа, чтобы оценить точность содержания, и прочитать весь документ, чтобы получить дополнительную информацию.

В настоящее время новая версия функции поиска файлов Google Gemini API открыта для всех разработчиков. Заинтересованные разработчики могут открыть Gemini API через такие платформы, как Google AI Studio и Google Cloud, чтобы испытать его.

Руководство разработчика: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878.