Google надеется догнать OpenAI, выпустив Gemini

Когда дело доходит до технологии, лежащей в основе нынешнего увлечения искусственным интеллектом, Google, принадлежащая Alphabet, на самом деле является изобретателем, но популярность ее продуктов значительно отстает. Google надеется изменить ситуацию с долгожданным выпуском Gemini, «самой крупной и мощной модели рабочего интеллекта», созданной компанией на сегодняшний день.

После огромного успеха OpenAI в прошлом году с ее диалоговым чат-ботом ChatGPT, все больше компаний экспериментируют с генеративным ИИ — технологией, которая может автоматизировать такие задачи, как кодирование, обобщение отчетов или создание маркетинговых кампаний на основе запросов пользователей. На презентации перед запуском продукта 6 декабря компания Google подчеркнула, что Gemini — самая гибкая модель, которую она когда-либо создавала, поскольку она представлена в версиях разных размеров, в том числе в версии, которую можно реализовать непосредственно на смартфоне. Это отличает его от других конкурентов.

Эта модель искусственного интеллекта представляет собой систему, используемую для поддержки различных приложений генеративного искусственного интеллекта. Он поставляется в трех разных версиях: GeminiUltra, GeminiPro и GeminiNano. Эли Коллинз, вице-президент по продуктам подразделения DeepMind Google, сказал, что такое разнообразие означает, что Gemini «может работать на чем угодно, от мобильных устройств до крупных центров обработки данных».

«Мы давно хотели создать новое поколение моделей искусственного интеллекта, вдохновленных тем, как люди понимают мир и взаимодействуют с ним, — модель, которая больше похожа на полезного сотрудника, чем на интеллектуальное программное обеспечение», — сказал Коллинз в телефонном интервью. «Близнецы приближают нас на один шаг к этому видению».

В преддверии выпуска модели компания протестировала Gemini в ряде стандартных отраслевых тестов и заявила, что Gemini Pro превзошла OpenAI GPT-3.5 в шести из восьми тестов. В Google заявили, что Gemini превзошла GPT-4, последнюю версию модели общего назначения OpenAI, в семи из восьми тестов на общее понимание языка, рассуждение, математику и программирование. Между тем, по оценкам Google, ее последний продукт генеративного искусственного интеллекта AlphaCode2, который интерпретирует и генерирует программный код, превосходит 85% своих конкурентов в конкурентном программировании. Компания выпустит технический отчет, более подробно объясняющий архитектуру модели Gemini, процесс обучения и оценку.

Начиная с 6 декабря разработчики Android, желающие писать приложения на базе Gemini для смартфонов и планшетов, смогут зарегистрироваться, чтобы использовать «нано» версию этой модели искусственного интеллекта, которая может работать непосредственно на таких устройствах. Google также заявил, что немедленно включит Gemini на своем флагманском телефоне Pixel 8 Pro, который будет поддерживать новые функции генеративного искусственного интеллекта, такие как обобщение ключевых моментов из записей телефона. На следующей неделе Google сделает GeminiPro доступным для облачных клиентов через свои платформы VertexAI и AIStudio.

Gemini Ultra, крупнейшая версия модели искусственного интеллекта Google, первоначально будет доступна в программе раннего доступа для разработчиков и корпоративных компаний, подробности о программе будут объявлены на следующей неделе. Эта версия будет широко представлена публике в начале следующего года.

Gemini также интегрируется с большим количеством приложений и сервисов Google через Bard, разговорного чат-бота компании и конкурента ChatGPT. Ранее Бард использовал модель PaLM2 от Google, крупномасштабную языковую модель, о которой компания объявила на своей ежегодной конференции разработчиков в мае.

В течение прошлого года Google находился под давлением как необходимости заново изобрести свой основной поисковый бизнес, так и борьбы с ростом программ генеративного искусственного интеллекта. Хотя компания уже давно считается пионером в области исследований в области искусственного интеллекта, некоторые критикуют ее руководство за медленное продвижение на рынок продуктов искусственного интеллекта, особенно после успеха таких продуктов, как ChatGPT и генератор изображений Dall-E. С тех пор как OpenAI выпустила GPT-4 в марте, Google работает над подтверждением своего лидерства в этой области, включая внедрение новой технологии в свой зрелый поисковый бизнес.

Gemini — это ответ компании на давление рынка. Google утверждает, что модель ИИ «по своей природе мультимодальна», то есть она с самого начала предварительно обучена обрабатывать текстовые и графические подсказки, предоставляемые пользователями. Например, в видео-демонстрации Google показала, что родители могут помочь своим детям выполнить домашнее задание, загрузив изображение определенной математической задачи и фотографии шагов ее решения на бумаге.

В демонстрационном видео Эпплбаум, инженер-программист Google, сказал: «Gemini может не только решать эти вопросы, но также читать ответы и понимать, какие из них верны, а какие нет, и объяснять концепции, которые требуют дальнейшего разъяснения». Компания также заявила, что ее «поисковый генеративный опыт» — экспериментальная версия поисковой системы, созданная Google с использованием технологии генеративного искусственного интеллекта — будет интегрирован в новые функции Gemini в следующем году.

Тем не менее, представители компании предупредили, что Близнецы по-прежнему склонны к «галлюцинациям» или ложной или сфабрикованной информации, создаваемой генеративным ИИ. Коллинз называет это явление «нерешенным исследовательским вопросом». Демо-ролик, который компания показала журналистам, был записан заранее.

Коллинз сказал, что у Gemini «самая полная оценка безопасности среди всех моделей искусственного интеллекта в Google». По его словам, чтобы оценить безопасность Gemini, Google провел состязательное тестирование модели искусственного интеллекта, которая имитирует злоумышленника, пытающегося использовать программу, и выдает подсказки, сказал он. Тест включал в себя «Реальные подсказки о токсичности», тест, разработанный Институтом искусственного интеллекта Аллена, который содержит более 100 000 подсказок, взятых из Интернета, чтобы помочь исследователям ИИ исследовать большие языковые модели на предмет разжигания ненависти и политической предвзятости.

Google также подчеркнул, что инструмент будет быстрым. Gemini использует новую базовую архитектуру суперкомпьютера и новые процессоры, что позволяет ему работать быстрее, чем предыдущие модели меньшего размера, заявили в компании. Google использует новую версию своего облачного чипа Cloud Tensor Processing Units (сокращенно TPU), чипа собственной разработки, который может обучать существующие модели в 2,8 раза быстрее, чем его предшественник. Амин Вахдат, вице-президент Google по машинному обучению, сказал, что этот подход дает Google «новый взгляд на будущую стандартную инфраструктуру искусственного интеллекта». Он добавил, что компания по-прежнему будет использовать сторонние чипы искусственного интеллекта для реализации своей модели Gemini.

Gemini будет интегрирован в Bard, чат-бот Google с генеративным искусственным интеллектом, запущенный в марте, что предоставит ему доступ к самым популярным сервисам компании, включая Gmail, Maps, Docs и YouTube. Внедрение будет проходить в два отдельных этапа: начиная с 6 декабря Bard будет работать на платформе GeminiPro, которая обеспечит возможность рассуждения, планирования, понимания и других возможностей высокого уровня. Его можно будет выполнить на английском языке в 170 странах и регионах, но, в частности, не в Европе или Великобритании, где, по словам компании, она консультируется с местными регулирующими органами.

В начале следующего года компания планирует выпустить BardAdvanced, который будет оснащен более мощной моделью Gemini Ultra. Google заявляет, что скоро запустит надежную бета-программу для улучшения BardAdvanced перед ее более широким распространением. Сисси Сяо, вице-президент Google по продуктам Bard, сказала: «С благословения Gemini Bard проходит самое большое и лучшее на сегодняшний день обновление, которое откроет людям новые способы творчества, взаимодействия и сотрудничества».