За пределами GPT4! Большой убийца Google наконец-то здесь, выпущен самый большой Gemini

Времена изменились? Самая большая и мощная модель Google на сегодняшний день находится здесь. 6 декабря по местному времени генеральный директор Google Сундар Пичаи официально объявил об официальном запуске Gemini версии 1.0.

Большая модель Gemini, выпущенная на этот раз, представляет собой нативную мультимодальную большую модель.

Теперь приложение Google Bard, похожее на ChatGPT, было обновлено до версии GeminiPro, которая обеспечивает более продвинутые возможности рассуждения, планирования, понимания и другие возможности, продолжая при этом оставаться бесплатным. Google планирует запустить BardAdvanced в начале следующего года, который будет использовать GeminiUltra.

Это самое большое обновление с момента выхода Барда.

С момента выпуска ChatGPT нас очень интересовали возможности конкурирующей модели Gemini, о которой заявляет Google. Слухи об этой большой модели появились еще в марте этого года, и на майской конференции I/O она получила статус «скоро».

Поскольку люди, знакомые с этим вопросом, продолжают раскрывать новую информацию, мы можем узнать: говорят, что у Gemini триллионы параметров, а вычислительная мощность, используемая для обучения, в пять раз превышает мощность GPT-4. Однако официальный релиз Gemini, похоже, неоднократно откладывался по разным причинам.

Чтобы конкурировать с OpenAI и Microsoft, Google решительно перешла с PaLM2 на Gemini и даже напрямую объединила Google Brain и DeepMind в апреле этого года. Gemini использовала недавно созданную Google DeepMind, чтобы объединить сильные стороны двух лабораторий для решения ключевых проблем.

Это демонстрирует менталитет Google по принципу «все или ничего» в крупномасштабной гонке модельных вооружений.

Итак, смогут ли Близнецы нас действительно удивить? Помимо достижения лучших результатов в различных тестах и даже превосходства людей, интересно то, что на пресс-конференции, когда журналист столкнулся с вопросом о том, «Какие новые возможности есть у Gemini по сравнению с предыдущими крупными моделями?» Эли Коллинз, вице-президент по продуктам Google DeepMind, ответил: «Я подозреваю, что да», указав, что Google все еще усердно работает над пониманием всех возможностей Gemini Ultra.

Ниже приводится заявление генерального директора Google Пичаи:

Каждое технологическое изменение — это возможность продвинуть научные открытия, ускорить прогресс человечества и улучшить жизнь. Я считаю, что сдвиг в области искусственного интеллекта, который мы наблюдаем сейчас, будет самым глубоким сдвигом в нашей жизни, гораздо более значительным, чем предыдущие сдвиги в области мобильных устройств или Интернета. Искусственный интеллект потенциально может создать возможности для людей по всему миру, от повседневных до необычайных. Оно положит начало новой волне инноваций и экономического прогресса и будет способствовать развитию знаний, обучения, творчества и производительности в беспрецедентных масштабах.

Меня это волнует: возможность сделать искусственный интеллект полезным для всех и везде.

Мы уже почти восемь лет находимся на пути компании, ориентированной на искусственный интеллект, и темпы прогресса только ускоряются: миллионы людей сейчас используют генеративный искусственный интеллект в наших продуктах, чтобы делать то, что они не могли сделать год назад: от поиска ответов на более сложные проблемы до использования новых инструментов для совместной работы и творчества. В то же время разработчики используют наши модели и инфраструктуру для создания новых генеративных приложений ИИ, а стартапы и предприятия по всему миру растут, используя наши инструменты ИИ.

Это невероятный импульс, но мы только начали прикасаться к тому, что возможно.

Мы выполняем эту работу смело и ответственно. Это означает, что мы должны быть амбициозными в наших исследованиях, стремиться к возможностям, которые могут принести огромную пользу людям и обществу, одновременно создавая меры безопасности и работая с правительствами и экспертами для устранения рисков, связанных с тем, что ИИ становится более мощным. Мы продолжим инвестировать в лучшие инструменты, базовые модели и инфраструктуру и внедрять их в наши продукты и за их пределы, руководствуясь нашими принципами искусственного интеллекта.

Официально выпущена большая модель Google Gemini

Генеральный директор и соучредитель Google DeepMind Демис Хассабис официально запустил большую модель Gemini от имени команды Gemini.

Хассабис сказал, что Google уже давно хочет создать новое поколение крупных моделей искусственного интеллекта. По его мнению, ИИ приносит людям уже не просто интеллектуальное программное обеспечение, а более полезных и интуитивно понятных помощников-экспертов или ассистентов.

Сегодня наконец-то дебютировала большая модель Gemini от Google, став самой мощной и универсальной моделью, которую компания когда-либо создавала. Gemini — это результат масштабного сотрудничества между командами Google, включая исследователей из Google Research.

Особо следует отметить, что Gemini — это мультимодальная большая модель, то есть она может обобщать и легко понимать, манипулировать и комбинировать различные типы информации, включая текст, код, аудио, изображения и видео.

В Google заявили, что Gemini также является их самой гибкой моделью на сегодняшний день и может эффективно работать на различных типах платформ, таких как центры обработки данных и мобильные устройства. Возможности SOTA, предоставляемые Gemini, значительно улучшат возможности разработчиков и корпоративных клиентов по созданию и масштабированию ИИ.

В настоящее время Gemini1.0 предоставляет три версии разных размеров:

GeminiUltra: самый крупный и мощный, используемый для решения очень сложных задач;

GeminiPro: лучшая модель, масштабируемая для решения самых разных задач;

GeminiNano: самая эффективная модель для задач на устройстве.

Google тщательно тестирует модели Gemini и оценивает их производительность в различных задачах. GeminiUltra использовалась в 32 академических наборах тестов, широко используемых при разработке крупномасштабных языковых моделей, от естественного понимания изображений, аудио и видео до математических рассуждений и других задач, и производительность 30 из них превышает текущие результаты SOTA.

Кроме того, GeminiUltra набрала 90,0% в MMLU (крупномасштабном наборе данных для многозадачного понимания языка), впервые превзойдя экспертов-людей. Набор данных MMLU содержит 57 предметов, включая математику, физику, историю, право, медицину и этику, и используется для проверки резерва знаний и способности крупных моделей решать проблемы.

Новые методы тестового набора MMLU позволяют Gemini использовать свои способности к рассуждению, чтобы более тщательно подумать, прежде чем отвечать на сложные вопросы, что приводит к значительному повышению производительности по сравнению с ответом, основанным только на первых впечатлениях от вопроса.

Gemini превосходит GPT-4 в большинстве тестов.

Для получения более подробной информации просмотрите подробный отчет об испытаниях: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf.

В последней версии тестового набора MMMU GeminiUltra также добилась лучшего результата — 59,4%. Расширенный набор тестов состоит из мультимодальных задач, требующих обдуманного рассуждения.

В тесте производительности изображений GeminiUltra не нужно было извлекать текст из изображения для выполнения обработки OCR, что подчеркивало встроенные мощные мультимодальные возможности Gemin, а также изначально демонстрировало предвестник более сложных логических способностей Gemini.

Обновление всесторонних возможностей следующего поколения

Gemini изначально разработан для поддержки мультимодальности, с самого начала предварительно обучен на различных модальностях, а затем доработан с использованием дополнительных мультимодальных данных для повышения эффективности. В результате Gemini способен легко понимать и анализировать различные входные данные, что намного лучше, чем существующие мультимодальные модели, а его возможности являются одними из самых сильных практически во всех областях.

сложная способность к рассуждению

Gemini1.0 обладает сложными мультимодальными возможностями рассуждения, которые могут помочь понять сложную письменную и визуальную информацию. Это делает его особенно эффективным при обнаружении трудноразличимых знаний в огромных объемах данных. Gemini1.0 обладает необыкновенной способностью извлекать ценную информацию из сотен тысяч документов путем чтения, фильтрации и понимания информации, что помогает совершать новые прорывы на сверхбыстрых скоростях во многих областях, таких как наука и финансы.

Одновременно понимать информацию в виде текста, изображений, аудио и других модальностей.

После обучения Gemini1.0 может одновременно распознавать и понимать текст, изображения, аудио и т. д., поэтому он может более полно понимать детали входной информации, а также отвечать на вопросы, связанные со сложными темами. Таким образом, он особенно хорош в рассуждениях о проблемах по сложным предметам, таким как математика и физика.

Как показано ниже, учитель рисует физическую задачу о спуске лыжника по склону, а ученик предлагает решение для расчета скорости лыжника у подножия склона. Используя возможности мультимодального рассуждения Gemini, модель может читать беспорядочный почерк, правильно понимать формулировки задач, преобразовывать как задачи, так и решения в математические формулы, определять конкретные этапы рассуждения, на которых учащиеся допускают ошибки при решении задач, а затем предлагать правильное решение проблемы.

расширенное кодирование

Gemini может понимать, интерпретировать и генерировать высококачественный код на популярных языках программирования (таких как Python, Java, C++, Go). Его мощная способность работать на разных языках и анализировать сложную информацию делает его одной из ведущих в мире базовых моделей кодирования.

GeminiUltra хорошо работает в нескольких тестах кодирования, включая HumanEval, важный отраслевой стандарт для оценки производительности задач кодирования, и Natural2Code, внутренний набор данных Google, который использует исходный код, созданный автором, а не информацию из Интернета.

Gemini также можно использовать в качестве движка для более совершенных систем кодирования. Два года назад Google запустил AlphaCode, первую систему генерации кода с использованием искусственного интеллекта, которая достигла конкурентного уровня в соревнованиях по программированию.

Используя специализированную версию Gemini, Google создал AlphaCode2, более совершенную систему генерации кода, которая отлично справляется с решением задач конкурентного программирования, выходящих за рамки кодирования и включающих сложную математику и теоретическую информатику.

Оцененный на той же платформе, что и исходный AlphaCode, AlphaCode2 продемонстрировал огромное улучшение, решив почти вдвое больше проблем.

Специализированное обучение в ТПУ

Google обучил Gemini 1.0 в масштабе на инфраструктуре, оптимизированной для искусственного интеллекта, с использованием тензорных процессоров (TPU) v4 и v5e собственной разработки, разработанных как наиболее надежная, масштабируемая модель обучения и наиболее эффективная модель обслуживания.

На TPU Gemini работает значительно быстрее, чем предыдущие, меньшие по размеру и менее мощные модели. Эти специально разработанные ускорители искусственного интеллекта лежат в основе продуктов искусственного интеллекта Google, которыми пользуются миллиарды пользователей в Поиске, YouTube, Gmail, Google Maps, Google Play и Android. Они также помогают компаниям по всему миру экономически эффективно обучать крупномасштабные модели искусственного интеллекта.

Сегодня Google также выпустила самую мощную, эффективную и масштабируемую систему TPU на сегодняшний день — CloudTPUv5p, которая предназначена для обучения новейших моделей искусственного интеллекта. Новое поколение TPU ускорит разработку Gemini, поможет разработчикам и корпоративным клиентам быстрее обучать крупномасштабные генеративные модели искусственного интеллекта, а также позволит новым продуктам и новым функциям быстрее встречаться с клиентами.

Ряд суперкомпьютеров-ускорителей CloudTPUv5pAI в дата-центрах Google.

Продукты Google будут обновлены по всем направлениям

С сегодняшнего дня Google добавит Gemini в свои продукты. Бард, например, будет использовать доработанную версию GeminiPro для выполнения более сложных рассуждений, планирования, понимания и других задач. Это также самое большое обновление Bard с момента его запуска.

Модернизированный Bard будет доступен на английском языке в более чем 170 странах, а в ближайшем будущем он будет расширен до большего количества модальностей и поддержки большего количества языков.

Google также добавляет Gemini в Pixel. Pixel 8 Pro станет первым смартфоном с процессором Gemini Nano.

Pixel 8 Pro использует Gemini Nano в приложении для записи звука для суммирования звука собрания даже при отсутствии подключения к сети.

В ближайшие несколько месяцев Gemini постепенно появится в большем количестве продуктов и сервисов Google, включая поиск, рекламу, Chrome, DuetAI и другие.

Google заявил, что экспериментирует с Gemini в поиске, ускоряя процесс генерации поиска (SGE) для пользователей, сокращая задержку на 40% и улучшая качество.

Руководство пользователя и планы на будущее

Наконец, как разработчики используют Gemini?

Начиная с 13 декабря разработчики и корпоративные клиенты смогут получить доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI.

Начиная с устройств Pixel 8 Pro, разработчики Android также могут создавать приложения с помощью Gemini Nano через AICore. AndroidAICore — это новый системный сервис в Android 14, который управляет моделями, средой выполнения, функциями безопасности и т. д., упрощая работу пользователей по интеграции искусственного интеллекта в приложения.

AICore реализует тонкую настройку низкоранговой адаптации (LoRA) с помощью GeminiNano. Эта мощная концепция позволяет разработчикам приложений создавать небольшие адаптеры LoRA на основе собственных обучающих данных. Адаптер LoRA загружается AICore, в результате чего создается большая языковая модель, точно настроенная для собственных сценариев использования приложения.

Кроме того, Google сообщил, что скоро будет выпущен GeminiUltra, а также о следующем плане обновления Bard.

Модель GeminiUltra в настоящее время проходит этап проверки доверия и безопасности с участием красной команды доверенных внешних сторон, а также дальнейшее уточнение модели с использованием точной настройки и обучения с подкреплением с обратной связью от человека (RLHF).

В рамках этого процесса Google сначала предоставит Gemini Ultra некоторым клиентам, разработчикам, партнерам, а также экспертам по безопасности и ответственности для раннего экспериментирования и получения отзывов, а затем запустит его для разработчиков и корпоративных клиентов в начале следующего года.

GeminiUltra — самая крупная и мощная модель Google, предназначенная для решения весьма сложных задач. Первым способом, которым обычные пользователи смогут воспользоваться GeminiUltra, станет BardAdvanced, который Google запустит в начале следующего года.

Google заявил, что будет работать над расширением возможностей Gemini в будущем, включая улучшения в планировании и памяти, а также увеличение контекстных окон для обработки большего количества информации для более эффективных ответов.

Ссылка на блог: https://blog.google/technology/ai/google-gemini-ai/#scalable-efficient.