MLCommons официально объявила о результатах тестов производительности MLPerf inference v3.1 для модели большого языка с 6 миллиардами параметров и модели компьютерного зрения и обработки естественного языка GPT-J. Процессор Intel и ускоритель искусственного интеллекта показали хорошие результаты и вполне конкурентоспособны в области вывода искусственного интеллекта.

Ранее опубликованные результаты обучения MLCommonsAI и результаты тестов производительности HuggingFace в июне показали, что ускоритель Intel Gaudi2AI может полностью превзойти производительность ускорителя NVIDIA H100 в продвинутых моделях визуального языка.Его можно назвать единственной реальной альтернативой NVIDIAH100/A100., последние результаты подтверждают это еще раз.

В модели GPT-J производительность запросов GPT-J-99, GPT-J-99.9 к серверу и автономного вывода выборки ускорителя Intel Gaudi2 составляет 78,58 раз в секунду и 84,08 раз в секунду соответственно.

По сравнению с конкурирующими продуктами H100 имеет преимущество в производительности по сравнению с Gaudi2 всего в 1,09 раза (сервер) и 1,28 раза (офлайн). Gaudi2 имеет преимущество в производительности в 2,4 раза (сервер) и в 2 раза (оффлайн) по сравнению с A100.

Стоит упомянуть, чтоРезультаты, представленные Gaudi2, используют тип данных FP8 с точностью 99,9%.

Программное обеспечение Gaudi2 обновляется каждые 6–8 недель и будет продолжать улучшать производительность тестов MLPerf и расширять охват моделей.

В то же время Intel представила 7 эталонных тестов на основе масштабируемых процессоров Xeon четвертого поколения SapphireRapids, включая модель GPT-J.

Результаты показывают, что Xeon четвертого поколения очень хорошо справляется с общими рабочими нагрузками искусственного интеллекта, включая модели зрения, языковой обработки, перевода речи и звука, а также более крупную модель рекомендаций глубокого обучения DLRMv2 и модель ChatGPT-J.

На данный момент,Intel остается единственным поставщиком, который предоставляет общедоступные результаты работы ЦП с использованием стандартного программного обеспечения экосистемы глубокого обучения.

По последним результатам,Используя GPT-J для обобщения пресс-релиза объемом 1000 слов (около 1000–1500 слов), Xeon четвертого поколения может обрабатывать два абзаца в секунду в автономном режиме и один абзац в секунду в режиме сервера в реальном времени.

также,Intel впервые представляет результаты теста MLPerf для процессоров Xeon CPUMax, который включает в себя до 64 ГБ памяти HBM3 с высокой пропускной способностью, является единственным процессором, который может обеспечить точность 99,9% для GPT-J, что очень подходит для приложений с чрезвычайно высокими требованиями к точности.

Посетите страницу покупки:

Флагманский магазин Intel