MLCommons официально объявила о результатах тестов производительности MLPerf inference v3.1 для модели большого языка с 6 миллиардами параметров и модели компьютерного зрения и обработки естественного языка GPT-J. Процессор Intel и ускоритель искусственного интеллекта показали хорошие результаты и вполне конкурентоспособны в области вывода искусственного интеллекта.
Ранее опубликованные результаты обучения MLCommonsAI и результаты тестов производительности HuggingFace в июне показали, что ускоритель Intel Gaudi2AI может полностью превзойти производительность ускорителя NVIDIA H100 в продвинутых моделях визуального языка.Его можно назвать единственной реальной альтернативой NVIDIAH100/A100., последние результаты подтверждают это еще раз.
В модели GPT-J производительность запросов GPT-J-99, GPT-J-99.9 к серверу и автономного вывода выборки ускорителя Intel Gaudi2 составляет 78,58 раз в секунду и 84,08 раз в секунду соответственно.
По сравнению с конкурирующими продуктами H100 имеет преимущество в производительности по сравнению с Gaudi2 всего в 1,09 раза (сервер) и 1,28 раза (офлайн). Gaudi2 имеет преимущество в производительности в 2,4 раза (сервер) и в 2 раза (оффлайн) по сравнению с A100.
Стоит упомянуть, чтоРезультаты, представленные Gaudi2, используют тип данных FP8 с точностью 99,9%.
Программное обеспечение Gaudi2 обновляется каждые 6–8 недель и будет продолжать улучшать производительность тестов MLPerf и расширять охват моделей.
В то же время Intel представила 7 эталонных тестов на основе масштабируемых процессоров Xeon четвертого поколения SapphireRapids, включая модель GPT-J.
Результаты показывают, что Xeon четвертого поколения очень хорошо справляется с общими рабочими нагрузками искусственного интеллекта, включая модели зрения, языковой обработки, перевода речи и звука, а также более крупную модель рекомендаций глубокого обучения DLRMv2 и модель ChatGPT-J.
На данный момент,Intel остается единственным поставщиком, который предоставляет общедоступные результаты работы ЦП с использованием стандартного программного обеспечения экосистемы глубокого обучения.
По последним результатам,Используя GPT-J для обобщения пресс-релиза объемом 1000 слов (около 1000–1500 слов), Xeon четвертого поколения может обрабатывать два абзаца в секунду в автономном режиме и один абзац в секунду в режиме сервера в реальном времени.
также,Intel впервые представляет результаты теста MLPerf для процессоров Xeon CPUMax, который включает в себя до 64 ГБ памяти HBM3 с высокой пропускной способностью, является единственным процессором, который может обеспечить точность 99,9% для GPT-J, что очень подходит для приложений с чрезвычайно высокими требованиями к точности.
Посетите страницу покупки:
Флагманский магазин Intel