MLPerf выпустил последний тест вывода больших моделей GPT! Эта отечественная компания по производству вычислительных мощностей снова занимает первое место в мире, ее производительность в 1,8 раза выше, чем у NVIDIA H100. Поскольку приложения AIGC, такие как ChatGPT, вызвали волну крупных моделей, уровень вычислительной мощности, как и инфраструктура, стал первой отраслью, которая получила выгоду.

Однако такие проблемы, как высокая потребность в вычислительной мощности и высокая стоимость, стали обычными болевыми точками для предприятий при внедрении больших моделей и, скорее всего, ограничивают дальнейшее развитие искусственного интеллекта: параметры больших моделей растут с каждым днем, в то время как узкие места в вычислительном питании неизбежны, создавая огромное противоречие между ними.

Как найти более эффективные решения для вычислительной мощности для больших моделей, находится в центре внимания отрасли.

Недавно авторитетная в мире компания по оценке MLPerf объявила о последних результатах оценки вывода. Впервые компания MLPerf представила тест вывода большой модели GPT. Уровень участия достиг нового рекорда: было представлено более 13 500 результатов производительности от NVIDIA, Intel, Google, Qualcomm и других компаний.

В MLPerfInference3.1 вычислительная карта MoffetAI S30 заняла первое место среди большой модели GPT-J (6 миллиардов параметров), а первое место заняла вычислительная мощность одной карты, 4 карт и 8 карт.


Это третья подряд защита титула для Ink Core на MLPerf.

Ранее чернильное ядро ​​занимало первое место в MLPerfInference2.0 и 2.1 два года подряд.


Вычислительная карта Ink core S30

Достижения Ink Core открыли реальные инновационные направления для вычислительной мощности крупномасштабных моделей решения.

Факты доказали, что совместные инновации в области аппаратного и программного обеспечения, объединяющие модели искусственного интеллекта и вычислительные платформы, могут раскрыть больший потенциал вычислительной мощности. Это также еще раз доказывает, что инновационные технологии, представленные разреженными вычислениями, станут ключом к развитию вычислительных мощностей в эпоху больших моделей.

Чернильное ядро ​​участвует в открытом разделе MLPerf. По словам организатора MLCommons, этот раздел создан для поощрения инноваций. Таким образом, участники могут изучить способы повышения вычислительной мощности за счет совместной работы программного и аппаратного обеспечения.

На большой модели GPT-J в MLPerf по сравнению с решением чисто аппаратного ускорения H100, выполненным по 4-нм техпроцессу, вычислительная карта Ink Core S30, изготовленная по 12-нм техпроцессу, достигла преимущества до 1,8 раз благодаря подходу «оригинальный двойной разреженный алгоритм + аппаратное взаимодействие».

Модель GPT-J в этой оценке представляет собой генеративную модель искусственного интеллекта. Производительность вычислительной карты Ink Core S30 в 8-карточном, 4-карточном и однокарточном режимах составляет 170,5 соответственно. 9, 91,57, 23,28 (выборок/с), что превышает производительность NVIDIA H100 в 1,6, 1,8 и 1,8 раза, демонстрируя возможности основных продуктов с чернилами в задачах AIGC.


трижды выигрывал чемпионат. Вычислительная мощность большой модели была первой, «представившей документ», и сотрудничество программного и аппаратного обеспечения продолжало обновляться. Надежность продукта Ink Core была несколько раз тщательно проверена компанией MLPerf, а также исследован новый путь развития вычислительной мощности больших моделей.

01

Редкие разреженные вычисления — «потенциальный запас» больших моделей завоевал рынок распознавание

Превосходные результаты ink core в основном обусловлены совместной разработкой программного и аппаратного обеспечения на основе разреженного алгоритма.

В эпоху больших моделей важность разреженных вычислений очевидна: размер модели ИИ прямо пропорционален ее потенциалу разрежения.

Другими словами, чем больше модель, тем больше вероятность разреженности алгоритма, а также выше степень ускорения разреженных вычислений. Для общих моделей больших языков разреженные вычисления могут привести к ускорению в десятки раз.

Оригинальный алгоритм двойного разрежения Inkcore в сочетании с совместным программным и аппаратным обеспечением делает чип Antoum® от Inkcore первым в мире чипом искусственного интеллекта с высоким разрежением, поддерживающим разреженность до 32 раз — это ключ к рекордному результату Inkcore в этом MLPerf.

Чем больше модель, тем очевиднее преимущество разреженных вычислений — особенно в текущей ситуации, когда параметры больших моделей, таких как GPT, часто достигают десятков миллиардов или сотен миллиардов, что делает ров чернильного ядра более стабильным.

Мощность чернильного ядра и общая тенденция к разрежению вычислений также были признаны в отрасли: Процесс коммерциализации чернильного ядра делал важные прорывы один за другим, помогая предприятиям ускорить приложения искусственного интеллекта.

Недавно Ink Core официально стала одним из поставщиков, поддерживающих ByteMLPerf.


Источник: веб-сайт ByteMLPerf

Адрес проекта: https://github.com/bytedance/By teMLPerf/blob/main/README.md

В настоящее время вычислительная платформа Ink Core AI может поддерживать большие модели с разными уровнями параметров, включая BLOOM, OPT, GPT-J, LLaMA, StableDiffusion и т. д.

В то же время он обладает характеристиками высокой пропускной способности, низкой задержкой и низким энергопотреблением, что снижает сложность вычислительной мощности и действительно предлагает предприятиям «простые в использовании» и «доступные» крупномасштабные вычислительные решения.

02

приносит фундаментальные изменения в вычислительной мощности, а разреженность вычислений помогает в разработке моделей Lida

Разреженное вычислительное решение чернильного ядра может не только облегчить текущую проблему вычислительной мощности, но и открыть новое пространство для устойчивого развития искусственного интеллекта.

Разреженные вычисления уменьшают объем вычислений моделей ИИ, а это означает, что большие модели могут увеличивать количество параметров на несколько порядков, не создавая при этом слишком большого объема вычислений. Ожидается, что противоречие между ростом параметров большой модели и узкими местами вычислительной мощности будет фундаментально решено.

В то же время, благодаря уменьшению объема вычислений, также были решены болевые точки, связанные с высокими требованиями к вычислительной мощности, высоким энергопотреблением и высокой стоимостью больших моделей, достигая «беспроигрышного» эффекта.


Чип Antoum с чернильным ядром: первый в мире AI-чип с высоким разреженным увеличением, поддерживающий разреженность до 32 раз

TAGPH5 2Отличные результаты трех последовательных испытаний MLPerfs не только доказывают силу основных продуктов чернил, но и приносят новые открытия в отрасль: С помощью таких технологий, как разреженные вычисления, ожидается, что разработка и применение больших моделей откроют более широкое пространство для развития, ускоряя распространение AIGC и других приложений во всех сферах жизни.

03

TAGPH 59О программе MLPerf

MLPerf Инициирован лауреатом премии Тьюринга Дэвидом Паттерсоном в сотрудничестве с ведущими академическими учреждениями, такими как Google, Стэнфорд и Гарвардский университет. Это самый авторитетный и влиятельный международный тест производительности ИИ, предназначенный для своевременного отслеживания и оценки быстро растущих требований и производительности ИИ-вычислений.