MLPerf выпустил последний тест вывода больших моделей GPT! Эта отечественная компания по производству вычислительных мощностей снова занимает первое место в мире, ее производительность в 1,8 раза выше, чем у NVIDIA H100. Поскольку приложения AIGC, такие как ChatGPT, вызвали волну крупных моделей, уровень вычислительной мощности, как и инфраструктура, стал первой отраслью, которая получила выгоду.
Однако такие проблемы, как высокая потребность в вычислительной мощности и высокая стоимость, стали обычными болевыми точками для предприятий при внедрении больших моделей и, скорее всего, ограничивают дальнейшее развитие искусственного интеллекта: параметры больших моделей растут с каждым днем, в то время как узкие места в вычислительном питании неизбежны, создавая огромное противоречие между ними.
Как найти более эффективные решения для вычислительной мощности для больших моделей, находится в центре внимания отрасли.
Недавно авторитетная в мире компания по оценке MLPerf объявила о последних результатах оценки вывода. Впервые компания MLPerf представила тест вывода большой модели GPT. Уровень участия достиг нового рекорда: было представлено более 13 500 результатов производительности от NVIDIA, Intel, Google, Qualcomm и других компаний.
В MLPerfInference3.1 вычислительная карта MoffetAI S30 заняла первое место среди большой модели GPT-J (6 миллиардов параметров), а первое место заняла вычислительная мощность одной карты, 4 карт и 8 карт.
Это третья подряд защита титула для Ink Core на MLPerf.
Ранее чернильное ядро занимало первое место в MLPerfInference2.0 и 2.1 два года подряд.
Вычислительная карта Ink core S30
Достижения Ink Core открыли реальные инновационные направления для вычислительной мощности крупномасштабных моделей решения.
Факты доказали, что совместные инновации в области аппаратного и программного обеспечения, объединяющие модели искусственного интеллекта и вычислительные платформы, могут раскрыть больший потенциал вычислительной мощности. Это также еще раз доказывает, что инновационные технологии, представленные разреженными вычислениями, станут ключом к развитию вычислительных мощностей в эпоху больших моделей.
Чернильное ядро участвует в открытом разделе MLPerf. По словам организатора MLCommons, этот раздел создан для поощрения инноваций. Таким образом, участники могут изучить способы повышения вычислительной мощности за счет совместной работы программного и аппаратного обеспечения.
На большой модели GPT-J в MLPerf по сравнению с решением чисто аппаратного ускорения H100, выполненным по 4-нм техпроцессу, вычислительная карта Ink Core S30, изготовленная по 12-нм техпроцессу, достигла преимущества до 1,8 раз благодаря подходу «оригинальный двойной разреженный алгоритм + аппаратное взаимодействие».
Модель GPT-J в этой оценке представляет собой генеративную модель искусственного интеллекта. Производительность вычислительной карты Ink Core S30 в 8-карточном, 4-карточном и однокарточном режимах составляет 170,5 соответственно. 9, 91,57, 23,28 (выборок/с), что превышает производительность NVIDIA H100 в 1,6, 1,8 и 1,8 раза, демонстрируя возможности основных продуктов с чернилами в задачах AIGC.
трижды выигрывал чемпионат. Вычислительная мощность большой модели была первой, «представившей документ», и сотрудничество программного и аппаратного обеспечения продолжало обновляться. Надежность продукта Ink Core была несколько раз тщательно проверена компанией MLPerf, а также исследован новый путь развития вычислительной мощности больших моделей.
01
Редкие разреженные вычисления — «потенциальный запас» больших моделей завоевал рынок распознавание
Превосходные результаты ink core в основном обусловлены совместной разработкой программного и аппаратного обеспечения на основе разреженного алгоритма.
В эпоху больших моделей важность разреженных вычислений очевидна: размер модели ИИ прямо пропорционален ее потенциалу разрежения.
Другими словами, чем больше модель, тем больше вероятность разреженности алгоритма, а также выше степень ускорения разреженных вычислений. Для общих моделей больших языков разреженные вычисления могут привести к ускорению в десятки раз.
Оригинальный алгоритм двойного разрежения Inkcore в сочетании с совместным программным и аппаратным обеспечением делает чип Antoum® от Inkcore первым в мире чипом искусственного интеллекта с высоким разрежением, поддерживающим разреженность до 32 раз — это ключ к рекордному результату Inkcore в этом MLPerf.
Чем больше модель, тем очевиднее преимущество разреженных вычислений — особенно в текущей ситуации, когда параметры больших моделей, таких как GPT, часто достигают десятков миллиардов или сотен миллиардов, что делает ров чернильного ядра более стабильным.
Мощность чернильного ядра и общая тенденция к разрежению вычислений также были признаны в отрасли: Процесс коммерциализации чернильного ядра делал важные прорывы один за другим, помогая предприятиям ускорить приложения искусственного интеллекта.
Недавно Ink Core официально стала одним из поставщиков, поддерживающих ByteMLPerf.
Источник: веб-сайт ByteMLPerf
Адрес проекта: https://github.com/bytedance/By teMLPerf/blob/main/README.md
В настоящее время вычислительная платформа Ink Core AI может поддерживать большие модели с разными уровнями параметров, включая BLOOM, OPT, GPT-J, LLaMA, StableDiffusion и т. д.
В то же время он обладает характеристиками высокой пропускной способности, низкой задержкой и низким энергопотреблением, что снижает сложность вычислительной мощности и действительно предлагает предприятиям «простые в использовании» и «доступные» крупномасштабные вычислительные решения.
02
приносит фундаментальные изменения в вычислительной мощности, а разреженность вычислений помогает в разработке моделей Lida
Разреженное вычислительное решение чернильного ядра может не только облегчить текущую проблему вычислительной мощности, но и открыть новое пространство для устойчивого развития искусственного интеллекта.
Разреженные вычисления уменьшают объем вычислений моделей ИИ, а это означает, что большие модели могут увеличивать количество параметров на несколько порядков, не создавая при этом слишком большого объема вычислений. Ожидается, что противоречие между ростом параметров большой модели и узкими местами вычислительной мощности будет фундаментально решено.
В то же время, благодаря уменьшению объема вычислений, также были решены болевые точки, связанные с высокими требованиями к вычислительной мощности, высоким энергопотреблением и высокой стоимостью больших моделей, достигая «беспроигрышного» эффекта.
Чип Antoum с чернильным ядром: первый в мире AI-чип с высоким разреженным увеличением, поддерживающий разреженность до 32 раз
TAGPH5 2Отличные результаты трех последовательных испытаний MLPerfs не только доказывают силу основных продуктов чернил, но и приносят новые открытия в отрасль: С помощью таких технологий, как разреженные вычисления, ожидается, что разработка и применение больших моделей откроют более широкое пространство для развития, ускоряя распространение AIGC и других приложений во всех сферах жизни.
03
TAGPH 59О программе MLPerfMLPerf Инициирован лауреатом премии Тьюринга Дэвидом Паттерсоном в сотрудничестве с ведущими академическими учреждениями, такими как Google, Стэнфорд и Гарвардский университет. Это самый авторитетный и влиятельный международный тест производительности ИИ, предназначенный для своевременного отслеживания и оценки быстро растущих требований и производительности ИИ-вычислений.