24 февраля, на прошлой неделе, DeepSeek объявил, что на этой неделе будет Неделя открытого исходного кода и что компания откроет исходный код пяти программных библиотек подряд. Сегодня около 9:30 компания DeepSeek объявила, что открыла исходный код первой библиотеки кода на этой неделе с открытым исходным кодом — FlashMLA, эффективного ядра декодирования MLA, оптимизированного для графического процессора Hopper.
На GitHub проект получил более 5000 коллекций Star и 188 форков (созданных копий) через 6 часов после того, как его исходный код был открыт. Услышав о FlashMLA с открытым исходным кодом DeepSeek и быстром росте количества данных Star Collection и Fork, технический директор компании, зарегистрированной в Гонконге, сказал в разговоре с Sina Technology: «Это слишком мощно».
Другой инвестор, который занимается исследованиями и инвестициями в аппаратное обеспечение искусственного интеллекта, рассказал Sina Technology после обзора FlashMLA, что этот открытый исходный код является основным преимуществом для отечественных графических процессоров. «Предыдущие отечественные карты с графическим процессором были очень слабыми. Теперь мы можем использовать идеи и методологии оптимизации, предоставленные FlashMLA, чтобы попытаться значительно улучшить производительность отечественных карт. Даже если архитектура будет другой, само собой разумеется, что производительность внутренних карт будет улучшена позже».
Согласно официальному представлению DeepSeek, FlashMLA основан на эффективном ядре декодирования MLA процессоров HopperGPU и может быть оптимизирован для последовательностей переменной длины.
На всем техническом пути DeepSeek MLA (Multiple Latent Attention Mechanism) является одной из самых основных технологий в моделях V2 и V3, выпущенных компанией. Он используется для устранения узких мест в производительности вычислений и использования памяти, что может значительно улучшить обучение модели и эффективность вывода, сохраняя или даже повышая производительность модели.
Ранее Чжэн Вэйминь, академик Китайской инженерной академии и профессор кафедры компьютерных наук Университета Цинхуа, упомянул в общении с Sina Technology: «Саморазработанная DeepSeek архитектура MLA сыграла ключевую роль в сокращении затрат на обучение собственных моделей». Он отметил: «MLA сжимает KV за счет преобразования размера кэша оператора внимания, что позволяет хранить больше KVCache той же емкости. Эта архитектура в сочетании с преобразованием уровня FFN в модели DeepSeek-V3 обеспечивает очень большой разреженный слой MoE, что становится наиболее важной причиной низкой стоимости обучения DeepSeek».
На этот раз DeepSeek напрямую открывает ядро декодирования MLA — FlashMLA, а это означает, что DeepSeek бесплатно откроет основной код MLA напрямую. Это позволяет большинству групп разработчиков напрямую повторно использовать базу кода FlashMLA для выполнения одной и той же задачи с меньшим количеством серверов графических процессоров, что напрямую снижает стоимость вывода. Это, несомненно, большое преимущество для большего количества групп, которые надеются выполнить базовую оптимизацию и разработку приложений искусственного интеллекта на основе возможностей DeepSeek с открытым исходным кодом.
Интересно, что ядро декодирования MLA, открытое DeepSeek, на этот раз в основном оптимизировано для графического процессора Hopper. Вообще говоря, Hopper GPU относится к графическим процессорам серии H, разработанным на основе архитектуры NVIDIA Hopper. В настоящее время NVIDIA выпустила ряд чипов этой серии, таких как H100, H800 и H20.
По данным DeepSeek, с точки зрения производительности FlashMLA может достичь скорости памяти 3000 ГБ/с и верхнего предела вычислений в 580 терафлопс на графическом процессоре NVIDIA H800SXM5.
Публичная информация показывает, что в соответствии с правилами экспортного контроля США предел пропускной способности H800 установлен на уровне 600 ГБ/с, что ниже, чем у некоторых флагманских продуктов. Это означает, что после оптимизации с помощью FlashMLA ожидается, что использование полосы пропускания памяти H800 еще больше улучшится или даже превысит теоретический верхний предел графического процессора H800, достигнув максимального доступа к памяти, что позволит сообществу разработчиков полностью «выжать» возможности чипов NVIDIA H-серии, добиться более высокой производительности модели с меньшим количеством чипов и максимизировать ценность графического процессора.
Инвестор, специализирующийся на исследованиях и инвестициях в аппаратное обеспечение искусственного интеллекта, сказал после просмотра FlashMLA: «FlashMLA — это решение для оптимизации, которое может заставить LLM работать быстрее и эффективнее на H800. Оно особенно подходит для высокопроизводительных задач искусственного интеллекта. Его суть заключается в ускорении процесса декодирования больших языковых моделей и повышении скорости ответа и пропускной способности модели. Это очень важно для задач генерации в реальном времени (таких как чат-боты и т. д.). Это значительно расширит возможности и удобство работы с большими моделями, и скорость будет значительно улучшилось».
Хотя FlashMLA — это оптимизированная библиотека кода для HopperGPU, для отечественных графических процессоров этот открытый исходный код также полезен. Изучив FlashMLA, вышеупомянутые инвесторы заявили, что для отечественных графических процессоров этот открытый исходный код является большим преимуществом. «Предыдущие отечественные карты с графическим процессором были очень слабыми. Теперь мы можем использовать идеи и методологии оптимизации, предоставленные FlashMLA, чтобы попытаться значительно улучшить производительность отечественных карт. Даже если архитектура будет другой, само собой разумеется, что производительность внутренних карт будет улучшена позже».