Поскольку волна искусственного интеллекта повышает спрос на электроэнергию в центрах обработки данных, исследовательская группа из Университета Иллинойса в Урбана-Шампейн разработала новую технологию трехмерных печатных охлаждающих пластин из чистой меди, которая, как ожидается, значительно снизит энергопотребление центров обработки данных для охлаждения примерно с 30% от текущего общего энергопотребления примерно до 1,1%. По оценкам исследователей, если эта технология будет полностью применена в сверхкрупных центрах обработки данных, общее потребление энергии, связанное с охлаждением, как ожидается, сократится более чем на 90%, приблизившись к пределу эффективности, которого может достичь современная теплотехника.

По данным Международного энергетического агентства, потребление электроэнергии глобальными центрами обработки данных достигнет 485 тераватт-часов в 2025 году, из которых примерно 30% — величина, которая уже превышает годовое потребление электроэнергии в Швеции — используется для охлаждения самих объектов. В то же время быстрое развитие генеративного искусственного интеллекта привело к тому, что отрасль даже рассмотрела возможность строительства центров обработки данных в космосе для более прямого снабжения солнечной энергией. Еще более иронично то, что около трети этих огромных затрат энергии не имеет ничего общего с самими вычислениями, а используется для «отвода» электрической энергии, преобразуемой чипами в тепло.

Если взять в качестве примера чип Nvidia GB200, то энергопотребление одного чипа достигает 1200 Вт, а ежедневное энергопотребление составляет около 28,8 киловатт-часов, что близко к среднесуточному энергопотреблению средней американской семьи. Благодаря неизбежному эффекту Джоулевого нагрева эти 1200 Вт практически одинаково преобразуются в тепловую мощность, которой теоретически достаточно, чтобы нагреть более 50 стаканов воды всего за один час. Если тысячи или даже сотни тысяч этих чипов будут плотно сложены в стойках, как сейчас, без какого-либо вмешательства в систему охлаждения, то 220 000 графических процессоров и 300 мегаватт мощности одного только центра обработки данных Colossus 1 компании xAI будет достаточно, чтобы нагреть примерно 785 000 квадратных футов пространства примерно до 1200 градусов по Цельсию за один час, что горячее магмы. Видно, что охлаждение стало неизбежным и даже жизненно важным звеном в работе дата-центров.

Бехнуд Базми, первый автор статьи и инженер-механик, отметил: «Охлаждение является узким местом современного проектирования чипов. Преодолевая разрыв между вычислительным проектированием и производственными возможностями, наше решение открывает новый путь жидкостного охлаждения более энергоэффективных чипов и различного электронного оборудования». Долгое время дата-центры в основном делали ставку на воздушное охлаждение: устанавливали металлические радиаторы на процессоры и графические процессоры, расширяли площадь теплообмена за счет тонких ребер и дополняли ее принудительной конвекцией мощными вентиляторами. Для управления огромной системой обработки воздуха этот метод сам по себе потребляет много энергии, и в условиях резко возрастающей плотности теплового потока нового поколения чипов-ускорителей искусственного интеллекта традиционное воздушное охлаждение становится все более неадекватным.

Поэтому отрасль ускоряет переход к решениям прямого жидкостного охлаждения чипов, то есть устанавливает металлическую «холодную пластину» над процессором, направляя поток охлаждающей жидкости через ее внутренние крошечные каналы и быстро рассеивая тепло чипа. Обычные охлаждающие пластины, представленные на рынке, уже давно используются, но конструкция их внутренних ребер и каналов потока обычно отдает предпочтение простоте обработки. Геометрические формы в основном прямоугольные или цилиндрические, а материалы в основном изготовлены из алюминиевого сплава или нержавеющей стали. Трудно сбалансировать максимальную эффективность теплообмена и контроль сопротивления потоку.

Инновации команды Университета Иллинойса сосредоточены на двух ключевых аспектах: материале и структуре плавников. Исследователи использовали методы топологической оптимизации и внедрили алгоритмы математической оптимизации, чтобы перепроектировать внутреннюю микроструктуру охлаждающей пластины, эволюционируя от традиционной квадратной колонны и цилиндрической геометрии к более сложной, зубчатой ​​и острой трехмерной форме, чтобы максимизировать площадь теплопередачи и тепловые характеристики, принимая во внимание сопротивление канала потока. Поскольку эти очень сложные структуры практически невозможно экономично обработать с помощью традиционных процессов, команда обратилась к передовому электрохимическому аддитивному производству (ECAM), чтобы напрямую создавать желаемую форму, послойно. Что касается выбора материала, они смело использовали чистую медь, которая обладает превосходной теплопроводностью, но которую чрезвычайно сложно придать точной форме с помощью обычной 3D-печати.

По словам инженера-механика Ненада Мильковича, соответствующего автора статьи, технология ECAM может обрабатывать чистую медь до мелких деталей размером от 30 до 50 микрон, что даже меньше диаметра человеческого волоса. Результаты экспериментов показывают, что по сравнению с обычными коммерческими охлаждающими пластинами эта охлаждающая пластина с оптимизированной топологией из чистой меди может улучшить эффективность охлаждения примерно на 32 % в условиях жидкостного охлаждения, одновременно снижая падение давления в системе до 68 %. Уменьшение перепада давления означает, что мощность насоса, необходимая для обеспечения циркуляции охлаждающей жидкости в единицу времени, значительно снижается. Сочетание этих двух факторов обеспечивает значительную общую экономию энергопотребления.

Исследовательская группа далее провела анализ моделирования на общем уровне центра обработки данных. В текущем сценарии, когда воздушное охлаждение по-прежнему доминирует, центру обработки данных с установленной мощностью 1 ГВт может потребоваться около 550 МВт дополнительной мощности только для охлаждения инфраструктуры. Ожидается, что после внедрения предложенного ими оптимизированного решения жидкостного охлаждения потребляемая мощность охлаждения объекта того же размера снизится примерно до 11 мегаватт. Другими словами, при сохранении эффективного отвода экстремального тепла, генерируемого крупномасштабным оборудованием искусственного интеллекта, ожидается, что энергопотребление на охлаждение будет сокращено с нынешних примерно с 30% до 35% примерно до 1,1%, то есть общее снижение составит более 95%.

Если эти прогнозы модели можно будет воспроизвести в реальных гипермасштабных развертываниях, влияние на энергоэффективность центров обработки данных будет революционным. По оценкам исследовательской группы, эта система может помочь центру обработки данных достичь эффективности использования энергии (PUE) около 1,011, что означает, что почти каждый ватт потребляемой мощности из электросети используется непосредственно для вычислений, а не потребляется на вспомогательные средства, такие как охлаждение, потери при передаче и распределении или освещение. Для сравнения, PUE большинства самых передовых сверхкрупномасштабных центров обработки данных в мире находится в диапазоне от 1,1 до 1,3, тогда как теоретический «идеальный» PUE центра обработки данных равен 1,0, то есть на охлаждение и поддержку инфраструктуры не тратится энергия.

Конечно, исследовательская группа также признала, что текущие цифры энергопотребления всего дата-центра все еще находятся на стадии моделирования и не основаны на результатах измерений на месте реальных центров обработки данных гигаваттного уровня. Даже в этом случае, если технология сможет поддерживать производительность в крупномасштабных развертываниях, как и ожидалось, у нее есть потенциал значительно сократить одно из самых больших скрытых энергопотреблений, о которых забывают, стоящих за нынешним бумом искусственного интеллекта, — охлаждение центров обработки данных. Исследователи полагают, что эта идея сочетания оптимизации конструкции с передовыми производственными процессами не ограничивается центрами обработки данных, но также может быть распространена на более широкий спектр электронного оборудования и даже на другие области техники, требующие эффективного управления температурным режимом.