В пыльных прериях в Абилине, штат Техас, инженеры по аппаратному обеспечению из OpenAI и Crusoe, подрядчика центров обработки данных Oracle, работали сверхурочно в течение нескольких дней, чтобы обеспечить стабильную работу нескольких газотурбинных установок с помощью самого дорогого суперкомпьютера искусственного интеллекта в истории.

Газотурбинная установка установлена рядом с дата-центром Stargate AI, построенным Oracle и OpenAI в Абилине, штат Техас.
Ряд людей, знакомых с проектом, местные инженеры и эксперты по электросетям, рассказали, что проект является частью проекта вычислительной инфраструктуры OpenAI Stargate, а общая сложность реализации и капитальные вложения далеко превосходят первоначальные ожидания.
База в Абилине уже давно считается эталоном для строительства глобальных центров обработки данных искусственного интеллекта. Oracle, клиент Крузо, развернул здесь серверы для OpenAI, потребляющие по меньшей мере сотни мегаватт энергии; Этим летом компания планирует разместить больше чипов в новых зданиях с общей мощностью нагрузки до 1,2 гигаватт, чего достаточно для обеспечения потребностей в освещении всего города Сан-Франциско.
Но первая проблема – обеспечить бесперебойное электроснабжение. Люди, знакомые с этим вопросом, рассказали, что из-за множества проблем, таких как отказы системы охлаждения, аномалии турбоагрегатов и новые правила контроля колебаний в сети, которые будут введены агентством по регулированию электросетей Техаса, Крузо пришлось поэтапно приостанавливать операции, чтобы избежать многочисленных рисков для оборудования, рабочей силы и средств.
Помимо различных эксплуатационных трудностей на объекте, все производители инфраструктуры искусственного интеллекта сталкиваются с неконтролируемыми расходами. Несколько недель назад генеральный директор Crusoe Чейз Рокмиллер рассказал на гостевой лекции в Стэнфордском университете, что стоимость строительства «главной электрифицированной электростанции» для центра обработки данных мощностью 1 гигаватт достигает 19,2 миллиарда долларов, включая основные строительные материалы, механическое и электрическое оборудование, поддержку газовых электростанций и все затраты на рабочую силу.
Это число резко возросло по сравнению с расценками на проекты с такими же спецификациями два или три года назад: в условиях компьютерного бума искусственного интеллекта технические зарплаты подрядчиков в целом выросли на 30%, а затраты на рабочую силу составили почти четверть от общего объема инвестиций. «Конкуренция за техническую рабочую силу в отрасли никогда не была более жесткой», — сказал Рокмиллер.
Стоимость другого аппаратного обеспечения также резко возросла. Он рассказал студентам, что стоимость газовой электростанции мощностью один гигаватт за последние несколько лет выросла почти втрое и достигла 3 миллиардов долларов; Данные Федерального резервного банка Сент-Луиса показывают, что цены на трансформаторы и распределительные устройства выросли на 80% с 2020 года. Стоимость закупок микросхем и серверного вспомогательного оборудования, необходимого для центра обработки данных мощностью 1 ГВт, составляет еще примерно 40 миллиардов долларов США.
В настоящее время план распределения затрат Crusoe, Oracle, OpenAI и других партнеров не разглашается; в случае перерасхода бюджета и задержки строительства четкого заключения о соответствующих субъектах юридической ответственности нет. Представитель Crusoe ответил, что в бюджете компании заложены резервы на случай различных чрезвычайных ситуаций.
Одно совершенно ясно: цикл строительства глобальных центров обработки данных в целом удлиняется, и три фактора: удлинение цикла утверждения землепользования, нехватка основного оборудования и нехватка рабочей силы продолжают замедлять прогресс. Экономисты JP Morgan опубликовали в прошлом месяце отчет, в котором говорится, что спутниковые снимки показывают, что более 60% центров обработки данных, которые первоначально планировалось ввести в эксплуатацию до 2027 года, еще не начали строительство, а еще 7% графиков реализации проектов были отложены, что указывает на то, что темпы расширения отрасли могут замедлиться.
Работа Крузо по устранению неполадок на базе в Абилине также стала предупреждением для всей отрасли: в строительстве гипермасштабных центров обработки данных мощностью в гигаватты нет места неряшливости. Любая ошибка может привести к перегреву и повреждению чипа, поломке лопаток турбины и приводных валов, травмам или травмам строителей из-за поражения электрическим током или полному сгоранию вспомогательного оборудования электросети.

Генеральный директор Crusoe Чейз Рокмиллер
Множественные трудности, такие как перебои в электроснабжении и новые нормативные ограничения, также являются основными причинами, по которым компании, занимающиеся искусственным интеллектом, такие как OpenAI и Anthropic, сообщают, что они не могут получить достаточную вычислительную мощность из недавно построенных центров обработки данных и внедрять новые технологии с ожидаемой скоростью.
Крузо существует уже восемь лет. На заре своего существования компания использовала отходы энергии для эксплуатации криптовалютных шахт. В 2022 году он полностью трансформируется в направление инфраструктуры искусственного интеллекта. Оценка прямых инвестиций компании семь месяцев назад превысила 10 миллиардов долларов США, а последние новости показывают, что ее раунд финансирования перед IPO, как ожидается, будет оценен в диапазоне от 300 до 400 миллиардов долларов США. Руководители корпораций, работавшие с Crusoe, дали положительные отзывы о ее управленческой команде, заявив, что команда значительно ускорила эффективность строительства отрасли и гибко решала различные проблемы в реализации проектов и надзоре.
Крузо официально опубликовал заявление, в котором говорится: «Характеристики энергопотребления вычислительных нагрузок искусственного интеллекта фундаментально отличаются от логики адаптации конструкции традиционных резервных источников питания в энергетике. Это серьезная инженерная проблема, которую должна решить вся отрасль. Проекты, которые мы реализовали для наших клиентов, установили отраслевые прецеденты с точки зрения скорости строительства и масштабов реализации, и мы очень гордимся этим».
Будучи пионером в области центров обработки данных искусственного интеллекта, различные скрытые опасности, выявленные в проекте Крузо, эквивалентны заблаговременному разминированию для всей отрасли. Аналогично предыдущему развертыванию аккумуляторных батарей Tesla для устранения импульсных потрясений в дата-центре xAI (теперь объединенном с SpaceX).
Другой местный техасский производитель инфраструктуры отметил, что Крузо осмелился быстро применить метод проб и ошибок и повторить решения в обмен на максимальную скорость строительства, но за счет высоких инвестиционных затрат. Это подтвердил бывший инженер OpenAI, знакомый с проектом Abilene. Инсайдеры проекта выяснили, что первоначальная система резервного электропитания базы имела недостаточную устойчивость к внезапным изменениям напряжения и колебаниям мощности, и команде пришлось модифицировать несколько версий конструкции.
Поскольку эти газовые турбины используются только в качестве резервного источника питания для центра обработки данных, они не влияют на магистральное соединение между базой и общественной электросетью Техаса. Партнер проекта Lancium отвечает за строительство подстанции на территории. Люди, знакомые с периодом строительства, говорят, что проект подстанции идет на должном уровне или даже опережает график, гарантируя, что этим летом OpenAI сможет использовать до 1,2 ГВт мощности внешней сети.
Однако достаточное электропитание из сети не означает, что OpenAI и Oracle можно сразу использовать на полную мощность. Инженерам необходимо завершить испытание машины для выпечки серверных чипов и одновременно оптимизировать конструкцию системы электропитания и охлаждения, чтобы завершить отладку всего вычислительного кластера до лета. Бывший инженер, участвовавший в проекте, сообщил, что ранее в этом году холодильная установка, используемая для предотвращения перегрева и плавления чип-сервера (термический выход из-под контроля), вышла из строя в условиях низкой температуры, что привело к отключению вычислительной мощности почти на целый день.
Риски выхода из сети
Потребляемая мощность вычислительной нагрузки ИИ сильно колеблется в пределах миллисекунд. Соответствующие исследования показывают, что неправильное управление и контроль приведет к несоответствию частот (гармоническим искажениям), повреждению бытовой техники и оборудования подстанций, а также ускорит выход из строя собственной батареи центра обработки данных. При обнаружении неисправности в электросети центр обработки данных автоматически отключается от сети, чтобы защитить себя. В 2024 и 2025 годах десятки компьютерных залов в «коридоре центров обработки данных» Вирджинии дважды отключались от сети, что едва не спровоцировало региональное отключение электроэнергии.
Летом и осенью 2024 года ферма для майнинга криптовалют в Западном Техасе продолжала вызывать сильные колебания напряжения в электросети из-за дефекта прошивки. Производитель переписал прошивку и неисправность устранилась.
Операторы электросетей Техаса очень бдительны в этом отношении. Согласно статистике GridMonitor, агентства по отслеживанию конференций по электросетям, только в этом году термин «колебания мощности» был упомянут 80 раз на различных заседаниях Техасского совета по надежности электроснабжения (ERCOT). Агентство вводит новые правила контроля искажений, обязывая центры обработки данных оборудовать высокоточные системы буферизации питания и стабилизации напряжения. Основным решением являются аккумуляторные батареи, но производители одновременно разрабатывают альтернативные решения, такие как небольшие генераторные установки, конденсаторы и топливные элементы.
Еще одно новое правило, которое должно быть реализовано, требует, чтобы центры обработки данных имели возможность преодолевать сбои в сети и не были напрямую отключены от сети в случае неисправности. Хорошей новостью является то, что общая конструкция парка нового поколения оснащена более эффективной буферной батареей для хранения энергии, а вспомогательное оборудование искусственного интеллекта также было адаптировано и оптимизировано. Шон Джеймс, архитектор энергетических систем NVIDIA, сказал: «NVIDIA продолжает оптимизировать встроенные схемы серверов, чтобы улучшить способность буферизировать импульсы питания».
Предотвращение воздействия вычислительной мощности ИИ на энергосистему поднялось до уровня единого надзора в Северной Америке. Североамериканская корпорация по надежности электроснабжения (NERC) 4 мая выпустила редкое предупреждение третьего уровня, требующее от проектировщиков электросетей принять меры по исправлению основных ошибок до 3 августа, чтобы доказать, что энергосистема может выдерживать новые сверхбольшие вычислительные нагрузки, такие как центры обработки данных искусственного интеллекта.
Генеральный директор NERC Джим Робб заявил: «Кремниевая долина всегда верила в быстрые пробы и ошибки, старые и новые, но эта логика не применима к энергосистеме — вся инфраструктура функционирования общества зависит от стабильного энергоснабжения. Режим работы центров обработки данных и зашифрованных шахт должен обеспечивать общую надежность энергосистемы».
Представитель Oracle ответил: «Обеспечение стабильности электросети является основным принципом проектирования гипермасштабируемого центра обработки данных Oracle. Компания тесно сотрудничает с Lancium и координирует свои действия с местными энергетическими компаниями для обеспечения безопасной работы энергосистемы».