OpenAI в последнее время была недовольна производительностью некоторых чипов искусственного интеллекта NVIDIA последнего поколения в процессе вывода, особенно в конкретных случаях использования, таких как разработка программного обеспечения и взаимодействие моделей с другими программными системами. Компания считает, что существующее оборудование не может удовлетворить спрос с точки зрения скорости отклика, поэтому с прошлого года систематически ищет альтернативы. Это усложняет отношения между самой известной компанией по моделированию искусственного интеллекта и основным поставщиком, на которого она уже давно полагается.

В отчете отмечается, что, хотя Nvidia по-прежнему доминирует в области графических процессоров для обучения больших моделей, стратегический фокус OpenAI смещается в сторону этапа вывода, который является частью операции, на которой модель выводит ответы конечным пользователям. В этой связи задержка и производительность пропускной способности напрямую связаны с пользовательским опытом и структурой затрат, поэтому OpenAI надеется, что некоторые рабочие нагрузки можно будет перенести на новые чипы, которые больше подходят для сценариев вывода с высокой пропускной способностью и низкой задержкой.
OpenAI и NVIDIA первоначально продвигали соглашение об инвестициях и поставках на сумму около 100 миллиардов долларов США: NVIDIA планировала обменять инвестиции на акции OpenAI, одновременно предоставив ему крупномасштабные ресурсы передовых чипов в ближайшие несколько лет. Первоначально предполагалось, что эта сделка, которую внешний мир считал «завершенной», будет завершена в ближайшее время, но теперь переговоры отложены на несколько месяцев. С одной стороны, это связано с тем, что OpenAI подписала новые соглашения о закупках или сотрудничестве графических процессоров с такими производителями, как AMD, а с другой стороны, изменения в дорожной карте ее продуктов повлияли на спрос на тип и долю вычислительных ресурсов.
В публичных заявлениях обе стороны по-прежнему стараются изо всех сил поддерживать позитивный имидж своих отношений сотрудничества. Генеральный директор NVIDIA Джен-Сун Хуанг недавно опроверг наличие напряженных отношений с OpenAI, назвав заявления о разногласиях «полной чепухой» и подчеркнув, что компания по-прежнему планирует делать масштабные инвестиции в OpenAI; NVIDIA заявила, что клиенты продолжают выбирать ее продукты для рабочих нагрузок вывода, поскольку они по-прежнему имеют преимущества в производительности и совокупной стоимости владения. Представитель OpenAI также заявил, что компания по-прежнему полагается на NVIDIA в «подавляющем большинстве» своих кластеров вывода, полагая, что последний по-прежнему лидирует по производительности вывода и экономической эффективности.
Однако несколько источников, близких к ситуации, сообщили, что OpenAI не удовлетворена скоростью оборудования Nvidia при выполнении определенных категорий задач вывода и считает, что ее опыт работы с такими продуктами, как генерация кода, ограничен. С этой целью OpenAI планирует представить новое оборудование, которое сможет удовлетворить примерно 10% будущих потребностей в вычислительной мощности для вывода в качестве дополнения к существующим кластерам графических процессоров. Попутно компания вела переговоры со стартапами, включая Cerebras и Groq, надеясь использовать их опыт в ускорении вывода.
На техническом уровне OpenAI фокусируется на архитектурах, которые интегрируют как можно больше встроенной статической памяти (SRAM) в один и тот же чип. Такой тип конструкции может значительно сократить путь вычислительных блоков к доступу к параметрам и промежуточным данным, тем самым улучшая скорость ответа чат-ботов и других систем искусственного интеллекта при обработке массовых запросов. Напротив, традиционные графические процессоры Nvidia и AMD полагаются на внешнюю видеопамять, что увеличивает задержку доступа к памяти на этапе вывода, оставляя чип в состоянии «ожидания данных» в течение длительного времени.
Это узкое место наиболее интуитивно проявляется в программных продуктах OpenAI, предназначенных для программистов. Некоторые сотрудники компании объясняют некоторые недостатки аппаратной архитектуры на базе графических процессоров и считают, что для того, чтобы удовлетворить высокую чувствительность профессиональных пользователей к скорости, им следует искать микросхемы вывода со структурными преимуществами. Генеральный директор Сэм Альтман также заявил в общении со СМИ в конце января, что корпоративные пользователи «придают чрезвычайно большое значение» скорости при использовании модели на основе кода, в то время как обычные пользователи чат-ботов имеют относительно более высокую терпимость к скорости ответа.
Чтобы повысить скорость вывода, OpenAI недавно заключила соглашение о сотрудничестве с Cerebras, которая предоставила ему вычислительную платформу нового поколения, которая считается важной частью удовлетворения потребностей высококлассных клиентов с низкой задержкой. В то же время инсайдеры отрасли отметили, что конкуренты, такие как Claude от Anthropic и Gemini от Google, больше полагаются на самостоятельно разработанный Google тензорный процессор (TPU) при развертывании. Этот тип выделенного чипа имеет определенные преимущества в производительности по сравнению с графическими процессорами общего назначения в рассуждениях и сложных задачах вывода, а также усилил давление на Nvidia в новом раунде конкуренции аппаратного обеспечения искусственного интеллекта.
Столкнувшись с изменениями в требованиях клиентов и новой конкуренцией, NVIDIA также взяла на себя инициативу и связалась с группой компаний-производителей микросхем, специализирующихся на архитектуре SRAM с высокой пропускной способностью, включая Cerebras и Groq, чтобы изучить возможность приобретений или углубленного сотрудничества. Cerebras в конечном итоге отверг вариант приобретения и вместо этого подписал коммерческое соглашение с OpenAI; Однажды Groq вел переговоры с OpenAI о предоставлении компьютерных услуг и привлек интерес инвесторов к вливанию капитала на сумму около 14 миллиардов долларов США.
Однако в декабре прошлого года Nvidia заключила неисключительное лицензионное соглашение на технологию Groq за вознаграждение примерно в 20 миллиардов долларов США и последовательно переманила у Groq команду разработчиков чипов. После этой сделки бизнес-направление Groq сместилось на продажи облачного программного обеспечения, и Nvidia рассматривала это как важное дополнение к своей собственной дорожной карте продуктов, призванное восполнить недостатки технологии ускорения вывода в быстро развивающейся индустрии искусственного интеллекта.