Во вторник по восточному времени компания Google выпустила новейший алгоритм, который произвел настоящий фурор в технологическом кругу Кремниевой долины: сверхэффективный алгоритм сжатия памяти искусственного интеллекта TurboQuant. Google утверждает, что этот алгоритм может уменьшить объем кэш-памяти больших языковых моделей как минимум в 6 раз и повысить производительность в 8 раз без потери точности. По сути, это позволяет искусственному интеллекту запоминать больше информации, занимая при этом меньше места в памяти.

Как только этот алгоритм был выпущен, акции чипов в США упали. Google и Уолл-стрит также начали горячую дискуссию: может ли нынешняя катастрофа с нехваткой чипов памяти, от которой страдают многие технологические гиганты, закончиться на этом?
Что такое ТурбоКвант?
Для начала давайте поговорим о том, что именно представляет собой этот алгоритм TurboQuant.
Согласно представлению Google на официальном сайте, TurboQuant — это метод сжатия, который может значительно уменьшить размер модели без потери точности, поэтому он очень подходит для поддержки сжатия кэша «ключ-значение» (KV Cache) и векторного поиска. Это достигается посредством двух ключевых шагов:
1. Высококачественное сжатие (метод PolarQuant): TurboQuant сначала случайным образом вращает вектор данных. Этот умный шаг упрощает геометрию данных, позволяя легко применять стандартный высококачественный квантователь к каждой части вектора отдельно. На первом этапе используется большая часть мощности сжатия (большая часть битов) для сохранения основных понятий и особенностей исходных векторов.
2. Устранение скрытых ошибок: TurboQuant использует небольшую оставшуюся мощность сжатия (всего 1 бит) для применения алгоритма QJL к небольшим ошибкам, оставшимся с первого этапа. Этап QJL действует как средство проверки математических ошибок, устраняя предвзятость и приводя к более точным оценкам внимания.
Проще говоря, TurboQuant по существу сжимает модель ИИ, сохраняя при этом базовую структуру модели ИИ неизменной и не требует предварительной обработки или специальных калибровочных данных.
Google утверждает, что они использовали модели длинного контекста с открытым исходным кодом (Gemma и Mistral) для тщательной оценки трех алгоритмов TurboQuant, PolarQuant и KIVI в многочисленных тестах производительности, включая LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval.
Экспериментальные данные показывают, что TurboQuant обеспечивает оптимальную производительность оценки с точки зрения искажения скалярного произведения и отзыва, одновременно сводя к минимуму использование памяти для пар «ключ-значение» (KV).

На рисунке выше показаны комплексные оценки производительности базовых алгоритмов TurboQuant, PolarQuant и KIVI в различных задачах, таких как ответы на вопросы, генерация кода и обобщение.
Google утверждает, что TurboQuant достиг отличных результатов во всех тестах, сократив при этом размер памяти для ключей как минимум в 6 раз.
Они планируют представить свои исследования на конференции ICLR 2026 в следующем месяце, а также продемонстрировать два метода достижения такого сжатия: метод квантования PolarQuant и метод обучения и оптимизации под названием QJL.
Наступает ли у Google момент DeepSeek?
Этот алгоритм Google многим напоминает вымышленную стартап-компанию Pied Piper из сериала HBO «Силиконовая долина» (транслировался с 2014 по 2019 год). В сериале Крысолов также разработал революционный алгоритм сжатия, который может значительно уменьшить размер файла при сжатии практически без потерь.

На самом деле технология TurboQuant, разработанная исследовательским институтом Google, также направлена на достижение максимального сжатия без потери качества, но она применяется для устранения основных узких мест систем искусственного интеллекта.
Генеральный директор Cloudflare Мэтью Принс и другие даже назвали это моментом Google DeepSeek, полагая, что ожидается, что он, как и DeepSeek, значительно сократит эксплуатационные расходы на искусственный интеллект за счет чрезвычайно высокого повышения эффективности, оставаясь при этом конкурентоспособным с точки зрения результатов.

«Вывод искусственного интеллекта все еще имеет большие возможности для оптимизации с точки зрения скорости, использования памяти, энергопотребления и использования», — написал он в статье о X.
Остынет ли спрос на чипы памяти?
Выпуск алгоритма Google происходит в то время, когда глобальная нехватка чипов памяти становится все более серьезной.
Поскольку крупнейшие мировые гиганты усердно работают над созданием инфраструктуры искусственного интеллекта, спрос на память продолжает расти, и дефицит предложения будет трудно устранить в краткосрочной перспективе. Разработчики крупных технологических компаний придумали различные инновационные способы преодолеть или, по крайней мере, справиться с нехваткой памяти, а TurboQuant от Google в настоящее время рассматривается людьми в технологической отрасли как устойчивое решение для снижения спроса на память.
Это ожидание, естественно, хорошо для технологических гигантов, стремящихся создать инфраструктуру искусственного интеллекта. Но для производителей чипов памяти результаты могут быть иными.
Под влиянием ожиданий, что спрос на память может снизиться, сектор чипов памяти в США резко упал вскоре после открытия торгов в среду по восточному времени: акции SanDisk упали на 6,5%, Micron Technology упали на 4%, Western Digital упали более чем на 4%, а Seagate Technology упали более чем на 5%.

Акции SanDisk резко упали в начале торгов в среду
На азиатской сессии в четверг акции SK Hynix упали на 4,42%, а Samsung - на 3,02% на момент публикации.
Шей Болур из Futurum Equity Research утверждает:
«Рынок рассматривает это как потенциальное препятствие для акций памяти, поскольку объем памяти, который может потребоваться для долгоконтекстного вывода ИИ для каждой рабочей нагрузки, теперь может быть значительно уменьшен».
Дамо высказывает противоположную точку зрения
Однако некоторые гиганты Уолл-стрит высказали противоположное мнение.
Например, аналитик Lynx Equity Strategies К.С. Раджкумар предположил, что технология TurboQuant, возможно, не такая «революционная», как ее описывают средства массовой информации.
Он сказал, что так называемое «8-кратное улучшение производительности» Google основано на сравнении со старой 32-битной моделью. Однако в текущей модели вывода широко используются 4-битные количественные данные, поэтому улучшение производительности не так уж и преувеличено.
Кроме того, Morgan Stanley также отметил, что технология Google TurboQuant воздействует только на кэш значений ключей на этапе вывода, не влияет на HBM, занимаемый весом модели, и не имеет никакого отношения к задаче обучения.
Таким образом, речь идет не о 6-кратном сокращении общих требований к памяти или общему оборудованию, а, скорее, об увеличении пропускной способности одного графического процессора за счет повышения эффективности — одно и то же оборудование может поддерживать в 4–8 раз более длинные контексты или значительное увеличение размера пакета без возникновения переполнения памяти.
Что еще более важно, Morgan Stanley далее процитировал «парадокс Джевонса», чтобы объяснить свое мнение о том, что спрос на память не снизится.
Парадокс Джевонса — важная концепция в экономике, которая относится к противоречивой взаимосвязи между технологическим прогрессом и потреблением ресурсов. Определение таково: когда технологический прогресс повышает эффективность, потребление ресурсов не только не уменьшается, но и увеличивается. Например, улучшенная паровая машина Уатта позволила более эффективно сжигать уголь, но результатом стал резкий рост спроса на уголь.
В Morgan Stanley считают, что, значительно снизив стоимость обслуживания одного запроса, TurboQuant может перенести модели, которые могут работать только на дорогих кластерах в облаке, на локальные, эффективно снижая порог для крупномасштабного развертывания ИИ, что может еще больше повысить общий спрос.
Фактически, DeepSeek, упомянутый генеральным директором Cloudflare Мэтью Принсом и другими, является наиболее ярким примером парадокса Джевонса: когда DeepSeek был выпущен в начале прошлого года, рынок был обеспокоен тем, что спрос на оборудование искусственного интеллекта остынет. Но дело в том, что повышение эффективности привело к дальнейшей популяризации приложений ИИ, а спрос на аппаратное обеспечение ИИ также снова возрос.