Исследователи NVIDIA запустили новую технологию KVTC (KV Cache Transformation Coding), которая может сократить использование памяти большими языковыми моделями (LLM) для отслеживания истории разговоров до 20 раз без изменения самой модели.Ожидается, что этот прорыв решит проблему нехватки памяти во время длительного разговора и рассуждений в больших языковых моделях.Это значительно снижает затраты на оборудование для предприятий, использующих ИИ, а также ускоряет время, необходимое модели для первого генерирования ответа, до 8 раз.

Проще говоря,Ядром технологии KVTC является кэш KV, обеспечивающий сжатие больших языковых моделей — он эквивалентен «краткосрочной памяти» модели ИИ.. Мы можем думать о кэше KV как о студентах, делающих заметки: когда модель обрабатывает диалог, она записывает ключевую информацию (то есть ключ и значение). При следующем формировании ответа нет необходимости пересчитывать весь диалог с нуля, а скорость ответа можно значительно улучшить.

Но проблема в том, что чем дольше разговор, тем больше будет «заметка», и она даже расширится до нескольких ГБ, занимая много памяти графического процессора, что будет замедлять работу модели и ограничивать ее вычислительные возможности.

Адриан Ланкуки, старший инженер по глубокому обучению в NVIDIA, сказал: «При выводе больших языковых моделей узким местом производительности часто является не вычислительная мощность, а память графического процессора». Эти временно неиспользуемые кэши KV всегда будут занимать драгоценные ресурсы графического процессора, вынуждая систему переносить их в память процессора или на жесткий диск. Это не только увеличит нагрузку на передачу данных, но также может вызвать новые проблемы с задержками. Эти дополнительные затраты в конечном итоге будут отражены в плате за использование предприятия.

По сравнению с существующей технологией сжатия KVTC не имеет очевидных ограничений. Он основан на знакомой идее сжатия изображений JPEG и может обеспечить эффективное сжатие с помощью трех простых шагов: «анализа главных компонентов, адаптивного квантования и энтропийного кодирования».

Что еще удобнее, эта технология не требует изменения основных настроек и кода модели. Это «неинтрузивный» дизайн, который может быть быстро развернут предприятиями. Его основное преимущество заключается в том, что он может захватывать характеристики «важнейших данных» кэша KV, удалять избыточные данные, сохраняя при этом ключевую информацию, и распаковывать их блоками и слой за слоем, не влияя на реакцию модели в реальном времени.

Несколько раундов тестирования показали, чтоПроизводительность KVTC намного превосходит существующие традиционные методы. На различных моделях с параметрами от 1,5 млрд до 70 млрд (в том числе серии Llama 3, R1-Qwen 2,5 и т. д.) даже при 20-кратном сжатии памяти точность модели практически не страдает, с потерей менее 1%, что почти так же, как и без сжатия.; Однако если традиционный метод сжатия сжимает только 5 раз, точность значительно снизится.

кроме того,При обработке 8000 запросов токенов на графическом процессоре H100 для генерации первого ответа без использования KVTC требуется 3 секунды, а после его использования — всего 380 миллисекунд, что в 8 раз быстрее.

Следует отметить, что KVTC больше подходит для длинных диалогов и сценариев многораундового взаимодействия, таких как помощники по программированию, итеративные рассуждения агентов и т. д. Если диалог короткий, трудно реализовать его значение сжатия.

В настоящее время NVIDIA планирует интегрировать эту технологию в менеджер блоков KV платформы Dynamo, сделав ее совместимой с основными механизмами вывода с открытым исходным кодом, такими как vLLM.

Инсайдеры отрасли полагают, что, поскольку длина разговора, которую могут обрабатывать большие языковые модели, продолжает увеличиваться, стандартизированные технологии сжатия, такие как KVTC, могут стать в будущем такими же популярными, как и сжатие видео, что поможет более широкому применению ИИ.