После того, как генеральный директор Tesla Илон Маск публично похвалил последние результаты исследований китайской компании в области искусственного интеллекта Kimi, официальный аккаунт Кими ответил сегодня в юмористическом тоне: «Ваша ракета тоже неплоха!»Недавно команда Кими опубликовала технический отчет, предлагающий новый механизм «Остатки внимания» для достижения разрушительной реконструкции традиционной остаточной связи, которая использовалась в области глубокого обучения в течение почти десяти лет и быстро привлекла внимание всего мира.

Традиционные остаточные соединения используют «накопление фиксированного равного веса» для передачи информации. Увеличение количества слоев может легко привести к размыванию поверхностной информации, низкой эффективности обучения и плохой стабильности.
Инновация Кими эквивалентна установке «интеллектуального фильтра» на ИИ, переноса механизма внимания Трансформатора на глубину модели, что позволяет каждому слою динамически фильтровать ранее полезную информацию, уменьшать избыточность и повышать эффективность передачи.
Чтобы избежать перегрузки памяти, команда разработала стратегию «остаточного блока внимания». После разделения модели на блоки в блоках сохраняется традиционное накопление для обеспечения стабильности.Между блоками используется динамическое взвешивание, а задержка вывода увеличивается менее чем на 2 %, обеспечивая баланс между производительностью и эффективностью.

Фактические измерения показывают, что эффективность обучения модели с параметрами 48B увеличивается в 1,25 раза, а оценки научных рассуждений и математических ответов на вопросы увеличиваются на 7,5% и 3,6% соответственно, что эффективно решает проблему дисбаланса традиционного обучения модели.
Маск, известный своей придирчивостью, рассказал об исследовании и отметил, что «работа Кими впечатляет». Его xAI находится в процессе реструктуризации, и это признание показывает его технический вес.
Кроме того, Джерри Творек, бывший вице-президент по исследованиям OpenAI, известный как «Отец моделей вывода», также написал: «Грядет глубокое обучение 2.0».
