27 октября компания Meituan официально объявила, что команда Meituan LongCat официально выпустила модель генерации видео LongCat-Video. Эта модель основана на архитектуре Diffusion Transformer и может поддерживать три основные задачи: видео Wensheng, видео Tusheng и продолжение видео, и утверждает, что достигла продвинутого уровня среди моделей с открытым исходным кодом.


По имеющимся данным, LongCat-Video может генерировать видео высокой четкости с разрешением 720p и частотой кадров 30. Его выдающейся особенностью является то, что он может генерировать связный видеоконтент продолжительностью до 5 минут. С помощью таких механизмов, как предварительное обучение продолжению видео и блокирование разреженного внимания, модель направлена ​​на решение общих проблем, таких как разрывы изображения и ухудшение качества при создании длительного видео, сохраняя при этом временную последовательность и рациональность движения.

С точки зрения эффективности, в модели используются такие технологии, как двухэтапная генерация, разреженное внимание блоков и дистилляция модели. По словам чиновников, скорость вывода увеличивается более чем в 10 раз. Число параметров модели составляет 13,6 миллиардов, и она показала хорошее выравнивание текста и согласованность движений в общедоступных тестах, таких как VBench.

В качестве технической попытки построить «модель мира» LongCat-Video может быть применена к сценариям, требующим долгосрочного моделирования, таким как моделирование автономного вождения и воплощенный интеллект в будущем. Выпуск этой модели знаменует собой важный шаг для Meituan в области генерации видео и моделирования физического мира.