Линейка открытых моделей Kandinsky 5.0 для создания изображений и видео нового поколения
Краткое резюме
На конференции AI Journey представили новые модели линейки Kandinsky 5.0 с открытым исходным кодом: Kandinsky 5.0 Image Lite (6B) и Kandinsky 5.0 Video Pro (19B). Они превосходят существующие решения и поддерживают запросы на русском и английском языках.
В сентябре мы предоставили доступ к облегчённой версии модели Kandinsky 5.0 Video Lite, которая содержит 2 миллиарда параметров и предназначена для создания видео на основе текста или изображения. Пользователи положительно оценили эту модель, а мы получили ценные отзывы.
По просьбам разработчиков мы внедрили поддержку инференса модели на домашних видеокартах с объёмом памяти от 12 Гб и предоставили код для настройки модели под конкретные задачи с помощью LoRA-адаптеров.
На конференции AI Journey неделю назад мы объявили о выпуске всех остальных моделей линейки Kandinsky 5.0 с открытым исходным кодом:
* Kandinsky 5.0 Image Lite (6B) — универсальные модели для генерации и редактирования изображений в HD-разрешении;
* Kandinsky 5.0 Video Pro (19B) — мощные модели для создания видео по тексту и «оживления» изображений, генерирующие видеоролики длительностью до 10 секунд в HD-разрешении. Эти модели являются лучшим решением с открытым исходным кодом на момент публикации, значительно превосходя Wan 2.2 A14B и работая на уровне Veo 3 по визуальному качеству и динамике.
Все модели учитывают русский культурный контекст, поддерживают запросы на русском и английском языках и создают надписи на кириллице и латинице.
Более детальное описание моделей доступно на GitHub, а тех, кто хочет глубже погрузиться в устройство моделей и процесс их обучения, ждёт техническая статья.
В статье о Kandinsky 5.0 Video Lite мы подробно описали архитектуру наших моделей. В этой статье мы расскажем о ключевых особенностях флагманских моделей Text-to-Video и Image-to-Video Pro, подходах к обучению Text-to-Image и Image Editing Lite, а также о техниках, которые позволили достичь высокого уровня качества генерации.
Kandinsky 5.0 Video Pro (19B) отличается от Video Lite следующим:
* **Высокое разрешение и различные варианты соотношения сторон.** Video Lite работает в разрешении до 512×768 пикселей, а Video Pro поддерживает генерацию в разрешении до 1024×1024, 1408×640 или 1280×768. Это позволяет создавать видео с высокой степенью детализации и сложной композицией.
* **Более глубокая архитектура.** Модель использует 60 блоков нашей архитектуры диффузионного трансформера CrossDiT с перекрёстным вниманием (против 32 в Lite) и увеличенную размерность эмбеддингов (4096 против 1792). Это позволяет ей лучше понимать сложные сцены и тонкие взаимосвязи между объектами.
* **Оптимизации.** Генерация 10-секундного видео в максимальном разрешении требует значительных временных и вычислительных ресурсов. Для этого мы внедрили различные техники оптимизации и ускорения, включая разработанный нами механизм разреженного внимания NABLA для работы с видеопоследовательностями.
* **Высокое качество.** Расширенный объём данных, тщательно отобранных экспертами для этапа supervised fine-tuning (SFT), позволил значительно повысить визуальное качество и естественность движения объектов в динамичных сценах.