Обновлённая версия технологии позволяет генерировать реалистичные видеоролики на основе текстового описания или исходного кадра. Она предназначена как для обычных пользователей, например, для создания анимированных поздравлений, так и для профессионалов — дизайнеров, маркетологов и мультипликаторов, которым Kandinsky станет надёжным помощником в разработке трейлеров, клипов и другого контента.
Старший вице-президент по технологическому развитию ПАО Сбербанк Андрей Белевцев отметил значительное улучшение модели за прошедший год:
«С момента выпуска первой версии Kandinsky Video на AI Journey 2023 наша команда сделала большой шаг вперёд, повысив качество и скорость генерации видео. Это открывает новые горизонты для творческого самовыражения и применения технологии в различных продуктах. С каждым обновлением мы приближаем тот момент, когда искусственный интеллект сможет обрабатывать данные разных типов и из различных доменов, достигая уровня синергии, сравнимого с человеческим восприятием. Kandinsky Video вносит значительный вклад в развитие этих возможностей.»
Продолжительность и разрешение: Kandinsky 4.0 Video способна создавать видеоролики длиной до 12 секунд в разрешении HD (1280×720), адаптируясь под различные соотношения сторон для удовлетворения потребностей пользователей и бизнеса.
Качество и реалистичность: Основные улучшения включают высокую чёткость изображения, повышенный контраст, продуманную композицию сцен и естественную передачу движений объектов. Эти результаты стали возможны благодаря слаженной работе исследователей и инженеров, которые оптимизировали архитектуру модели и тщательно отбирали данные для обучения.
Помимо основной версии, команда разработчиков представила Kandinsky 4.0 Video Flash. Эта модель может создавать видеоролики в разрешении 480p (720×480) длиной до 12 секунд всего за 15 секунд, что делает её идеальной для задач, требующих мгновенного результата.
Kandinsky 4.0 Video — это ансамбль моделей, где ключевую роль играет диффузионный трансформер с 5 миллиардами параметров. Благодаря современным алгоритмам и инновационным подходам к обучению больших моделей, разработчикам удалось эффективно обучить систему на масштабных видеоданных. Разработка велась специалистами Sber AI при участии учёных из AIRI, используя объединённые датасеты Сбера.
Первыми оценить возможности Kandinsky 4.0 Video смогут представители творческих профессий: художники, дизайнеры, кинематографисты. Для них модель будет доступна через инструмент Fusion Brain, позволяющий создавать мини-фильмы, включая сценарий, видеоряд и звуковое сопровождение. Ожидается, что широкая аудитория получит доступ к модели в первом квартале 2025 года.