Stable Virtual Camera: Революционно-простое решение для создания 3D-видео из обычных фото

Опубликовано: March 21, 2025

Компания Stability AI представила новый продукт под названием «Stable Virtual Camera» — систему искусственного интеллекта, которая может конвертировать обычные фотографии в 3D-видео без необходимости в сложных процессах 3D-реконструкции или сценического редактирования.

Эта система способна создавать 360-градусные короткометражные видео до 30 секунд, используя только одну фотографию или до 32 изображений. Она поддерживает 14 различных движений камеры, включая полное вращение на 360 градусов, спиральные движения, эффекты масштабирования, а также сложные траектории, такие как лемнискаты (петлеобразные пути). Согласно заявлениям Stability AI, все сгенерированные изображения отличаются трехмерностью, синхронностью и, соответственно, «стабильностью».

Система может работать с разными форматами изображений: квадратными (1:1), портретными (9:16) и альбомными (16:9). Это стало настоящим сюрпризом для исследователей, поскольку модель обучалась на квадратных изображениях размером 576×576 пикселей. Команда предполагает, что модель автоматически научилась обрабатывать изображения различных форматов.

«Stable Virtual Camera» построена на модели диффузии с 1,3 миллиарда параметров, основанной на архитектуре Stable Diffusion 2.1. Для улучшения восприятия пространства исследователи преобразовали 2D-самосознание модели в 3D.

Процесс обработки изображений включает два этапа: на первом этапе генерируются «опорные изображения» из исходных данных, а на втором — создаются необходимые перспективы между этими опорными точками. Разработчики утверждают, что эта двухступенчатая методика обеспечивает последовательность и стабильность результатов.

Тесты показали, что Stable Virtual Camera превосходит существующие решения, такие как ViewCrafter и CAT3D, особенно при значительных изменениях перспективы и необходимости плавных переходов.

Тем не менее, система всё ещё испытывает трудности с точной визуализацией людей, животных и динамических объектов, таких как водные поверхности. Визуальные артефакты могут возникать при сложных движениях камеры или при работе с неоднозначными сценами, особенно когда целевая перспектива резко отличается от оригинала.

Сейчас система доступна исследователям на некоммерческой основе, а соответствующие модельные веса и исходный код можно найти на Hugging Face и GitHub. Также доступна публичная демонстрационная версия на Hugging Face.

После первых успехов в генерации изображений, Stability AI сталкивается с растущей конкуренцией как со стороны проектов с открытым исходным кодом, так и со стороны коммерческих компаний, среди которых выделяется Flux как заметная альтернатива в создании изображений с открытым кодом.

Недавно компания провела реорганизацию, чтобы сосредоточиться на двух основных направлениях: продвижении исследований в области 3D-обработки и синтеза новых изображений, а также разработке оптимизированных моделей для маломощных устройств, таких как смартфоны.

[Источник](https://the-decoder.com/stable-virtual-camera-generates-3d-videos-from-single-images/)