D. Lab

😱

OpenAI показал Sora — модель для генерации фотореалистичных видео

🔩

Sora способна генерировать видео длиной до минуты, следуя сложным пользовательским промптам на всем протяжении клипа. Модель также может анимировать статичный кадр и «расширить» исходное видео.

☝️ Диффузионная модель создает сцены с несколькими персонажами, сложными паттернами движений; может сгенерировать несколько кадров в одном видео, которые будут выдержаны в едином стиле; передать эмоции персонажей, прописанные в промпте.

☁️ OpenAI говорят, что Sora («небо» в переводе с японского) не просто следует промпту, но и понимает, какое место генерируемые объекты занимают в «физическом» мире. Что-то подобное мы слышали в недавнем анонсе Runway.

🧨 Те примеры генераций, которыми поделились разработчики, действительно выглядят потрясающе — тот же Gen-2 ничем подобным похвастаться не может. Длятся они, правда, не по минуте, а около 10–15 секунд.

🛑 Другое дело, что обычным пользователям модель недоступна и оценить ее реальные возможности не получится. OpenAI открыл Sora только для избранных разработчиков, художников, дизайнеров и киноделов. Все остальные в ближайшее время доступа к модели не получат. Все из-за опасений, что модель может быть использована для распространения фотореалистичных фейков.

😐 Среди слабых мест текущей версии модели разработчики называют передачу физических свойств объектов и причинно-следственные связи внутри сцены (например: откушенное человеком печенье останется целым). Также Sora может перепутать левую сторону с правой и допустить ошибки при генерации событий, которые происходят в течение какого-то отрезка времени (скажем, поведение камеры на протяжении видео).

Please open Telegram to view this post