Transformer

Продолжаем про генерацию видео (сделаю вид, что с предыдущего поста прошло два дня).

ModelScope — это новая диффузионная модель для генерации видео из текста. Она работает аналогично генеративному ИИ для изображений: превращает запрос в видео.

У модели есть несколько ограничений:

1. Она работает только с разрешением 256x256. Но это нормально: мы только в начале бума генерации видео.
2. Слово «Shutterstock» присутствует почти на каждом видео в их демо 🤦‍♂️. Интересно, откуда они получили данные для обучения.

Посмотрите, что можно сделать с такой моделью.

Google Colab

👍12❤5🔥2

68.7K views08:01

Transformer

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Начнём с того, что на видео автор канала делает скручивания на пресс в пластилиновой и бумажной вселенных. Вот что такое мультивселенная безумия на самом деле, Доктор Стрэндж!

Сделать это возможно с новой моделью для обработки видео Gen-1. Что может эта модель:

1. Стилизовать видео на основе картинки (как это сделал я)
2. Стилизовать видео на основе текстового промпта
3. Изменять участки видео на основе текстового промпта (inpainting)

Модель уже доступна всем желающим, попробовать можно тут. Как её можно использовать:

- Создавать свои мультфильмы на основе видео, снятого на телефон. Вот так можно сделать из своего туалета целую студию.
- Соединять ChatGPT с сервисами по созданию видео. Пусть машины работают.

У этой модели уже вышло продолжение Gen-2, которое пока не в общем доступе. Расскажу об этом в следующем посте.

👍77❤7🔥2

73.9K views08:02

About

Blog

Apps

Platform