Transformer

Написал статью про новые методы редактирования изображений с помощью генеративных сеток: Prompt-to-Prompt и InstructPix2Pix.

https://syntha.beehiiv.com/p/new-generative-ai-open-source-models-for-image-editing

Denis Volkhonskiy

New Generative AI Open-Source Models for Image Editing

Prompt-to-Prompt, InstructPix2Pix. How to detect AI-generated text.

👍7❤1🔥1

14.7K views18:19

Transformer

Сколько стоит создать иконку для приложения? На фриланс бирже Fiver за такое просят 5-10 долларов за иконку. Заказ обещают выполнить за 24 часа.

На днях наткнулся на сервис IconifyAI, который заменяет фрилансеров нейросетью. Сервис решает ровно одну функцию — генерацию иконки для вашего приложения.

Вы выбираете объект, которых хотите видеть на иконке, стиль, цвет и форму. Спустя пару минут получаете целый набор иконок. Пятнадцать штук обойдутся в десять долларов.

Предположу, что под капотом работает либо Stable Diffusion, либо DALLE 2. Обе нейронки позволяют генерировать изображения из текстового описания (это называется prompt). Чтобы получить от нейросети иконки, нужно лишь правильным образом составить prompt. Например, “app icon with a realistic dog sitting on a chair, round shape, blue and yellow colors”. Задача IconifyAI — правильно сформировать prompt и отправить API запрос на сервер.

Интересно, что основателю проекта пятнадцать лет, что не может не восхищать.

Думаю, стоит обновить логотип этого канала на сгенерированный нейросетью (я использовал Midjourney). 👇

🔥11👍5😁1

21.7K views18:06

Transformer

Channel photo updated

18:06

Transformer

Написал статью про 11 стартапов в области генеративного ИИ для изображений. Базы данных сгенерированных изображений, генерация аватаров, профилей для сайтов знакомств и виртуальная пересадка волос.

https://syntha.beehiiv.com/p/11-generative-ai-startups-without-chatgpt

Denis Volkhonskiy

11 Generative AI startups without ChatGPT

Photo stocks, avatar generation, dating profiles and hair transplantation

👍13🔥1😁1

27.6K views09:07

Transformer

Картинки генерировать ± умеем. Что дальше?

Модели Stable Diffusion, Midjourney и DALLE-2 показали впечатляющие результаты в генерации изображений. Закономерный вопрос: а как генерировать видео? Про это расскажу в этом и следующем посте.

Видео — структура более сложная, чем картинки. Можно сказать, что видео — это набор картинок, плавно перетекающих из одной в другую. Если мы хотим сгенерировать изображение размером 512x512 пикселя, то нам нужно предсказать 3x512x512=786,432 значения. Если же мы хотим сгенерировать всего лишь секунду видео, то нам нужно сгенерировать 30 таких кадров, а это 23,592,960 значений.

Обучать такие модели сильно сложнее. Поэтому встаёт вопрос: можно ли использовать существующие модели для картинок, чтобы генерировать видео? В недавней работе **Tune-A-Video** авторы показали, что да, можно.

Их метод дообучает натренированную модель для генерации картинок, используя всего лишь одну пару текст-видео. После этого вы можете генерировать похожие видео, меняя стиль видео, объект на видео или другие детали. Например, заменить человека на обезьяну или зайца на льва.

Работает, конечно, не идеально. Но это значительный шаг к генерации качественного видео. Ниже приложу примеры. А ещё больше примеров можете посмотреть на сайте проекта: https://tuneavideo.github.io/.

👍6🔥3

44.7K views07:36

Transformer

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Первое видео для дообучения. Остальные сгенерированы со следующими промптами:

- Spider Man is skiing on the beach, cartoon style
- Wonder Woman, wearing a cowboy hat, is skiing
- A man, wearing pink clothes, is skiing at sunset

👍8🔥4❤1

53K views07:36

Transformer

This media is not supported in your browser

VIEW IN TELEGRAM

Продолжаем про генерацию видео (сделаю вид, что с предыдущего поста прошло два дня).

ModelScope — это новая диффузионная модель для генерации видео из текста. Она работает аналогично генеративному ИИ для изображений: превращает запрос в видео.

У модели есть несколько ограничений:

1. Она работает только с разрешением 256x256. Но это нормально: мы только в начале бума генерации видео.
2. Слово «Shutterstock» присутствует почти на каждом видео в их демо 🤦‍♂️. Интересно, откуда они получили данные для обучения.

Посмотрите, что можно сделать с такой моделью.

Google Colab

👍12❤7🔥2

71.5K views08:01

Transformer

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Начнём с того, что на видео автор канала делает скручивания на пресс в пластилиновой и бумажной вселенных. Вот что такое мультивселенная безумия на самом деле, Доктор Стрэндж!

Сделать это возможно с новой моделью для обработки видео Gen-1. Что может эта модель:

1. Стилизовать видео на основе картинки (как это сделал я)
2. Стилизовать видео на основе текстового промпта
3. Изменять участки видео на основе текстового промпта (inpainting)

Модель уже доступна всем желающим, попробовать можно тут. Как её можно использовать:

- Создавать свои мультфильмы на основе видео, снятого на телефон. Вот так можно сделать из своего туалета целую студию.
- Соединять ChatGPT с сервисами по созданию видео. Пусть машины работают.

У этой модели уже вышло продолжение Gen-2, которое пока не в общем доступе. Расскажу об этом в следующем посте.

👍77❤10🔥2

76.9K views08:02

About

Blog

Apps

Platform